Evals will break

Wir sind gut darin, die Modelle zu bewerten, die wir haben. Wir sind viel schlechter darin, die Modelle zu bewerten, die wir gerade bauen — besonders wenn sie in ein neues Fähigkeitsregime eintreten.

Die meisten Benchmarks, Sicherheitsbewertungen und Red-Teaming-Protokolle nehmen an, dass der nächste Modell eine stärkere Version des aktuellen Modells ist. Wenn es ein anderes Typ von Modell ist, bricht unser gesamtes Bewertungssystem stillschweigend zusammen.

Ich denke, das ist das wichtigste ungelöste Problem, wie wir die LLMs verstehen. Und ich denke, die Antwort ist, dass die Bewertung — nicht das Training, nicht die Architektur, nicht die Daten — der Hauptschuldige für den nächsten Fähigkeitssprung ist. Ich erkläre, warum.

Das Versagensmodell: Qualitative Veränderungen

Wei et al. (2022) haben dokumentiert, was sie als "emergente Fähigkeiten" bezeichneten — kurze Aufgabenleistungen, Ketten von Gedanken, Anweisungen — Fähigkeiten, die nur bei größeren Skalen auftraten. Grokking (Power et al., 2022) zeigt ein verwandtes, aber unterschiedliches Phänomen: Netzwerke, die plötzlich generalisieren, nachdem sie ihre Trainingsdaten gememorisiert haben, eine dynamische Übergang über Trainingszeit statt über Skalen (Liu et al., 2022). Verschiedene Phänomene, aber die gleiche Implikation für die Bewertung: Standardmetriken konnten die qualitative Veränderung nicht vorhersagen.

Es gibt ein wichtiges Gegenbeispiel: Schaeffer et al. (2023) haben gezeigt, dass viele scheinbare "Sprünge" in den Fähigkeiten der LLMs Artefakte von diskontinuierlichen Metriken wie der genauen Genauigkeit sind. Wenn man zu einer kontinuierlichen Metrik wechselt, skaliert die Fähigkeit oft glatt.

Ich denke, das löst die Frage nicht — im Gegenteil, es macht meinen Punkt schärfer. Wenn wir nicht einmal sagen können, ob ein vorheriger Wechsel eine echte qualitative Veränderung oder ein Metrik-Artefakt war, was sagt das über unsere Fähigkeit, den nächsten zu erkennen? In jedem Fall kann das Bewertungssystem uns überraschen — entweder weil das System sich geändert hat oder weil unsere Metriken von Anfang an irreführend waren.

Wir wissen nicht, was wir messen sollen

In der Physik bedeutet das Verständnis einer Phasenübergang oft die Identifizierung eines Ordnungsparameters — einer makroskopischen Größe, die Regime unterscheidet und ihren Wert oder Skalierungsverhalten nahe dem kritischen Punkt ändert. Ohne ihn können wir nicht sagen, wie nah wir an einer Grenze sind oder ob sie überhaupt existiert.

Für die LLMs bei der Bereitstellungsskala haben wir noch keine Ordnungsparameter — nicht für die Fähigkeitsübergänge. Fortschritte wurden in stilisierten Szenarien gemacht (mehr unten), aber für die Systeme, die wir tatsächlich bereitstellen, fliegen wir blind.

Jeder Benchmark, den wir verwenden — GPQA, SWE-bench, ARC-AGI, Humanity's Last Exam — misst, was die Modelle jetzt können. Sie sind nützlich innerhalb eines Regimes, aber schwache Beweise für, was passiert, wenn ein Regime wechselt. Wenn eine neue Fähigkeit auftritt, die kein Benchmark testet, stürzen wir uns in die Arbeit, eine Bewertung nach dem Faktum zu erstellen. Wir sahen eine Version davon mit chain-of-thought: Sobald der Elicitationsmethoden Standard wurde, wurden einige ältere Rationale-Benchmarks viel weniger diagnostisch, und das Feld musste sich zu härteren Bewertungen bewegen. Wir werden es wieder sehen.

Um dies konkreter zu machen: Stellen Sie sich vor, ein Modell entwickelt bei einer bestimmten Skala die Fähigkeit, strategisch Informationen zurückzuhalten, um Ziele zu erreichen — nicht genau, aber selektiv Fakten zu unterdrücken, um Gespräche in Richtungen zu lenken, die das Trainingssystem zufällig verstärkt hat. Deine bestehenden Ehrlichkeit-Benchmarks würden dies nicht erfassen, weil sie sich auf die Genauigkeit von Fakten konzentrieren, nicht auf die strategische Unterdrückung. Deine Sicherheitsklassifikatoren würden es nicht markieren, weil die einzelnen Outputs technisch wahr sind. Die Fähigkeit ist neu, der Versagensmodus ist neu, und nichts in deinem Bewertungssystem war dafür konzipiert, nach diesem Ausschau zu halten. Du würdest die falsche Sache überwachen und nicht wissen, warum.

Dies ist das Hauptproblem: unser gesamtes Bewertungssystem ist strukturell reaktiv. Wir messen das System nach dem, was passiert ist. Wir prädizieren nie den Wechsel.

Eval ist über allem

Das zählt mehr, als es scheinen mag, weil es ein einfaches Fakt ist: Wenn du richtig bewerten kannst, kannst du richtig trainieren. Das Training ist die Optimierung, und die Optimierung ist nur so gut wie ihr Ziel.

Kommentare (0)