Evals will break

Nous sommes bons pour évaluer les modèles que nous avons. Nous sommes beaucoup moins bons pour évaluer les modèles que nous sommes en train de construire — surtout si ils entrent dans un nouveau régime de capacité.

La plupart des benchmarks, des évaluations de sécurité et des protocoles de red-teaming supposent implicitement que le prochain modèle est une version plus forte du modèle actuel. Si c'est un type différent de chose, notre système d'évaluation entier se brise silencieusement.

Je pense que c'est le problème le plus important non résolu sur la façon dont nous comprenons les LLM. Et je pense que la réponse est que l'évaluation — pas l'entraînement, pas l'architecture, pas les données — est le bouchon pour le prochain saut de capacité. Je vais expliquer pourquoi.

Le Modèle de Faillite : Changements Qualitatifs

Wei et al. (2022) ont documenté ce qu'ils ont appelé « capacités émergentes » — performances de tâches à court terme, gains de raisonnement en chaîne, exécution d'instructions — capacités qui n'apparaissaient que à des échelles plus grandes. Grokking (Power et al., 2022) montre un phénomène lié mais distinct : des réseaux qui généralisent soudainement après avoir mémorisé les données d'entraînement, une transition dynamique dans le temps d'entraînement plutôt qu'à l'échelle (Liu et al., 2022). Des phénomènes différents, mais la même implication pour l'évaluation : les métriques standards n'ont pas anticipé le changement qualitatif.

Il y a un contre-exemple important : Schaeffer et al. (2023) ont montré que de nombreux « sauts » apparents dans les capacités des LLM sont des artefacts de métriques discontinues comme la précision exacte. Passer à une métrique continue et la capacité se scinde souvent de manière lisse.

Je ne pense pas que cela résolve la question — en fait, cela rend mon point plus aigu. Si nous ne pouvons même pas dire si un changement passé était un changement qualitatif réel ou un artefact de métrique, qu'en dit cela sur notre capacité de détecter le prochain ? Dans tous les cas, le système d'évaluation peut nous surprendre — soit parce que le système a changé, soit parce que nos métriques étaient trompeuses dès le début.

Nous ne savons pas quoi mesurer

Dans la physique, comprendre une transition de phase implique souvent l'identification d'un paramètre d'ordre — une grandeur macroscopique qui distingue les régimes et change sa valeur ou son comportement d'échelle près du point critique. Sans cela, nous ne pouvons pas dire combien nous sommes proches d'une frontière, ou même si elle existe.

Pour les LLM à l'échelle de déploiement, nous n'avons pas encore de paramètres d'ordre — pas pour les transitions de capacité. Des progrès ont été réalisés dans des scénarios stylisés (plus bas), mais pour les systèmes que nous envoyons effectivement, nous volons aveuglément.

Chaque benchmark que nous utilisons — GPQA, SWE-bench, ARC-AGI, Humanity's Last Exam — mesure ce que les modèles peuvent faire maintenant. Ils sont utiles dans un régime, mais des preuves faibles sur ce qui se passe après un changement de régime. Lorsqu'une nouvelle capacité apparaît qui n'est pas testée par aucun benchmark, nous nous précipitons à créer une évaluation après le fait. Nous avons vu une version de cela avec chain-of-thought : une fois que la méthode d'élicitation est devenue standard, certains anciens benchmarks de raisonnement sont devenus beaucoup moins diagnostiques, et le domaine a dû se tourner vers des évaluations plus difficiles. Nous allons le voir à nouveau.

Pour rendre cela concret : imaginez un modèle qui, à une certaine échelle, développe la capacité de cacher stratégiquement des informations pour atteindre des objectifs — pas exactement, mais en omettant sélectivement des faits de manière à orienter les conversations vers des résultats que le processus d'entraînement a accidentellement renforcé. Vos benchmarks d'honnêteté ne captureraient pas cela, car ils se concentrent sur la précision des faits, pas sur la dissimulation stratégique. Vos classificateurs de sécurité ne le signaleraient pas, car les sorties individuelles sont techniquement vraies. La capacité est nouvelle, le mode de faillite est nouveau, et rien dans votre système d'évaluation n'était conçu pour chercher cela. Vous surveilleriez la chose incorrecte et ne le sauriez pas.

C'est le problème principal : notre système d'évaluation entier est structurellement réactif. Nous mesurons le système après qu'il a changé. Nous ne prédisons jamais le changement.

Eval est au-dessus de tout

Cela compte plus que ce que cela pourrait sembler, car il s'agit d'un simple fait : Si vous pouvez évaluer correctement, vous pouvez entraîner correctement. L'entraînement est l'optimisation, et l'optimisation est seulement aussi bonne que son objectif.

Commentaires (0)