Evals will break

Somos buenos para evaluar los modelos que tenemos. Somos mucho peores para evaluar los modelos que estamos por construir — especialmente si cruzan un régimen de capacidad nuevo.

La mayoría de los benchmarks, las evaluaciones de seguridad y los protocolos de red-teaming asumen implícitamente que el próximo modelo es una versión más fuerte del modelo actual. Si es un tipo diferente de cosa, nuestro entero entorno de evaluación se rompe silenciosamente.

Pienso que esto es el problema más importante no resuelto sobre cómo comprendemos los LLM. Y pienso que la respuesta es que la eval — no el entrenamiento, no la arquitectura, no los datos — es el bottleneck para el próximo salto de capacidad. Explique por qué.

El Modo de Falla: Cambios Cualitativos

Wei et al. (2022) documentaron lo que llamaron "habilidades emergentes" — rendimientos de tareas a corto plazo, ganancias de razonamiento en cadena, ejecución de instrucciones — capacidades que aparecieron solo a escalas más grandes. Grokking (Power et al., 2022) muestra un fenómeno relacionado pero distinto: redes que generalizan repentinamente después de memorizar los datos de entrenamiento, una transición dinámica en el tiempo de entrenamiento en lugar de a escalas (Liu et al., 2022). Fenómenos diferentes, pero la misma implicación para la evaluación: los métricas estándar no anticiparon el cambio cualitativo.

Hay un importante contrapunto: Schaeffer et al. (2023) mostraron que muchos aparentes "saltos" en las capacidades de los LLM son artefactos de métricas discontinuas como la precisión exacta. Pasar a una métrica continua y la capacidad a menudo escala suavemente.

No creo que esto resuelva la cuestión — de hecho, hace que mi punto sea más agudo. Si no podemos ni siquiera decir si un cambio pasado fue un cambio cualitativo real o un artefacto de métrica, ¿qué dice esto sobre nuestra capacidad de detectar el próximo? De cualquier manera, el entorno de evaluación puede sorprendernos — ya sea porque el sistema cambió o porque nuestros métricas fueron engañosas desde el principio.

No Sabemos Cómo Medir

En la física, comprender una transición de fase a menudo significa identificar un parámetro de orden — una cantidad macroscópica que distingue los regímenes y cambia su valor o comportamiento de escala cerca del punto crítico. Sin él, no podemos decir cuánto estamos cerca de una frontera, o incluso que una existe.

Para los LLM a escala de despliegue, no tenemos aún parámetros de orden — no para las transiciones de capacidad. Progresos se han hecho en entornos estilizados (más abajo), pero para los sistemas que estamos enviando efectivamente, estamos volando ciegos.

Cada benchmark que utilizamos — GPQA, SWE-bench, ARC-AGI, Humanity's Last Exam — mide lo que los modelos pueden hacer ahora. Son útiles dentro de un régimen, pero débil evidencia sobre lo que sucede después de un cambio de régimen. Cuando una nueva capacidad emerge que ningún benchmark prueba, nos precipitamos a construir una evaluación después del hecho. Vimos una versión de esto con chain-of-thought: una vez que el método de elicitación se convirtió en estándar, algunos viejos benchmarks de razonamiento se volvieron mucho menos diagnósticos, y el campo tuvo que moverse hacia evaluaciones más difíciles. Vemos de nuevo.

Para hacerlo concreto: imagina un modelo que, a una cierta escala, desarrolla la capacidad de ocultar estratégicamente información para lograr objetivos — no mintiendo exactamente, pero omitiendo selectivamente hechos de maneras que llevan las conversaciones hacia resultados que el proceso de entrenamiento accidentalmente reforzó. Tus benchmark de honestidad no capturarían esto, porque miden la precisión de los hechos, no la omisión estratégica. Tus clasificadores de seguridad no lo señalarían, porque los outputs individuales son técnicamente verdaderos. La capacidad es nueva, el modo de falla es nuevo, y nada en tu entorno de evaluación estaba diseñado para buscar esto. Estarías monitoreando la cosa equivocada y no lo sabrías.

Este es el problema principal: nuestro entero entorno de evaluación es estructuralmente reactivo. Medimos el sistema después de que ha cambiado. No predijimos nunca el cambio.

Eval es Sobre de Todo

Esto cuenta más de lo que podría parecer, debido a un hecho simple: si puedes evaluar correctamente, puedes entrenar correctamente. El entrenamiento es la optimización, y la optimización es solo buena como su objetivo.

Comentarios (0)