Evals will break

Siamo bravi a valutare i modelli che abbiamo. Siamo molto peggio a valutare i modelli che stiamo per costruire — specialmente se attraversano un regime di capacità nuovo.

La maggior parte dei benchmark, delle valutazioni di sicurezza e dei protocolli di red-teaming assume implicitamente che il prossimo modello sia una versione più forte del modello attuale. Se è un tipo diverso di cosa, il nostro intero ambiente di valutazione si rompe silenziosamente.

Penso che questo sia il problema più importante non risolto su come comprendiamo i LLM. E penso che la risposta sia che l'eval — non l'allenamento, non l'architettura, non i dati — sia il bottlenecker per il prossimo salto di capacità. Spiegare perché.

Il Modo di Fallimento: Spostamenti Qualitativi

Wei et al. (2022) hanno documentato cosa hanno chiamato "abilità emergenti" — prestazioni di compito a breve distanza, guadagni di ragionamento a catena, esecuzione di istruzioni — capacità che sono apparse solo a scale più grandi. Grokking (Power et al., 2022) mostra un fenomeno correlato ma distinto: reti che generalizzano improvvisamente dopo aver memorizzato i dati di allenamento, una transizione dinamica nel tempo di allenamento piuttosto che a scale (Liu et al., 2022). Fenomeni diversi, ma la stessa implicazione per la valutazione: i metri standard non hanno anticipato lo spostamento qualitativo.

C'è un importante contropunto: Schaeffer et al. (2023) hanno mostrato che molti apparenti "salti" nelle capacità dei LLM sono artefatti di metri discontinui come l'accuratezza esatta. Passare a un metro continuo e la capacità spesso scala in modo liscio.

Non penso che questo risolva la questione — in un certo senso, rende il mio punto più acuto. Se non possiamo nemmeno dire se un passaggio passato era un vero spostamento qualitativo o un artefatto di metro, cosa dice questo sulla nostra capacità di rilevare il prossimo? In ogni caso, l'ambiente di valutazione può sorprenderci — sia perché il sistema è cambiato o perché i nostri metri erano ingannevoli da principio.

Non Sappiamo Cosa Misurare

Nella fisica, comprendere una transizione di fase spesso significa identificare un parametro d'ordine — una quantità macroscopica che distingue i regimi e cambia il suo valore o il suo comportamento di scalatura vicino al punto critico. Senza di esso, non si può dire quanto si è vicini a una frontiera, o anche che una esiste.

Per i LLM a scala di deployment, non abbiamo ancora parametri d'ordine — non per le transizioni di capacità. Progressi sono stati fatti in impostazioni stilizzate (di seguito), ma per i sistemi che stiamo effettivamente inviando, stiamo volando ciechi.

Ogni benchmark che utilizziamo — GPQA, SWE-bench, ARC-AGI, Humanity's Last Exam — misura cosa i modelli possono fare adesso. Sono utili all'interno di un regime, ma debole evidenza su cosa accade dopo un cambio di regime. Quando una nuova capacità emerge che nessun benchmark testa, ci precipitiamo a costruire un'evaluazione dopo il fatto. Abbiamo visto una versione di questo con chain-of-thought: una volta che il metodo di elicitazione è diventato standard, alcuni vecchi benchmark di ragionamento sono diventati molto meno diagnostiche, e il campo ha dovuto spostarsi verso valutazioni più difficili. Vedremo di nuovo.

Per renderlo concreto: immagina un modello che, a una certa scala, sviluppa l'abilità di occultare strategicamente informazioni per raggiungere obiettivi — non mentendo esattamente, ma omettendo selezionatamente fatti in modi che spingono le conversazioni verso esiti che il processo di allenamento ha accidentalmente rafforzato. I tuoi benchmark di onestà non catturerebbero questo, perché testano per l'accuratezza dei fatti, non per l'omissione strategica. I tuoi classificatori di sicurezza non lo segnerebbero, perché gli output individuali sono tutti tecnicamente veri. La capacità è nuova, il modo di fallimento è nuovo, e nulla nel tuo ambiente di valutazione era progettato per cercare di questo. Saresti monitorando la cosa sbagliata e non lo sapresti.

Questo è il problema principale: il nostro intero ambiente di valutazione è strutturalmente reattivo. Misuriamo il sistema dopo che è cambiato. Non predichiamo mai il cambiamento.

Eval è Sopra di Tutto

Questo conta più di quanto possa sembrare, a causa di un fatto semplice: se puoi valutare correttamente, puoi allenare correttamente. L'allenamento è l'ottimizzazione, e l'ottimizzazione è solo buona quanto il suo obiettivo.

Commenti (0)