DeepSeek-V4-Flash significa che la guida degli LLM è interessante di nuovo

Desde que Golden Gate Claude, he estado fascinado con el concepto de “guía”: la idea de que se puede guiar los resultados de los LLM mediante la manipulación directa de las activaciones del modelo durante la inferencia.

DeepSeek V4 Flash

Fue inspirado a escribir este post por el reciente proyecto de antirez, DwarfStar 4, que es una versión de llama.cpp que ha sido reducida a funcionar solo con DeepSeek-V4-Flash. ¿Qué es especial de este modelo? Puede ser lo que muchos ingenieros han estado esperando: un modelo local lo suficientemente bueno como para competir con al menos la parte baja de la frontera del modelo agente de codificación.

Dado que la guía requiere un modelo local, ahora es práctico para muchos ingenieros de probarlo por primera vez. Y efectivamente, antirez ha incorporado la guía en DwarfStar 4 como ciudadano de primera clase. Actualmente es muy rudimentario (basicamente solo el ejemplo de “verbosidad” juguetón que puedes replicar mediante el prompt), pero la primera liberación fue de solo ocho días. Tengo la intención de seguir este proyecto de cerca.

Cómo funciona la guía

La idea básica detrás de la guía es extraer un concepto (como “respondar concisamente”) del estado cerebral interno del modelo, luego llegar durante la inferencia y aumentar las activaciones numéricas que forman ese concepto.

Un modo para hacerlo es alimentar el modelo con el mismo conjunto de cien prompts dos veces, una vez con los prompts normales y una vez con las palabras “respondar concisamente” agregadas. Luego mide la diferencia en las activaciones del modelo para cada pareja de prompts (sustrayendo una matriz de activación de la otra). Eso es tu “vector de guía”. En teoría, puedes ir y agregar ese vector a la misma capa de activación para cualquier prompt y obtener el mismo efecto (del modelo que responde concisamente).

Otro modo más sofisticado para hacerlo es entrenar un segundo modelo para extraer “características” de las activaciones del modelo: patrones de comportamiento que parecen aparecer juntos. Luego puedes intentar mapear esas características de nuevo a conceptos individuales, y aumentarlas de la misma manera. Esto es más o menos lo que Anthropic está haciendo con los autoencoders esparsos. Es el mismo principio del enfoque ingenuo, pero te permite capturar patrones más profundos (a costa de ser mucho más costoso en términos de tiempo, cálculo y expertise).

Por qué la guía es interesante

La guía parece ser un código secreto. En lugar de ensamblar con cuidado un conjunto de entrenamiento que intenta empujar el modelo hacia la parte “inteligente” de la distribución de los datos de entrenamiento, ¿por qué no simplemente ir a descubrir el “dial inteligente” en el cerebro del modelo y girarlo todo a la derecha?

También parece ser un modo más elegante para ajustar la forma en que los modelos hablan. En lugar de hacerse la mano con el prompt (agregando o eliminando calificadores como “debes”), ¿no podríamos simplemente tener un panel de control de sliders como “succintezza/verbosidad” o “conscientiosidad/velocidad” y moverlos directamente?

Finalmente, es solo cool. Ver a Golden Gate Claude que reacio arrastra cada frase de nuevo al Puente de Golden Gate es tan fascinante y perturbador como los anécdotas neurologicas de Oliver Sacks. ¿Qué si tu propio cerebro hubiera sido modificado de manera similar? ¿Sería todavía tú?

Por qué la guía no ha sido usada

¿Por qué no usamos la guía de más, entonces? ¿Por qué ChatGPT y Claude Code no tienen ya un panel de control de guía donde puedes ajustar el cerebro del modelo en tiempo real? Una razón es que la guía es un poco una idea de “clase media” en la investigación AI.

Está debajo de la gran industria AI, que puede manipular sus propios modelos directamente sin tener que hacer la cirugía cerebral durante la inferencia. Anthropic está trabajando en esto, pero principalmente desde un punto de vista de interpretabilidad y seguridad (por lo que sé). Cuando quieren que un modelo se comporte de una manera determinada, no se hacen la mano con la guía, se entrenan el modelo.

La guía también está fuera de alcance para los usuarios AI regulares como tú y yo, que utilizamos LLM a través de una API y por lo tanto no tenemos acceso a los pesos del modelo o a las activaciones necesarias para guiar el modelo. Solo OpenAI puede identificar o exponer los vectores de guía para GPT-5.5, por ejemplo. Podríamos hacer esto para los modelos con pesos abiertos, pero hasta hace poco (más sobre esto después), era un no-starter.

DeepSeek-V4-Flash significa que la guía de los LLM es interesante de nuevo

Comentarios (0)