DeepSeek-V4-Flash significa che la guida degli LLM è interessante di nuovo

Depuis que Golden Gate Claude, j'ai été fasciné par le concept de “conduite” : l'idée que l'on peut guider les résultats des LLM en manipulant directement les activations du modèle pendant l'inference.

DeepSeek V4 Flash

J'ai été inspiré à écrire cet article par le récent projet de antirez, DwarfStar 4, qui est une version de llama.cpp qui a été réduite pour fonctionner uniquement avec DeepSeek-V4-Flash. Qu'est-ce qui est si spécial à ce modèle ? C'est peut-être ce que beaucoup d'ingénieurs attendent : un modèle local suffisamment bon pour concurrencer la partie inférieure de la frontière du modèle agente de codification.

Puisque la conduite nécessite un modèle local, il est maintenant pratique pour beaucoup d'ingénieurs de l'essayer pour la première fois. Et effectivement, antirez a intégré la conduite dans DwarfStar 4 comme citoyen de première classe. Actuellement, elle est très rudimentaire (basiquement seulement l'exemple de “verbosité” jouet qui peut être répliqué via le prompt), mais la première publication a été de seulement huit jours. J'ai l'intention de suivre ce projet de près.

Comment fonctionne la conduite ?

L'idée de base derrière la conduite est d'extrait un concept (comme “répondre brièvement”) du cerveau interne du modèle, puis d'y aller pendant l'inference et d'augmenter les activations numériques qui forment ce concept.

Un moyen de faire cela est de nourrir le modèle avec le même ensemble de cent prompts deux fois, une fois avec les prompts normaux et une fois avec les mots “répondre brièvement” ajoutés. Ensuite, mesure la différence dans les activations du modèle pour chaque paire de prompts (en soustrayant une matrice d'activation de l'autre). C'est ton “valeur de conduite”. En théorie, tu peux aller et ajouter ce vecteur à la même couche d'activation pour n'importe quel prompt et obtenir le même effet (du modèle qui répond brièvement).

Un autre moyen plus sophistiqué de faire cela est de former un deuxième modèle pour extraire “caractéristiques” des activations du modèle : des modèles de comportement qui semblent apparaître ensemble. Ensuite, tu peux essayer de mapper ces caractéristiques de nouveau à des concepts individuels, et les augmenter de la même manière. C'est plus ou moins ce que Anthropic fait avec les autoencoders sparsés. C'est le même principe que l'approche ingénue, mais il te permet de capturer des modèles plus profonds (à un coût plus élevé en termes de temps, de calcul et d'expertise).

Pourquoi la conduite est-elle intéressante ?

La conduite semble être un code secret. Au lieu de réunir avec soin un ensemble d'entraînement qui essaie de pousser le modèle vers la partie “intelligente” de la distribution des données d'entraînement, pourquoi ne pas simplement aller découvrir le “dial intelligent” dans le cerveau du modèle et le tourner tout à droite ?

Cela semble également être un moyen plus élégant de régler la façon dont les modèles parlent. Au lieu de se faire la main avec le prompt (ajouter ou supprimer des qualificatifs comme “tu dois”), ne pourrions-nous pas simplement avoir un panneau de contrôle de sliders comme “succinctness/verbosité” ou “responsabilité/vitesse” et les déplacer directement ?

Finalement, c'est juste cool. Regarder Golden Gate Claude qui refuse de traîner chaque phrase de nouveau vers le pont de Golden Gate est aussi fascinant et troublant que les anecdotes neurologiques d'Oliver Sacks. Qu'est-ce si ton propre cerveau avait été modifié de la même manière ? Serait-il encore toi ?

Pourquoi la conduite n'a-t-elle pas été utilisée ?

Pourquoi ne pas utiliser la conduite plus, alors ? Pourquoi ChatGPT et Claude Code n'ont-ils pas déjà un panneau de contrôle de conduite où tu peux ajuster le cerveau du modèle en temps réel ? Une raison est que la conduite est un peu une idée de “classe moyenne” dans la recherche AI.

C'est sous la grande industrie AI, qui peut manipuler ses propres modèles directement sans avoir à faire des interventions chirurgicales pendant l'inference. Anthropic travaille sur cela, mais principalement depuis un point de vue d'interprétabilité et de sécurité (selon ce que je sais). Lorsqu'ils veulent un modèle qui se comporte d'une certaine manière, ils ne se font pas la main avec la conduite, ils entraînent le modèle.

La conduite est également hors de portée pour les utilisateurs AI réguliers comme toi et moi, qui utilisons les LLM via une API et qui n'ont donc pas accès aux poids du modèle ou aux activations nécessaires pour conduire le modèle. Seul OpenAI peut identifier ou exposer les vecteurs de conduite pour GPT-5.5, par exemple. Nous pourrions faire cela pour les modèles avec poids ouverts, mais jusqu'à récemment (plus sur cela plus tard), c'était un non-starter.

DeepSeek-V4-Flash signifie que la conduite des LLM est intéressante à nouveau

Commentaires (0)