DeepSeek-V4-Flash significa che la guida degli LLM è interessante di nuovo

Seit Golden Gate Claude bin ich von dem Konzept der “Führung” fasziniert: die Idee, dass man die Ergebnisse der LLM durch die direkte Manipulation der Aktivierungen des Modells während der Inferenz leiten kann.

DeepSeek V4 Flash

Ich wurde inspiriert, diesen Artikel zu schreiben, durch das kürzlich von antirez veröffentlichte Projekt DwarfStar 4, das eine Version von llama.cpp ist, die nur DeepSeek-V4-Flash läuft. Was ist so besonders an diesem Modell? Es könnte das sein, was viele Ingenieure erwartet haben: ein lokales Modell, das gut genug ist, um mit der unteren Grenze des agnetischen Codierungsmodells zu konkurrieren.

Da die Führung ein lokales Modell erfordert, ist es jetzt praktisch für viele Ingenieure, es zum ersten Mal auszuprobieren. Und tatsächlich hat antirez die Führung in DwarfStar 4 als erstklassigen Bürger eingebaut. Derzeit ist sie sehr rudimentär (basically nur das Spielzeug-Beispiel “Verbosität” zu replizieren, das du über den Prompt machen kannst), aber die erste Veröffentlichung war nur acht Tage her. Ich plane, dieses Projekt eng zu verfolgen.

Wie funktioniert die Führung?

Die grundlegende Idee hinter der Führung ist, einen Konzept (wie “kurz antworten”) aus dem internen Gehirn des Modells zu extrahieren, dann während der Inferenz hineinzugehen und die numerischen Aktivierungen zu erhöhen, die dieses Konzept bilden.

Ein Weg, dies zu tun, ist, dem Modell denselben Satz von 100 Anfragen zweimal zu geben, einmal mit den normalen Anfragen und einmal mit den Worten “kurz antworten” hinzugefügt. Dann misst du die Differenz in den Aktivierungen des Modells für jede Anfragenpaar (durch das Abziehen einer Aktivierungs-Matrix von der anderen). Das ist dein “Führungsvektor”. In Theorie kannst du diesen Vektor zu der gleichen Aktivierungs-Schicht für jeden Anfrage hinzufügen und den gleichen Effekt (des Modells, das kurz antwortet) erhalten.

Ein weiterer, sophisticateder Weg, dies zu tun, ist, ein zweites Modell zu trainieren, um “Merkmale” aus den Aktivierungen des Modells zu extrahieren: Muster des Verhaltens, die zusammen auftreten. Dann kannst du versuchen, diese Merkmale wieder auf einzelne Konzepte zu mappen und sie in der gleichen Weise zu erhöhen. Dies ist mehr oder weniger, was Anthropic mit den sparsamen Autoencodern macht. Es ist der gleiche Prinzip wie der naiven Ansatz, aber es ermöglicht es dir, tiefer gehende Muster zu fangen (zu einem höheren Preis in Bezug auf Zeit, Rechenleistung und Expertise).

Warum ist die Führung interessant?

Die Führung scheint wie ein Cheat-Code zu sein. Anstatt mit sorgfältig zusammengestellten Trainingsdaten zu arbeiten, die versuchen, das Modell in Richtung der “intelligenten” Seite der Verteilung der Trainingsdaten zu drücken, warum nicht einfach das “intelligente” Drehrad im Modell-Gehirn finden und es ganz nach rechts drehen?

Es scheint auch wie ein eleganterer Weg, die Art und Weise zu regeln, wie Modelle sprechen. Anstatt sich mit dem Prompt (Hinzufügen oder Entfernen von Qualifikatoren wie “du musst”) zu beschäftigen, könnten wir einfach einen Steuerungspanel mit Schaltern wie “Kurzheit/Verbosität” oder “Verantwortungsvollheit/Geschwindigkeit” haben und sie direkt bewegen?

Schließlich ist es einfach cool. Das Zuschauen von Golden Gate Claude, der sich widerwillig jeden Satz wieder zum Golden Gate Bridge zieht, ist genauso faszinierend und beunruhigend wie die neurologischen Anecdotes von Oliver Sacks. Was, wenn dein eigenes Gehirn in ähnlicher Weise modifiziert worden wäre? Wärst du noch du?

Warum wurde die Führung nicht verwendet?

Warum verwenden wir die Führung nicht mehr, dann? Warum haben ChatGPT und Claude Code nicht schon einen Führungspanel, wo du den Körper des Modells in Echtzeit anpassen kannst? Eine Gründe ist, dass die Führung ein bisschen eine “Mittelklasse-Idee” in der AI-Forschung ist.

Es ist unter der großen AI-Industrie, die ihre eigenen Modelle direkt manipulieren kann, ohne dass sie während der Inferenz chirurgische Eingriffe durchführen müssen. Anthropic arbeitet an diesem, aber hauptsächlich aus einem Interpretierbarkeits- und Sicherheitsperspektiv (sofern ich weiß). Wenn sie ein Modell haben wollen, das sich in einer bestimmten Weise verhält, dann trainieren sie das Modell, anstatt sich mit der Führung zu beschäftigen.

Die Führung ist auch außer Reichweite für die regelmäßigen AI-Nutzer wie du und ich, die LLM über eine API verwenden und daher keinen Zugriff auf die Gewichte des Modells oder die Aktivierungen haben, die zum Führen des Modells erforderlich sind. Nur OpenAI kann die Führungsvektoren für GPT-5.5 identifizieren oder offenlegen. Wir könnten dies für offene Gewichte-Modelle tun, aber bis vor kurzem (mehr darüber später) war es ein Non-Starter.

DeepSeek-V4-Flash bedeutet, dass LLM-Führung interessant wieder ist

Kommentare (0)