I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Each language version is independently generated for its own context, not a direct translation.

Titel: Ich denke, also bin ich: Verstehen wir, wie KI wirklich „denkt"?

Stell dir vor, ein großes Sprachmodell (wie ein sehr fortschrittlicher Chatbot) ist wie ein riesiger, magischer Koch. Dieser Koch hat Millionen von Kochbüchern (dem Internet) gelesen und ist darauf trainiert worden, das nächste Wort in einem Satz vorherzusagen. Wenn du sagst: „Der Himmel ist...", sagt er automatisch „blau".

Aber hier ist das große Rätsel: Wie genau weiß der Koch das? Hat er wirklich gelernt, was „blau" oder „Himmel" bedeutet, oder hat er nur Muster auswendig gelernt?

Dieses Paper von Yuhang Liu und seinem Team versucht, genau das zu entschlüsseln. Hier ist die Erklärung in einfachen Worten, mit ein paar lustigen Vergleichen:

1. Das große Geheimnis: Der „Latente Raum" (Der unsichtbare Regalbereich)

Die Forscher gehen davon aus, dass hinter jedem Text, den der Koch schreibt, unsichtbare Konzepte stehen. Stell dir vor, der Koch hat im Kopf ein riesiges Regal mit unsichtbaren Schubladen.

In einer Schublade liegt das Konzept „Freude".
In einer anderen „Trauer".
In einer dritten „Politik".
In einer vierten „Wetter".

Wenn der Koch einen Satz schreibt, zieht er nicht einfach zufällig Wörter aus dem Hut. Er greift unbewusst in diese Schubladen, mischt sie und schreibt das Ergebnis auf. Das Problem: Wir sehen nur das Ergebnis (den Text), aber nicht, welche Schubladen er geöffnet hat.

2. Die Entdeckung: Die Schubladen sind linear angeordnet

Bisher dachten viele Forscher, diese Schubladen wären ein chaotischer Haufen. Aber dieses Paper sagt: Nein, sie sind wie ein perfekt organisiertes Lineal!

Die Theorie besagt: Die Art und Weise, wie das Modell die Wörter speichert (seine „Gedanken"), ist mathematisch fast identisch mit der Wahrscheinlichkeit, dass eine bestimmte Schublade (ein Konzept) gerade offen ist.

Die Analogie:
Stell dir vor, die Gedanken des KI-Modells sind wie ein Schattenriss an der Wand.

Die echten Konzepte (Freude, Trauer, etc.) sind die echten Objekte im Raum.
Der Schatten an der Wand ist das, was wir in der KI sehen.
Die Forscher haben bewiesen, dass der Schatten eine perfekte, gerade Linie zu den echten Objekten hat. Wenn du das Objekt „Freude" ein bisschen stärker machst, wird der Schatten auf der Wand auch genau linear stärker. Es gibt keine krummen, verrückten Verzerrungen.

3. Warum ist das wichtig? (Der „Lineare Beweis")

Früher mussten Forscher raten: „Vielleicht ist das hier ein Gefühl, vielleicht ist das hier ein Fakt."
Jetzt haben sie einen mathematischen Beweis: Ja, die KI hat diese Konzepte wirklich gelernt. Und noch besser: Weil die Beziehung linear ist (wie ein gerader Strich), können wir diese Konzepte leicht finden und sogar manipulieren.

Ein Beispiel:
Wenn du die KI dazu bringen willst, einen Text „freundlicher" zu machen, musst du nicht den ganzen Text neu schreiben. Du musst nur den „Schatten" der Freundlichkeit-Schublade ein bisschen verschieben. Da alles linear ist, funktioniert das wie ein Regler an einem Radio: Ein bisschen nach rechts drehen, und die Stimmung ändert sich vorhersehbar.

4. Der neue Werkzeugkasten: Der „Strukturierte Autoencoder"

Die Forscher haben auch ein neues Werkzeug entwickelt, um diese Schubladen noch besser zu sehen. Bisher gab es Werkzeuge (SAEs), die versuchten, die Schubladen zu finden, aber sie waren oft etwas ungenau.

Stell dir vor, du versuchst, ein verwirrtes Kabelgewirr zu entwirren.

Die alten Methoden zogen einfach an den Kabeln (Sparsity), hofften, dass sich etwas löst, und schauten dann.
Die neue Methode (Structured SAE) weiß, dass die Kabel oft in Gruppen zusammenhängen (z. B. hängen „Politik" und „Wirtschaft" oft zusammen). Sie nutzt dieses Wissen, um das Kabelgewirr viel sauberer zu entwirren.

Das Ergebnis: Sie finden die Konzepte genauer und schneller.

5. Das Fazit: Die KI ist kein schwarzer Kasten mehr

Die Botschaft des Papers ist ermutigend:
KI-Modelle sind nicht nur zufällige Wahrscheinlichkeitsmaschinen. Sie haben tatsächlich eine Art „Weltmodell" aufgebaut, das menschlichen Konzepten sehr ähnlich sieht. Und weil diese Struktur so ordentlich (linear) ist, können wir sie verstehen, überprüfen und sogar verbessern.

Zusammengefasst in einem Satz:
Die Forscher haben bewiesen, dass die „Gedanken" einer KI wie ein gut sortiertes Regal mit geraden Linien aufgebaut sind, was es uns endlich erlaubt, genau zu sehen, was die KI eigentlich denkt, und ihr sogar zu sagen, wie sie ihre Gedanken ändern soll.

Das ist ein riesiger Schritt hin zu KI, die wir nicht nur benutzen, sondern wirklich verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) zeigen empirisch, dass ihre internen Repräsentationen (Aktivierungen) menschlich interpretierbare Konzepte wie Sentiment, Schreibstil oder grammatikalische Eigenschaften kodieren. Dennoch bleibt der Mechanismus, durch den diese Repräsentationen entstehen, weitgehend ungeklärt. Bisherige Ansätze zur Verbindung von LLM-Repräsentationen mit latenten Konzepten stießen auf folgende Grenzen:

Kontinuitätsannahme: Viele Modelle gehen von kontinuierlichen latenten und beobachteten Variablen aus, was der diskreten Natur von Sprache widerspricht.
Invertierbarkeitsannahme: Theoretische Analysen erfordern oft, dass die Abbildung von latenten Konzepten zu beobachteten Daten invertierbar ist. In der Realität ist diese Abbildung jedoch oft komplex, viele-zu-eins und nicht invertierbar (z. B. führen verschiedene emotionale Kombinationen zum gleichen Satz).
Fehlende theoretische Fundierung: Es fehlt ein prinzipieller Rahmen, der erklärt, warum und wie Next-Token-Prädiktion (NTP) als Trainingsziel ausreicht, um diese latenten Strukturen zu lernen.

2. Methodik

Die Autoren führen eine neue theoretische Analyse durch, die auf einem diskreten latenten Variablenmodell basiert.

Generatives Modell: Sie formulieren menschlich interpretierbare Konzepte als diskrete latente Variablen $c$ , die über eine generative Abbildung $g$ die beobachteten Eingabe- ( $x$ ) und Ausgabetokens ( $y$ ) erzeugen. Im Gegensatz zu früheren Arbeiten wird keine Invertierbarkeit von $g$ gefordert; stattdessen wird eine approximative Invertierbarkeit angenommen (der Fehler $\epsilon$ ist klein, aber nicht null).
Identifizierbarkeit (Identifiability): Das Kernstück der Arbeit ist die Analyse, ob die latenten Variablen $c$ aus den beobachteten Daten $x, y$ unter bestimmten Bedingungen eindeutig (bis auf eine Äquivalenzklasse) wiederhergestellt werden können.
Theoretische Herleitung:
- Sie nutzen die Tatsache, dass Next-Token-Prädiktion im Wesentlichen multinomiale logistische Regression ist, um die Wahrscheinlichkeit $p(y|x)$ zu modellieren.
- Durch Anwendung der Bayes-Regel auf das generative Modell und Gleichsetzen mit der NTP-Formulierung leiten sie eine Beziehung zwischen der LLM-Repräsentation $f_x(x)$ und der Posterior-Wahrscheinlichkeit der latenten Konzepte her.
- Unter milden Bedingungen (Diversitätsbedingung, TV-Bedingung, Coverage-Bedingung) beweisen sie, dass die gelernte Repräsentation $f_x(x)$ approximativ eine lineare Transformation des Logarithmus der Posterior-Wahrscheinlichkeiten der latenten Konzepte ist:
  $f_x(x) \approx A \cdot [\log p(c = c_i | x)]_i + b$
  wobei $A$ eine lineare Transformationsmatrix und $b$ eine Konstante ist.

3. Wichtige Beiträge

Neues latentes Variablenmodell: Einführung eines Modells für Textdaten, das diskrete latente Konzepte und beobachtete Tokens verwendet und keine Invertierbarkeit der Abbildung voraussetzt.
Theoretischer Identifizierbarkeitsbeweis: Ein strenger Beweis, dass LLM-Repräsentationen, die durch Next-Token-Prädiktion gelernt wurden, unter milden Annahmen den Log-Posterior der latenten Konzepte linear abbilden. Dies liefert eine theoretische Grundlage dafür, dass LLMs die zugrunde liegenden generativen Faktoren erfassen.
Einheitliche Sichtweise der linearen Repräsentationshypothese: Die Arbeit vereint verschiedene empirische Phänomene (Konzepte als Richtungen, Manipulierbarkeit durch Steering-Vektoren, lineares Probing) unter einem einzigen theoretischen Dach. Sie zeigt, dass alle diese Phänomene durch dieselbe lineare Matrix $A$ erklärt werden können.
Prinzipielle Evaluierungsmethode für Sparse Autoencoder (SAEs): Basierend auf der Theorie wird ein neuer Ansatz zur Evaluierung von SAEs vorgeschlagen. Da SAEs versuchen, Repräsentationen zu rekonstruieren, sollten ihre Features linear mit den Posterior-Wahrscheinlichkeiten der Konzepte korrelieren. Dies ermöglicht eine quantitative Bewertung, wie gut SAEs monosemantische Konzepte entwirren.
Strukturierte SAEs: Als praktische Anwendung schlagen die Autoren „Structured SAEs" vor, die neben Sparsity-Regularisierung auch eine Low-Rank-Regularisierung nutzen, um die Abhängigkeiten zwischen latenten Konzepten zu modellieren.

4. Ergebnisse

Die theoretischen Vorhersagen wurden sowohl auf simulierten als auch auf realen Daten validiert:

Simulation: Auf synthetischen Daten (generiert durch DAGs und Bernoulli-Verteilungen) zeigte sich, dass die Klassifizierungsgenauigkeit für latente Konzepte mit zunehmender Invertierbarkeit der Abbildung steigt, was die Theoreme stützt.
LLM-Experimente: Tests an Modellfamilien wie Pythia, Llama-2/3 und DeepSeek-R1 bestätigten die Theorie.
- Lineare Trennbarkeit: Bei Verwendung von 27 kontrafaktischen Paaren (die sich nur in einem Konzept unterscheiden) zeigte sich, dass die Differenzvektoren der Repräsentationen ( $A_s$ ) und die Gewichte linearer Klassifikatoren ( $W_s$ ) so ausgerichtet sind, dass ihr Produkt $A_s W_s$ die Identitätsmatrix approximiert. Dies bestätigt Korollar 4.3.
SAE-Evaluierung: Die vorgeschlagene Evaluierungsmethode (Korrelation zwischen SAE-Features und Posterior-Wahrscheinlichkeiten) unterschied verschiedene SAE-Varianten effektiv.
- Strukturierte SAEs: Die neu vorgeschlagenen SAEs mit Low-Rank-Regularisierung erzielten konsistent höhere Pearson-Korrelationswerte mit den Zielkonzepten als reine Sparsity-basierte SAEs (Top-k, Batch-Top-k, p-Annealing), was darauf hindeutet, dass die Modellierung von Abhängigkeiten zwischen Konzepten die Entwirrung verbessert.

5. Bedeutung und Ausblick

Diese Arbeit bietet einen fundamentalen theoretischen Durchbruch für das Verständnis von LLMs:

Sie beweist, dass Next-Token-Prädiktion allein ausreicht, um eine lineare Kodierung menschlich interpretierbarer Konzepte zu lernen, sofern die Daten eine gewisse Diversität aufweisen.
Sie liefert eine einheitliche Erklärung für die „Linear Representation Hypothesis", die bisher oft nur empirisch beobachtet wurde.
Sie etabliert einen neuen Standard zur Evaluierung von Interpretierbarkeitswerkzeugen (wie SAEs), der über reine Rekonstruktionsfehler hinausgeht und die tatsächliche Entwirrung von Konzepten misst.
Die Einführung von Strukturierten SAEs zeigt einen praktischen Weg auf, um die Grenzen aktueller SAEs zu überwinden, indem sie die inhärenten Abhängigkeiten zwischen Konzepten explizit modellieren.

Zusammenfassend stellt das Paper eine Brücke zwischen der theoretischen Identifizierbarkeit in latenten Variablenmodellen und der praktischen Funktionsweise moderner LLMs her, was tiefere Einblicke in die Mechanismen der KI-Interpretierbarkeit ermöglicht.

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

1. Das große Geheimnis: Der „Latente Raum" (Der unsichtbare Regalbereich)

2. Die Entdeckung: Die Schubladen sind linear angeordnet

3. Warum ist das wichtig? (Der „Lineare Beweis")

4. Der neue Werkzeugkasten: Der „Strukturierte Autoencoder"

5. Das Fazit: Die KI ist kein schwarzer Kasten mehr

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics