Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Geheimnis des "Gedanken-Flusses": Wie KI lernt, mehrere Wege gleichzeitig zu gehen

Stell dir vor, du hast einen riesigen, verworrenen Labyrinth-Spielplatz vor dir. Dein Ziel ist es, vom Eingang zu einem bestimmten Ausgang zu finden.

Das alte Problem (Diskrete Gedanken):
Früher mussten KI-Modelle wie ein einzelner Entdecker durch dieses Labyrinth laufen. Sie mussten sich eine Entscheidung treffen: "Geh ich links oder rechts?" Wenn sie sich für den falschen Weg entschieden, mussten sie umkehren (Backtracking) und von vorne beginnen. Das ist langsam und ineffizient. Wenn sie unsicher waren, mussten sie raten.

Die neue Lösung (Kontinuierliche Gedanken):
Dieses Papier untersucht eine neue Methode namens "Chain of Continuous Thought" (Kette des kontinuierlichen Denkens). Stell dir vor, statt nur einen Weg zu gehen, kann die KI nun wie ein Geist sein, der sich gleichzeitig in alle möglichen Richtungen ausbreitet. Sie "schwebt" über dem gesamten Labyrinth und hält alle vielversprechenden Pfade gleichzeitig im Kopf.

Das Papier fragt sich: Wie lernt eine KI das eigentlich? Woher weiß sie, dass sie nicht nur einen Weg, sondern viele gleichzeitig verfolgen soll?

🌊 Die Entdeckung: Der "Gedanken-Superposition"-Effekt

Die Forscher haben herausgefunden, dass die KI diesen "Geist"-Zustand nicht von Anfang an hat. Sie lernt ihn durch Training, und zwar in zwei Phasen, die wie ein Wachstumsprozess funktionieren:

Phase 1: Das Entdecken (Der "Such-Modus")

Stell dir vor, die KI ist wie ein Forscher, der eine neue Stadt erkundet.

Der Anfang: Am Anfang ist die KI noch unsicher. Sie weiß nicht, wohin sie schauen soll.
Der Lernmoment: Während des Trainings merkt die KI: "Hey, wenn ich zu stark auf einen Weg verfolge, verpasse ich vielleicht den richtigen."
Die Balance: Die KI lernt eine Art internen Regler (in der Fachsprache "Index-Matching Logit").
- Ist der Regler zu niedrig? Dann ist die KI so unsicher, dass sie zufällig in jede Richtung schaut (wie ein Betrunkener).
- Ist der Regler zu hoch? Dann wird sie zu selbstsicher. Sie wählt sofort den Weg, der am meisten aussieht wie der richtige, und ignoriert alle anderen. Das ist gefährlich, weil der richtige Weg vielleicht anders aussieht.
- Der perfekte Punkt: Die KI lernt, den Regler genau so einzustellen, dass sie sicher genug ist, um die lokalen Hinweise zu nutzen, aber offen genug, um mehrere Wege gleichzeitig zu verfolgen.

Die Analogie: Stell dir vor, du suchst nach einem verlorenen Schlüssel im Haus.

Wenn du zu schnell bist, suchst du nur in der Küche und verpasst ihn im Wohnzimmer.
Wenn du zu langsam bist, stehst du nur in der Mitte des Hauses und weißt nicht, wo du anfangen sollst.
Die KI lernt, sich wie ein Suchhunde-Team zu verhalten: Sie verteilt sich auf mehrere Zimmer gleichzeitig, um sicherzugehen, dass niemand den Schlüssel verpasst. Das nennt man Superposition (gleichzeitiges Vorhandensein mehrerer Möglichkeiten).

Phase 2: Das Entscheiden (Der "Antwort-Modus")

Sobald die KI alle möglichen Pfade im "Geist" gesammelt hat, muss sie am Ende eine Entscheidung treffen: "Welcher Ausgang ist der richtige?"

Hier lernt die KI, die Informationen aus allen ihren parallelen Suchpfaden zu sammeln.
Sie vergleicht die beiden möglichen Ausgänge (z. B. "Tor A" oder "Tor B").
Da sie alle Pfade parallel verfolgt hat, weiß sie genau, welcher Ausgang erreichbar ist, und kann mit hoher Sicherheit sagen: "Es ist Tor A!"

🎯 Warum ist das wichtig?

Das Papier beweist mathematisch und durch Experimente, dass KI-Modelle diesen "Superposition"-Effekt natürlich entwickeln, wenn man sie richtig trainiert. Sie müssen nicht explizit programmiert werden, um mehrere Wege zu denken; sie lernen es, weil es der effizienteste Weg ist, um Fehler zu vermeiden und komplexe Rätsel zu lösen.

Zusammenfassung in einem Satz:
Die KI lernt, nicht wie ein einzelner Wanderer zu sein, der einen falschen Weg nimmt und umkehren muss, sondern wie ein Schwarm von Lichtpunkten, der gleichzeitig alle möglichen Pfade beleuchtet, bis der richtige Weg klar wird.

🚀 Was bedeutet das für die Zukunft?

Dieses Verständnis hilft uns, KI-Modelle besser zu bauen. Wenn wir wissen, wie und warum sie dieses "parallele Denken" lernen, können wir sie effizienter trainieren, damit sie schwierige Aufgaben (wie Mathe oder Programmieren) schneller und genauer lösen, ohne dass wir sie mit riesigen Datenmengen überfüttern müssen. Es ist ein Schritt hin zu intelligenteren, menschlicher denkenden Maschinen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten im logischen Schlussfolgern, insbesondere wenn sie mit „Chain-of-Thought" (CoT) ausgestattet sind. Herkömmliche CoT-Ansätze nutzen diskrete Token, was bei komplexen Aufgaben zu hohen Inferenzkosten führt und die parallele Verarbeitung mehrerer Denkpfade erschwert.

Ein neuer Ansatz, Chain of Continuous Thought (CoT oder COCONUT), hält den Denkprozess in einem kontinuierlichen latenten Raum statt im diskreten Token-Raum. Eine vorangegangene Arbeit (Zhu et al., 2025) zeigte theoretisch, dass ein Transformer mit kontinuierlichem CoT das Problem der gerichteten Graphen-Erreichbarkeit (Directed Graph Reachability) effizient lösen kann, indem er eine Superposition (gleichzeitige Darstellung) mehrerer Denkpfade im kontinuierlichen Raum aufrechterhält.

Die zentrale Forschungsfrage dieses Papers lautet:
Wie entsteht dieser Superpositionsmechanismus natürlicherweise durch gradientenbasierte Trainingsmethoden? Wird die Konstruktion, die in der vorherigen Arbeit manuell definiert wurde, automatisch durch das Training gelernt?

2. Methodik und theoretischer Rahmen

Das Paper analysiert die Trainingsdynamik eines vereinfachten zweischichtigen Transformers auf dem Problem der gerichteten Graphen-Erreichbarkeit. Das Ziel ist es zu bestimmen, ob ein Startknoten $r$ zu einem Zielknoten $c^*$ führt (im Gegensatz zu einem nicht erreichbaren Kandidaten $c_\perp$ ).

Die Analyse wird in zwei Hauptphasen unterteilt:

A. Phase 1: Thought Generation (Gedankengenerierung)

In dieser Phase generiert das Modell autoregressiv eine Kette kontinuierlicher Gedanken $[t_1], \dots, [t_C]$ .

Mechanismus: Das Modell führt eine lokale Suche durch. Anstatt einen Pfad zu wählen, erweitert es den aktuellen „Gedanken" (eine Superposition aller erreichbaren Knoten) um die Nachfolgerknoten.
Schlüsselgröße: Der Index-Matching-Logit ( $\mu$ ). Dieser Parameter quantifiziert die Stärke der lokalen Suchfähigkeit des Modells. Er steuert, wie stark der Transformer Kanten gewichtet, deren Quellknoten bereits erkundet wurden.
Theoretische Annahme: Das Modell wird mit einer einzigen Demonstration (einem kürzesten Pfad) pro Trainingsbeispiel trainiert (Loss-Funktion $L_{coco}$ ), nicht mit einer vollständigen Aufzählung aller erreichbaren Knoten.

B. Phase 2: Prediction (Vorhersage)

In dieser Phase nutzt das Modell den generierten Gedanken $[t_C]$ und einen speziellen Antwort-Token $<A>$ , um die finale Antwort ( $c^*$ oder $c_\perp$ ) zu bestimmen.

Mechanismus: Das Modell muss die Informationen aus der Superposition extrahieren und die Kandidatenknoten $c_1, c_2$ bewerten.
Schlüsselgrößen: Zwei Parameter steuern die Vorhersage:
1. $\mu_A$ (Residual Carryover): Überträgt die Information der erkundeten Knoten aus dem letzten Gedanken.
2. $\mu_R$ (Candidate Lift): Erhöht die Logits der beiden Kandidatenknoten.

3. Schlüsselbeiträge und theoretische Ergebnisse

Das Paper liefert strenge theoretische Beweise für das Entstehen von Superposition und die Stabilität des Trainings:

A. Begrenzung des Index-Matching-Logits (Theorem 1)

Dies ist das Kernresultat des Papers.

Diskreter vs. Kontinuierlicher Fall: Bei herkömmlichen Analysen ohne kontinuierliches CoT wachsen die Attention-Logits oft logarithmisch und werden unbeschränkt (divergieren). Dies führt zu einer „One-Hot"-Verteilung, bei der das Modell zu früh einen Pfad wählt und andere verwirft.
Ergebnis bei COCONUT: Unter der Loss-Funktion $L_{coco}$ $L_{coco}$ (nur eine Demonstration) bleibt der Index-Matching-Logit $\mu(t)$ $μ (t)$ beschränkt (bounded).
- Wenn $\mu$ zu klein ist, fehlt dem Modell die Fähigkeit zur lokalen Suche (zufälliges Raten).
- Wenn $\mu$ zu groß wäre, würde das Modell zu selbstbewusst einen Pfad basierend auf lokalen Merkmalen (z. B. Eingangsgrad eines Knotens) wählen und den korrekten Pfad verwerfen.
- Die Beschränktheit sorgt für ein Gleichgewicht zwischen Exploration und Exploitation: Das Modell nutzt lokale Strukturen, behält aber bei Unsicherheit mehrere plausible Pfade mit vergleichbaren Gewichten bei. Dies führt natürlich zur Superposition.

B. Ein-Schritt-Erweiterung (Theorem 2)

Es wird bewiesen, dass ein positiver, beschränkter Wert von $\mu$ garantiert, dass der nächste kontinuierliche Gedanke $[t_{c+1}]$ eine korrekte Erweiterung der Menge der in $c$ Schritten erreichbaren Knoten ( $N_c$ ) auf $N_{c+1}$ darstellt. Das Modell lernt effektiv eine parallele Breitensuche (BFS).

C. Konvergenz in der Vorhersagephase (Theorem 3)

Im Vorhersage-Modus zeigt die Analyse, dass die Parameter $\mu_A$ und $\mu_R$ entlang des Gradientenflusses in Richtung einer Maximal-Margin-Richtung konvergieren.

Das Verhältnis $\mu_R / \mu_A$ passt sich so an, dass der erreichbare Kandidat $c^*$ (der sowohl im Gedanken enthalten ist als auch als Kandidat markiert ist) den höchsten Logit erhält.
Dies ermöglicht eine korrekte Generalisierung auf ungesehene Graphen, solange die Gewichtsverteilung der Knoten im Gedanken bestimmte Bedingungen erfüllt.

4. Experimentelle Validierung

Die Autoren validieren ihre Theorien mit Experimenten an einem GPT-2-ähnlichen Modell (2 Schichten, $d_{model}=768$ ) auf dem ProsQA-Datensatz (Graphen-Erreichbarkeit).

Dynamik der Logits: Die Experimente zeigen, dass der Attention-Logit-Unterschied zwischen „Frontier"-Kanten (die den Suchraum erweitern) und anderen Kanten während des Trainings wächst und sich dann bei einem beschränkten Wert stabilisiert. Dies bestätigt Theorem 1.
Vergleich mit COCONUT-BFS: Bei einem alternativen Trainingsziel ( $L_{BFS}$ , das alle erreichbaren Knoten explizit fordert), wachsen die Logits unbeschränkt, was zu einer schlechteren Generalisierung führt.
Vorhersage-Phase: Die Logits für „Residual Carryover" ( $\mu_A$ ) und „Candidate Lift" ( $\mu_R$ ) wachsen schnell an und stabilisieren sich, wobei ihr Verhältnis die korrekte Klassifizierung sicherstellt.
Genauigkeit: Das Modell erreicht eine Testgenauigkeit von 96,2 % und zeigt eine beeindruckende Längen-Verallgemeinerung (Length Generalization), indem es Pfade generiert, die länger sind als die im Training gesehenen.

5. Bedeutung und Fazit

Dieses Paper schließt eine wichtige Lücke zwischen theoretischen Konstruktionen und dem tatsächlichen Lernen von LLMs:

Erklärung des Superpositions-Phänomens: Es liefert den ersten theoretischen Beweis dafür, dass Superposition (das gleichzeitige Halten mehrerer Denkpfade) nicht nur eine Eigenschaft der Architektur ist, sondern ein natürliches Ergebnis des gradientenbasierten Trainings mit kontinuierlichem CoT.
Rolle der Beschränktheit: Die Erkenntnis, dass beschränkte Attention-Logits entscheidend für das Gleichgewicht zwischen Exploration und Exploitation sind, bietet neue Einsichten in die Optimierung von Transformers für reasoning tasks.
Skalierbarkeit: Das Verständnis dieser Dynamik ermöglicht es, den Ansatz des kontinuierlichen CoT effizienter und zuverlässiger auf komplexere Aufgaben zu skalieren, da es zeigt, dass das Modell die notwendigen Mechanismen (parallele Suche, Superposition) selbstständig lernt, ohne manuelle Parameterkonstruktion.

Zusammenfassend demonstriert das Paper, dass kontinuierliches CoT nicht nur rechnerisch effizienter ist, sondern auch einen inhärenten Lernmechanismus fördert, der es Modellen erlaubt, Unsicherheit durch parallele Verarbeitung (Superposition) zu handhaben, was für komplexes logisches Schlussfolgern essenziell ist.