Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv, der einen komplexen Fall lösen muss. Die meisten modernen KI-Modelle (wie die, die wir heute mit Chatbots nutzen) arbeiten wie ein einzelner Detektiv, der einen einzigen Weg einschlägt. Er denkt: „Okay, ich gehe links." Und dann ist er festgelegt. Wenn er feststellt, dass links ein Sackgasse ist, muss er den ganzen Weg zurückgehen und von vorne beginnen. Das ist langsam und ineffizient.

Dieses Papier stellt eine neue Methode vor, die wir CoT2 (Chain of Thought mit kontinuierlichen Token) nennen. Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Der alte Weg: Der einsame Detektiv (Diskrete Tokens)

Normalerweise muss eine KI bei jedem Schritt genau ein Wort aus einem riesigen Wörterbuch auswählen.

Das Problem: Sie muss sich sofort entscheiden. „Geh ich links oder rechts?" Sobald sie sich für „links" entscheidet, sind alle anderen Möglichkeiten verschwunden.
Die Folge: Wenn die Aufgabe schwierig ist (wie ein Mathe-Rätsel oder ein Logik-Test), muss die KI den Weg oft hundertmal neu durchgehen, um sicherzustellen, dass sie nicht den falschen Weg gewählt hat. Das kostet viel Zeit und Rechenleistung.

2. Der neue Weg: Der Detektiv mit dem Super-Geist (CoT2)

CoT2 erlaubt der KI, nicht nur ein Wort zu wählen, sondern eine Mischung aus vielen Möglichkeiten gleichzeitig zu halten.

Stellen Sie sich vor, anstatt sich für eine Straße zu entscheiden, hält der Detektiv eine Karte in der Hand, auf der alle Straßen gleichzeitig leuchten.

Die Superposition: Die KI sagt nicht: „Ich gehe zu Punkt A." Sie sagt: „Ich bin zu 50% bei Punkt A und zu 50% bei Punkt B."
Der Vorteil: Sie kann alle Wege parallel verfolgen. Es ist, als würde sie einen ganzen Schwarm von Detektiven gleichzeitig losschicken, aber alle in einem einzigen Körper vereint sind. Sie müssen nicht hundertmal neu starten; sie erkunden alle Pfade in einem einzigen Gedankenstrahl.

3. Der „Budget"-Trick: Wie viel Parallelität ist erlaubt?

Das Papier führt einen spannenden Begriff ein: das Budget.

Kleines Budget (B=1): Die KI verhält sich wie der alte, einsame Detektiv. Sie wählt einen Weg.
Großes Budget (B=16 oder mehr): Die KI hält 16 verschiedene Wege gleichzeitig in ihrem „Gedächtnis" fest.
Die Herausforderung: Um so viele Wege gleichzeitig zu halten, braucht die KI einen großen „Gedächtnisspeicher" (im Papier Embedding-Dimension genannt).
- Analogie: Wenn Sie versuchen, 100 verschiedene Gedanken gleichzeitig in Ihrem Kopf zu behalten, brauchen Sie einen sehr großen Kopf (oder ein sehr gutes Notizbuch). Wenn Ihr Kopf zu klein ist, werden die Gedanken durcheinandergeraten. Das Papier zeigt, dass man das Budget (Anzahl der Wege) an die Größe des „Kopfes" (der KI) anpassen muss, damit es funktioniert.

4. Die Trainings-Methode: Der Lehrer mit dem Lichtschalter

Wie lernt die KI, diese Super-Kraft zu nutzen?

Normalerweise: Der Lehrer zeigt dem Schüler nur den einen richtigen Weg („Geh links!").
Bei CoT2: Der Lehrer zeigt dem Schüler eine Wahrscheinlichkeitskarte. „Geh zu 30% links, zu 30% rechts und zu 40% geradeaus."
Die KI lernt, diese Mischung zu verstehen und zu verarbeiten. Sie lernt, dass es okay ist, unsicher zu sein und mehrere Optionen gleichzeitig zu behalten, bis sie am Ende die richtige Antwort findet.

5. Das Ergebnis: Schneller und schlauer

Die Experimente im Papier zeigen:

Schneller: Da die KI alle Wege gleichzeitig prüft, braucht sie viel weniger Versuche, um eine schwierige Aufgabe zu lösen.
Besser: Bei Aufgaben, die viel Suchen erfordern (wie Mathe-Rätsel oder Logik-Puzzles), ist diese Methode deutlich genauer als die alten Methoden.
Reinforcement Learning (Belohnungssystem): Die Autoren haben auch eine Methode entwickelt, bei der die KI durch Belohnung lernt, welche Wege am besten sind. Sie lernt, ihre „Super-Kräfte" noch effizienter einzusetzen.

Zusammenfassung in einem Satz

Statt wie ein starrer Roboter einen einzigen Weg zu gehen und bei Fehlern neu anzufangen, lernt diese neue KI-Methode, wie ein multitasking-fähiger Genie, alle möglichen Wege gleichzeitig im Kopf zu behalten und erst am Ende die beste Lösung zu wählen – und das alles in einem einzigen, flüssigen Gedankenstrom.

Es ist der Unterschied zwischen einem Menschen, der einen Labyrinth-Lauf durchläuft und bei jedem Sackgasse umdrehen muss, und einem Menschen, der einen Hubschrauber hat, der ihn über das ganze Labyrinth fliegt, um sofort den besten Weg zu sehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Large Language Models (LLMs) generieren Chain-of-Thought (CoT) Spuren typischerweise durch autoregressives Sampling diskreter Token aus einem endlichen Vokabular. Diese diskrete Natur führt zu zwei Hauptproblemen:

Informationsineffizienz: Ein diskreter Token trägt maximal $\log_2(v)$ Bits Information (wobei $v$ die Vokabulargröße ist), während die Embedding-Dimension $d$ theoretisch $O(d)$ Bits speichern kann.
Fehlende Parallelität: Bei jedem Decodierungsschritt muss sich das Modell für einen einzigen Pfad entscheiden. Dies führt zu einer sequenziellen Exploration von Lösungswegen, was die Wahrscheinlichkeit erhöht, sich in suboptimalen Pfaden festzulegen („Commitment") und Fehler zu akkumulieren, bevor alternative Lösungen erkundet werden können.

Ziel der Arbeit ist es, diese Einschränkungen zu überwinden, indem CoT mit kontinuierlichen Token (CoT2) eingeführt wird, die es dem Modell ermöglichen, mehrere diskrete Pfade gleichzeitig in einem einzigen kontinuierlichen Vektor zu verfolgen.

2. Methodik

Die Autoren schlagen einen neuen Rahmen vor, der auf drei Säulen basiert:

A. Kontinuierliche Supervised Fine-Tuning (CSFT)

Statt das Modell auf einen einzelnen „harten" Ziel-Token (One-Hot-Label) zu trainieren, wird das Modell auf eine weiche Zielverteilung trainiert.

Budget-beschränkte Superposition: Für einen gegebenen Rechenaufwand (Budget $B$ ) werden die $B$ besten Pfade (Trajektorien) eines Suchalgorithmus identifiziert.
Zielverteilung: Anstatt einen einzelnen Pfad zu erzwingen, wird das Modell trainiert, die empirische Verteilung der Token zu lernen, die von diesen $B$ Pfaden an jedem Schritt $t$ besucht werden. Das Ziel-Token $z_t$ ist eine konvexe Kombination (Durchschnitt) der Embeddings aller $B$ Pfade.
Interpretation: Dies ermöglicht es dem Modell, mehrere Reasoning-Pfade parallel in einem einzigen kontinuierlichen Embedding-Vektor zu „packen".

B. Theoretische Analyse und Konstruktionen

MNNS-Aufgabe (Minimum Non-Negative Sum): Die Autoren definieren diese Aufgabe als Verallgemeinerung des Subset-Sum-Problems. Sie beweisen, dass ein einlagiger Transformer mit CoT2 und ausreichender Embedding-Dimension diese kombinatorische Aufgabe lösen kann.
Parallele Verfolgung: Theoretisch wird gezeigt, dass CoT2 im Gegensatz zu diskretem CoT alle $v^m$ möglichen Pfade gleichzeitig verfolgen kann, ohne dass exponentielle Sampling-Aufwände nötig sind.
Sample-Komplexität: Es wird bewiesen, dass CoT2 mit Multi-Token-Sampling (MTS) eine geringere Sample-Komplexität aufweist als diskretes CoT. Um eine Verteilung mit einem bestimmten Fehler $\epsilon$ zu approximieren, benötigt CoT2-MTS mit Parallelismus $K$ nur $O(K^{-1}\epsilon^{-2})$ Samples, während diskretes CoT $O(\epsilon^{-2})$ benötigt.

C. Reinforcement Learning (RL) für CoT2

Um die Exploration zu verfeinern, wird Group Relative Policy Optimization (GRPO) auf CoT2 angewendet.

Multi-Token Sampling (MTS): Während des Rollouts werden an jedem Schritt $K$ diskrete Token gesampelt und gemittelt, um einen kontinuierlichen Token zu bilden. Dies erlaubt eine stochastische Exploration im kontinuierlichen Raum.
Dirichlet-Sampling: Eine alternative Methode, bei der die Ausgabeverteilung als Parameter für eine Dirichlet-Verteilung verwendet wird, um kontinuierliche Token zu generieren.
Ziel: Das RL-Training hilft dem Modell, relevante Reasoning-Pfade zu priorisieren und die Entropie der kontinuierlichen Repräsentationen zu reduzieren, ohne die Vorteile der Parallelität zu verlieren.

3. Schlüsselbeiträge

Theoretische Garantien für Parallelität: Der Nachweis, dass CoT2 die Fähigkeit besitzt, multiple diskrete Spuren parallel zu verfolgen, und die Quantifizierung des Zusammenhangs zwischen Parallelismus-Budget ( $B$ ) und Embedding-Dimension ( $d$ ).
Konstruktiver Beweis: Eine explizite Konstruktion eines einlagigen Transformers, der das MNNS-Problem mit CoT2 löst, indem er trigonometrische Embeddings nutzt, um Zustände nicht-überlappend zu speichern.
Neue Supervision-Strategie (CSFT): Eine Methode, die Modelle darauf trainiert, die Verteilung von Expert-Pfaden zu lernen, anstatt nur den besten Pfad. Dies übertrifft traditionelle CoT-Ansätze und Methoden wie COCONUT.
RL-Integration: Die Einführung von Policy-Optimierungsmethoden (GRPO) für kontinuierliche Token, die zeigen, dass RL die Leistung von CoT2-Modellen über das reine Supervised Fine-Tuning (SFT) hinaus verbessert.

4. Ergebnisse

Die Experimente wurden auf den Aufgaben MNNS, ProntoQA und ProsQA durchgeführt:

Leistungsvorteil: CoT2-Modelle übertreffen diskrete CoT-Modelle, COCONUT und Modelle ohne CoT signifikant. Auf MNNS erreicht CoT2 eine Genauigkeit von ~99% im Vergleich zu ~85% bei diskretem CoT.
Effizienz (Pass@k): Ein CoT2-Modell erreicht mit einem einzigen Durchlauf (Single-Shot) die Leistung, für die diskrete CoT-Modelle mehrere Sampling-Versuche (Pass@k) benötigen. Dies bestätigt die These der parallelen Exploration.
Trade-off Budget vs. Dimension: Es wurde ein „Sweet Spot" identifiziert. Bei kleinen Embedding-Dimensionen (z.B. $d=16$ ) ist ein hohes Budget ( $B=16$ ) zu anspruchsvoll. Bei ausreichender Dimension ( $d \ge 24$ ) steigt die Leistung mit dem Budget monoton an und erreicht fast perfekte Ergebnisse.
RL-Verbesserung: Die Anwendung von GRPO mit MTS-Sampling verbessert die Genauigkeit sowohl bei diskret als auch kontinuierlich vortrainierten Modellen. Interessanterweise profitiert das diskrete CoT-Modell stärker von RL, da CoT2 die Exploration bereits durch CSFT implizit internalisiert hat.
Entropie-Analyse: Die Token-Entropie während der Inferenz zeigt, dass das Modell in den Zwischenschritten eine nahezu uniforme Verteilung über mehrere Pfade beibehält (hohe Entropie) und sich erst im letzten Schritt auf die korrekte Antwort festlegt (Entropie-Abfall).

5. Bedeutung und Fazit

Diese Arbeit stellt einen Paradigmenwechsel in der Reasoning-Forschung dar, indem sie die diskrete Natur von Token-Sampling durch kontinuierliche Superposition ersetzt.

Theoretische Tiefe: Sie liefert den ersten theoretischen Beweis, dass Transformer durch kontinuierliche Token kombinatorische Suchprobleme effizienter lösen können als durch diskrete Sequenzen.
Praktische Effizienz: CoT2 reduziert den Rechenaufwand für komplexe Reasoning-Aufgaben, da weniger Sampling-Versuche (Rollouts) nötig sind, um eine hohe Genauigkeit zu erreichen.
Zukunftsperspektive: Die Arbeit zeigt, dass die Kombination aus kontinuierlicher Supervision (CSFT) und Reinforcement Learning (GRPO) ein vielversprechender Weg ist, um LLMs zu besseren, effizienteren und parallelen Reasoning-Systemen zu machen. Sie legt nahe, dass die Zukunft des Reasonings nicht in längeren diskreten Textketten, sondern in dichten, kontinuierlichen Repräsentationsräumen liegt.