Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung von LUMIA Lab, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, aber mit ein paar bildhaften Vergleichen.

Das Grundproblem: Warum KI manchmal "dumm" wirkt

Stell dir vor, du möchtest ein Genie erschaffen. Bisher haben Forscher das gemacht, indem sie das Gehirn des Genies immer größer gemacht haben (mehr Parameter) und ihm immer mehr Bücher zum Lesen gegeben haben (mehr Daten).

Aber es gibt ein Problem:

Die Bücher sind fast alle: Es gibt bald keine hochwertigen Texte mehr im Internet, die die KI noch nicht gelesen hat.
Das Gehirn wird zu teuer: Ein riesiges Gehirn zu bauen und zu unterrichten kostet unvorstellbar viel Strom und Zeit.

Die Forscher von LUMIA Lab haben sich gefragt: Was, wenn wir das Gehirn nicht größer machen, sondern es einfach schlauer darin machen, wie es denkt?

Die Lösung: Der "innere Denker" (Adaptive Latent Chain-of-Thought)

Normalerweise denkt eine KI bei jedem Wort, das sie schreibt, nur einen einzigen Schritt nach. Das ist wie jemand, der beim Autofahren nur auf die Straße schaut, aber nie über die Kurve nachdenkt.

Die neue Methode gibt der KI vor jedem Wort eine geheime Denkphase.

Das Geheimnis: Diese Denkphase passiert nicht laut (wie bei "Chain of Thought", wo die KI ihre Gedanken laut ausspricht), sondern im Inneren (im "latenten Raum"). Die KI denkt also nach, ohne dass wir es sehen.
Die Anpassung: Das ist der Clou. Die KI lernt selbst, wie lange sie nachdenken muss.
- Bei einem einfachen Wort wie "und" oder "der" denkt sie nur eine Sekunde nach (oder gar nicht).
- Bei einem schwierigen Wort wie einer komplexen mathematischen Formel oder einem Namen denkt sie lange und intensiv nach.

Die Analogie: Der Supermarkt-Kassierer

Stell dir einen Supermarkt-Kassierer vor, der alle Kunden bedient.

Der alte Weg (Standard-KI): Der Kassierer zählt bei jedem Kunden exakt 10 Sekunden lang die Ware durch, egal ob es nur eine Banane ist oder ein ganzer Einkaufswagen voller Elektronik. Das ist extrem ineffizient.
Der neue Weg (LUMIA Lab): Der Kassierer hat ein "Gefühl".
- Kommt ein Kunde mit nur einer Banane? Blickt kurz hin, scannt, fertig. (1 Sekunde).
- Kommt ein Kunde mit 50 verschiedenen, komplizierten Artikeln? Nimmt sich Zeit, zählt doppelt nach, prüft die Preise. (30 Sekunden).

Die KI von LUMIA Lab ist dieser adaptive Kassierer. Sie spart Energie bei leichten Aufgaben und investiert Kraft, wo es wirklich nötig ist.

Wie funktioniert das technisch? (Ohne Mathe)

Die Forscher haben drei Tricks angewendet:

Parallelarbeit statt Warteschlange: Früher musste die KI Wort für Wort und Denk-Schritt für Denk-Schritt warten (wie eine Schlange). Die neuen Forscher haben eine Art "Zauber-Maske" erfunden, die es erlaubt, dass die KI für alle Wörter gleichzeitig nachdenkt, solange sie die Reihenfolge einhält. Das macht das Training viel schneller.
Der "Stopp-Knopf": Es gibt einen kleinen Mechanismus (einen "Router"), der bei jedem Denk-Schritt fragt: "Habe ich das schon verstanden?" Wenn die Antwort "Ja" ist, stoppt die KI sofort. Wenn "Nein", denkt sie weiter.
Die Belohnung für Effizienz: Die KI wird bestraft, wenn sie unnötig lange nachdenkt, obwohl sie die Antwort schon wusste. Sie lernt also: "Sei schnell, wenn du sicher bist, und langsam, wenn du unsicher bist."

Was ist das Ergebnis?

Die Tests zeigen, dass diese Methode Wunder wirkt:

Bessere Ergebnisse: Die KI macht weniger Fehler und versteht Sprache besser als Modelle, die viel größer sind.
Weniger Kosten: Da sie bei einfachen Dingen nicht "nachdenkt", spart sie enorm viel Rechenleistung (Strom).
Ein Schritt statt drei: Früher musste man KI erst trainieren, dann extra für das Denken trainieren. Hier lernt die KI das adaptive Denken während des normalen Trainings ganz von selbst.

Fazit

Statt KI-Modelle immer riesiger und dicker zu machen, haben die Forscher sie schlanker und effizienter gemacht. Sie haben der KI beigebracht, ihre Gedanken wie ein kluger Mensch zu steuern: schnell bei trivialen Dingen, tiefgründig bei komplexen Problemen. Das ist ein großer Schritt, um KI auch in Zukunft leistungsfähig und bezahlbar zu halten.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Pretraining with Token-Level Adaptive Latent Chain-of-Thought" auf Deutsch.

Titel: Pretraining mit Token-Level Adaptivem Latentem Chain-of-Thought (Adaptive Latent CoT)

Autoren: Boyi Zeng, Yiqin Hao, et al. (LUMIA Lab, Shanghai Jiao Tong University)
Datum: 7. Februar 2026 (vorveröffentlicht auf arXiv)

1. Problemstellung

Das Skalieren von Large Language Models (LLMs) durch Erhöhung der Parameterzahl und des Trainingsdatenvolumens stößt zunehmend an Grenzen:

Datenknappheit: Hochwertige öffentliche Trainingsdaten sind erschöpft.
Kommunikationskosten: Das Vergrößern der Modelle führt zu erheblichen Kommunikations-Overheads in verteilten Trainingsumgebungen.
Ineffiziente Berechnung: Bestehende Ansätze zur Erhöhung der Rechenleistung pro Token (z. B. rekursive Parameter-Sharing-Strategien oder latente Berechnungen) weisen oft Mängel auf:
- Sie verteilen Rechenleistung oft uniform auf alle Tokens, obwohl menschliches Denken adaptiv ist (kurz bei einfachen Konzepten, lang bei komplexem Schlussfolgern).
- Viele Methoden erfordern mehrstufiges Training, zusätzliche Supervision (annotierte CoT-Daten) oder führen zu Instabilität.
- Bestehende latente CoT-Ansätze (Chain-of-Thought) erzeugen oft sequenzielle Abhängigkeiten, die das parallele Training behindern und die Rechenkosten (FLOPs) explodieren lassen.

Ziel: Die Modellfähigkeiten unter einem festen Parameter- und Datenbudget zu verbessern, indem die Rechenleistung pro Token adaptiv und effizient skaliert wird, ohne die Parameterzahl zu erhöhen.

2. Methodik

Die Autoren schlagen ein einstufiges Pretraining-Framework vor, bei dem das Modell lernt, vor der Ausgabe jedes Tokens eine variable Anzahl an latenten CoT-Schritten (Schritte im verborgenen Raum) zu generieren.

Kernkomponenten:

A. Parallele Maskierung (Parallel Masking) zur Beseitigung sequenzieller Abhängigkeiten

Problem: Herkömmliche latente CoT-Modelle erzeugen eine strikte sequenzielle Abhängigkeit sowohl über die Token-Länge ( $L$ ) als auch über die latenten Schritte ( $K$ ). Dies macht paralleles Training unmöglich und führt zu $O(L \times K)$ Operationen.
Lösung: Die Autoren erweitern den Attention-Mechanismus auf eine 2D-Indizierung $(t, k)$ , wobei $t$ die Token-Position und $k$ der latente Schritt ist.
Mechanismus: Ein spezieller Attention-Mask erzwingt Kausalität nur in beiden Dimensionen gleichzeitig. Dies erlaubt es, für einen festen latenten Schritt $k$ alle Token-Positionen $t$ parallel zu berechnen. Die Abhängigkeit wird von $O(L \times K)$ auf $O(K)$ sequenzielle Schritte reduziert, wobei die massive Parallelität der GPUs über die Token-Dimension genutzt wird.

B. Probabilistischer Halte-Mechanismus (Probabilistic Halting)

Router: Ein leichter Router (Linear oder MLP) sagt für jeden Token und jeden latenten Schritt $k$ die Wahrscheinlichkeit $g^{(k)}_t$ vorher, zum nächsten Schritt fortzufahren.
Adaptivität: Das Modell entscheidet dynamisch, wie viele Schritte nötig sind. Einfache Tokens stoppen früh (oder sofort), komplexe Tokens laufen länger.
Threshold-Pruning: Um FLOPs zu sparen, werden Tokens aus dem Batch entfernt, sobald die Wahrscheinlichkeit, den nächsten Schritt zu erreichen, einen Schwellenwert $\tau$ unterschreitet.
Massenerhaltende Mischung (Expectation-based Mixing): Da durch das Pruning Schritte abgeschnitten werden, wird die verbleibende Wahrscheinlichkeitsmasse auf den letzten ausgeführten Zustand umverteilt, um eine konsistente finale Repräsentation $z_{final}$ zu erhalten.

C. Korrektur-bewusster adaptiver Verlust (Correctness-Aware Adaptive Loss)

Motivation: Abbildung 2 zeigt, dass zusätzliche latente Schritte bei bereits hochwahrscheinlichen Tokens (hohe $p_{target}$ ) keinen Gewinn bringen oder sogar schädlich sein können.
Verlustfunktion: Zusätzlich zum Standard Cross-Entropy-Verlust ( $L_{CE}$ $L_{C E}$ ) wird ein adaptiver Term ( $L_{adaptive}$ $L_{a d a pt i v e}$ ) eingeführt. Dieser bestraft das Fortsetzen der Berechnung ( $g \to 1$ $g \to 1$ ) proportional zur aktuellen Wahrscheinlichkeit des korrekten Tokens.
- Formel: $L_{adaptive} = \lambda \sum \sum g^{(k)}_t \cdot \text{sg}((p^{(k)}_{target, t})^\beta)$
- Dies ermutigt das Modell, frühzeitig zu stoppen, wenn es sich bereits sicher ist, und reduziert so den Gesamtaufwand an FLOPs.

D. Training und Inferenz

Training: Einstufiges Pretraining auf allgemeinem Text (The Pile). Der Router wird gemeinsam mit dem Sprachmodell durch Backpropagation des Hauptverlusts und des adaptiven Verlusts trainiert.
Inferenz: Während des Decodings wird der Router verwendet, um tokenweise zu entscheiden, wann die latente Kette gestoppt wird. Die finale Repräsentation wird durch gewichtete Mischung der ausgeführten Schritte gebildet.
Positionale Embeddings: Latente Schritte teilen sich die Positions-ID des ursprünglichen Tokens, sodass der Kontextfenster nicht verkleinert wird.

3. Wichtige Beiträge

Adaptive Latent CoT ohne mehrstufiges Training: Im Gegensatz zu vorherigen Arbeiten, die annotierte CoT-Daten oder mehrstufiges Fine-Tuning benötigen, entsteht dieses Verhalten rein durch einstufiges Pretraining auf Rohdaten.
Effizienz durch Parallelisierung: Durch die Einführung der 2D-Parallel-Maskierung wird das sequenzielle Bottleneck von latenten CoT-Schritten eliminiert, was das Training auf GPUs effizient macht.
Reduktion der Trainings-FLOPs: Das System reduziert nicht nur die Inferenzkosten, sondern auch die Trainingskosten durch Pruning und adaptive Halteentscheidungen, im Gegensatz zu rekursiven Baselines, die oft mehr FLOPs verbrauchen.
End-to-End Lernbarkeit: Der Router lernt autonom, Rechenleistung basierend auf der Schwierigkeit des Tokens zu verteilen, ohne externe Supervision.

4. Ergebnisse

Die Methode wurde auf LLaMA-Architekturen (410M und 1,4B Parameter) auf dem Datensatz „The Pile" getestet und mit starken Baselines verglichen (LoopedLM, PausedLM, PonderLM, PonderLM2, MoR).

Sprachmodellierung (Perplexity):
- Das adaptive Latent CoT-Modell erreicht konsistent die niedrigste Perplexität über alle Datensätze (The Pile, WikiText, LAMBADA).
- Effizienz: Ein 1,4B-Modell mit adaptivem CoT ( $\ell_{max}=3$ ) übertrifft das stärkste Basismodell (PonderLM-2) bei weniger als der Hälfte des Trainingsaufwands (7,47 vs. 17,47 $\times 10^{20}$ FLOPs).
Downstream-Aufgaben:
- Das Modell erzielt die beste durchschnittliche Genauigkeit (0-Shot und 5-Shot) auf Benchmarks wie ARC, HellaSwag, PIQA, SciQ und RACE.
- Skalierungseffekt: Ein 410M-Modell mit adaptivem CoT übertrifft ein reines 1,4B-Modell (ohne CoT) bei gleicher Rechenbudget, was zeigt, dass adaptive Berechnung effektiver ist als einfaches Skalieren der Parameterzahl.
Iso-FLOP und Iso-Data Vergleich:
- Unter gleichen Daten- und Rechenbudgets (Isos) erzielt die Methode stets den niedrigsten Validierungsverlust im Vergleich zu rekursiven oder rekurrenten Baselines.
Analyse der Adaptivität:
- Es wurde eine klare Korrelation festgestellt: Tokens mit niedriger Zielwahrscheinlichkeit (schwierig) erhalten mehr latente Schritte, während einfache Tokens (hohe Wahrscheinlichkeit) früh stoppen.
- Das Pruning spart signifikante Rechenressourcen, ohne die Qualität zu beeinträchtigen.

5. Bedeutung und Fazit

Diese Arbeit stellt einen Paradigmenwechsel dar, wie Rechenleistung in LLMs genutzt wird. Anstatt die Parameterzahl zu erhöhen, wird die Rechenleistung pro Token adaptiv skaliert.

Ökonomie: Die Methode adressiert die Knappheit an Daten und die hohen Kosten des Trainings, indem sie effizienter lernt.
Natürlichkeit: Sie imitiert menschliche Kognition, indem sie „Denkzeit" nur dort investiert, wo sie benötigt wird.
Praktische Anwendbarkeit: Da das Training einstufig und ohne spezielle Annotationen erfolgt, ist der Ansatz leicht auf bestehende Architekturen übertragbar und bietet sofortige Vorteile sowohl beim Training als auch beim Inferenz.

Zusammenfassend beweist das Paper, dass Token-Level Adaptive Latent CoT eine überlegene Strategie zur Skalierung von LLM-Fähigkeiten ist, die höhere Genauigkeit bei geringeren Rechenkosten erreicht als herkömmliche Skalierungsansätze.