TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überdenkende Roboter

Stell dir vor, du hast einen extrem intelligenten Roboter, der Mathematik- und Logikrätsel löst. Wenn er ein Problem bekommt, denkt er laut nach (das nennt man „Chain-of-Thought" oder „Gedankenkette").

Das Problem ist: Dieser Roboter denkt zu viel.

Er findet oft die richtige Antwort schon nach wenigen Sätzen, sagt sie aber nicht sofort. Stattdessen fängt er an, sich selbst zu überprüfen, Zweifel zu hegen, alternative Wege zu prüfen und die Lösung immer wieder zu wiederholen. Es ist, als würde ein Schüler die Antwort „42" auf einen Zettel schreiben, dann aber noch 20 Minuten lang herumrechnen, ob 42 vielleicht doch 43 sein könnte, nur um sich dann am Ende wieder auf 42 festzulegen.

Das kostet enorm viel Zeit und Rechenleistung (Strom), obwohl die Antwort längst da war.

Die Lösung: TERMINATOR – Der intelligente Abbruch-Button

Die Forscher haben eine Methode namens TERMINATOR entwickelt. Das Ziel ist einfach: Sobald der Roboter die richtige Antwort gefunden hat, soll er sofort aufhören zu denken und die Antwort ausgeben.

Aber wie weiß der Roboter, dass er fertig ist? Er weiß es oft gar nicht selbst, weil er in seinem „Überdenkungs-Modus" weiterläuft.

Wie funktioniert TERMINATOR? (Die Metaphern)

Stell dir das System wie einen sehr aufmerksamen Regisseur vor, der neben dem Roboter sitzt und dessen Gedankenprozess beobachtet.

1. Der „Herzschlag"-Effekt (Token-Confidence)

Wenn der Roboter die richtige Antwort findet, passiert etwas Interessantes in seinem Inneren: Seine „Selbstsicherheit" (ein technischer Wert) macht einen plötzlichen Sprung.

Vor der Antwort: Der Roboter ist unsicher, rechnet herum, nutzt Wörter wie „Hmm", „Vielleicht", „Lass mich nochmal schauen".
Genau bei der Antwort: Es gibt einen klaren „Puls-Schlag". Die Sicherheit steigt kurzzeitig extrem an.
Nach der Antwort: Der Roboter beginnt wieder zu zweifeln („Hmm, stimmt das wirklich?"), und die Sicherheit sinkt wieder.

TERMINATOR ist wie ein Herzmonitor, der genau diesen Puls-Schlag erkennt. Sobald er sieht: „Aha! Da war der Peak!", weiß er: „Die Antwort ist da! Stoppen!"

2. Der „Gedanken-Trainer" (Training)

Damit TERMINATOR diesen Moment genau erkennt, muss man ihn erst lehren. Die Forscher haben einen cleveren Trick angewendet:
Sie haben Tausende von Beispielen genommen, bei denen der Roboter die Antwort gefunden hat. Dann haben sie rückwärts geschaut („Hindsight"): Wo genau in der Kette der Gedanken wurde die Antwort zum ersten Mal logisch klar?

Sie haben dem TERMINATOR-Modell beigebracht: „Wenn du diesen Punkt siehst, drücke den Stopp-Knopf." Es ist wie ein Trainer, der einem Läufer sagt: „Wenn du diesen Baum siehst, hast du das Ziel erreicht, lauf nicht weiter!"

3. Der „Wort-Zähler" (Thinking Tokens)

TERMINATOR achtet auch auf bestimmte Wörter. Wenn der Roboter sagt: „Okay", „Hmm" oder „Lass uns nochmal prüfen", ist das ein Zeichen für weiteres Denken. Wenn er aber sagt: „Also ist das Ergebnis..." und dann die Antwort nennt, ist das ein Zeichen für Fertigsein.
TERMINATOR merkt sich: „Solange er 'Hmm' sagt, läuft er weiter. Sobald er die Antwort formuliert, ist Schluss."

Das Ergebnis: Schneller und schlauer

In Tests hat sich gezeigt, dass TERMINATOR die Gedankenketten der Roboter um 14 % bis 55 % kürzer macht.

Ohne TERMINATOR: Der Roboter denkt 1000 Schritte lang nach, findet die Antwort bei Schritt 400, denkt aber trotzdem noch 600 Schritte weiter.
Mit TERMINATOR: Der Roboter findet die Antwort bei Schritt 400, TERMINATOR erkennt das Signal und sagt: „Stopp! Antwort ausgeben!"

Das bedeutet:

Schnellere Antworten: Der Roboter antwortet viel früher.
Geringere Kosten: Weniger Rechenzeit bedeutet weniger Stromverbrauch.
Kein Qualitätsverlust: Die Antworten sind genauso korrekt wie vorher, nur dass der Roboter nicht mehr unnötig lange redet.

Zusammenfassung in einem Satz

TERMINATOR ist wie ein kluger Assistent, der einem überdenkenden Genie genau dann auf die Schulter klopft und sagt: „Hör auf zu grübeln, du hast die Lösung schon gefunden!", damit es nicht mehr Zeit und Energie verschwendet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Large Reasoning Models (LRMs) erreichen beeindruckende Leistungen bei komplexen Aufgaben durch Chain-of-Thought (CoT) Reasoning, bei dem sie vor der finalen Antwort Zwischenschritte generieren. Ein zentrales Problem ist jedoch das Phänomen des „Overthinking": LRMs generieren oft Tausende von zusätzlichen Denk-Token, selbst nachdem sie die korrekte Antwort bereits früh im Prozess gefunden haben. Sie verbringen erhebliche Rechenzeit mit dem Überprüfen ihrer Arbeit oder dem Erkunden alternativer Lösungswege, was zu ineffizientem Ressourceneinsatz führt.

Bisherige Ansätze zur Reduzierung der CoT-Länge scheitern oft daran, dass sie entweder:

Das Modell neu trainieren müssen (z. B. durch Reinforcement Learning), was rechenintensiv ist.
Auf heuristischen Schwellenwerten basieren, die nicht optimal sind und oft die Genauigkeit beeinträchtigen.
Nicht in der Lage sind, den exakten Zeitpunkt zu bestimmen, an dem die erste logische Ankunft der finalen Antwort ( $\hat{a}$ ) erfolgt.

Die Herausforderung besteht darin, einen optimalen Abbruchpunkt zu finden, der die Länge der CoT minimiert, ohne die Genauigkeit zu verringern.

2. Methodik: TERMINATOR

TERMINATOR ist ein Inferenzzeit-Algorithmus (Inference-time), der LRMs ermöglicht, das Denken frühzeitig zu beenden, ohne das Basismodell neu zu trainieren.

Kernkonzept: Hindsight-Optimalität

Die Autoren führen das Konzept der „hindsight-optimalen Reasoning-Länge" (HORL) ein. Dies ist definiert als der früheste Token-Index im CoT, an dem das Modell die finale Antwort $\hat{a}$ logisch erreicht hat. Alles, was nach diesem Punkt generiert wird, ist redundant.

Datenerstellung (Pipeline)

Da HORL nicht direkt bekannt ist, entwickeln die Autoren eine robuste Pipeline zur Erstellung eines Trainingsdatensatzes:

Extraktion: Ein leistungsstarkes LRM extrahiert die finale Antwort $\hat{a}$ aus der vollständigen Lösung $s$ .
Identifikation: Das LRM wird angewiesen, den Textspan $d$ im CoT $r$ zu finden, der zur ersten logischen Ankunft von $\hat{a}$ führt.
Verifikation: Das LRM verifiziert, ob der gefundene Span $d$ tatsächlich $\hat{a}$ enthält. Falls nicht, wird der Prozess mit Feedback wiederholt.
Token-Index-Extraktion: Der genaue Token-Index $i^*$ der ersten Ankunft wird extrahiert.
Dieser Prozess wird für Zehntausende von CoTs automatisiert, um ein Dataset mit optimalen Abbruchpunkten zu erstellen.

Der TERMINATOR-Klassifikator

TERMINATOR ist ein binärer Proben-Klassifikator (Probe Classifier), der auf den versteckten Zuständen (Hidden States) der letzten Schicht des LRM trainiert wird.

Architektur: Er nutzt denselben Transformer-Block wie das LRM (Initialisierung mit Gewichten der letzten Schicht des LRM) und fügt einen Vorhersagekopf hinzu.
Aufgabe: Für jeden Token $i$ im CoT wird vorhergesagt, ob die finale Antwort bereits generiert wurde (Label 1) oder nicht (Label 0).
Training: Das Modell wird mit einem gewichteten binären Kreuzentropie-Verlust trainiert, um das Klassenungleichgewicht (viele 0er, wenige 1er) auszugleichen.
Inferenz: Während der Inferenz wird ein gleitendes Fenster der letzten 10 Vorhersagen verwendet. Wenn die Mehrheit (z. B. >50%) der Vorhersagen „1" ist, wird das End-Token `

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Das Problem: Der überdenkende Roboter

Die Lösung: TERMINATOR – Der intelligente Abbruch-Button

Wie funktioniert TERMINATOR? (Die Metaphern)

1. Der „Herzschlag"-Effekt (Token-Confidence)

2. Der „Gedanken-Trainer" (Training)

3. Der „Wort-Zähler" (Thinking Tokens)

Das Ergebnis: Schneller und schlauer

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: TERMINATOR

Kernkonzept: Hindsight-Optimalität

Datenerstellung (Pipeline)

Der TERMINATOR-Klassifikator

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank