TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Each language version is independently generated for its own context, not a direct translation.

De Kern: De "Overdenker" die niet wil stoppen

Stel je voor dat je een zeer slimme, maar soms wat dwarse robot hebt die problemen oplost. Laten we hem De Denker noemen.

Wanneer De Denker een vraag krijgt (bijvoorbeeld een lastige wiskundetaak), begint hij te "nadenken". Hij schrijft een lang verhaal op van zijn gedachten (in de vaktaal: Chain-of-Thought of CoT).

Het probleem: De Denker is zo perfectionistisch dat hij vaak het antwoord al heeft gevonden halverwege zijn verhaal, maar hij blijft doorgaan. Hij blijft nadenken: "Zeker weten? Misschien was er een andere manier? Laten we het nog eens checken..."
Het gevolg: Hij gebruikt enorm veel tijd en rekenkracht (computerenergie) om dingen te doen die al klaar zijn. Dit noemen de auteurs "overthinking" (te veel nadenken).

De Oplossing: TERMINATOR

De onderzoekers hebben een slimme "rem" bedacht, genaamd TERMINATOR. Dit is geen robot die mensen vernietigt, maar een slimme stopknop die precies weet wanneer De Denker het antwoord al heeft en hem kan zeggen: "Stop! Je hebt het al. Geef het antwoord nu."

Hoe werkt dit?

1. Het Spoor van de Antwoord (De "Piek")

De onderzoekers hebben ontdekt dat er een heel duidelijk teken is in het brein van de robot op het moment dat hij het echte antwoord vindt.

Metafoor: Stel je voor dat De Denker een berg beklimt. Terwijl hij klimt, is hij onzeker en kijkt hij om zich heen (hij twijfelt). Maar op het exacte moment dat hij de top bereikt (het antwoord), gebeurt er iets speciaals: zijn zelfvertrouwen piekt. Hij is plotseling 100% zeker.
Direct daarna, als hij blijft doorgaan, begint hij weer te twijfelen en te mopperen ("Hmm, wacht even...").
TERMINATOR leert om deze piek in zelfvertrouwen te herkennen. Zodra hij die piek ziet, weet hij: "Oké, het antwoord is hier. We kunnen stoppen."

2. De "Gedachten-Tokens" (De Woordjes die het Verraad)

Naast het zelfvertrouven kijken ze ook naar de woorden die De Denker gebruikt.

Vóór het antwoord: Hij gebruikt vaak woorden als "Hmm", "Laat me zien", "Oké". Dit zijn woorden van twijfel en onderzoek.
Na het antwoord: Zodra hij het antwoord heeft, gebruikt hij vaak woorden als "Daarom", "Dus", "Nog een keer" of "Alternatief". Hij begint dan te zoeken naar andere oplossingen die hij niet nodig heeft.
TERMINATOR leert deze verandering in taalgebruik te herkennen. Als hij merkt dat De Denker van "onderzoekend" naar "herhalend" schakelt, is het tijd om te stoppen.

3. De Trainingsmethode (Het "Terugblikken")

Om TERMINATOR zo slim te maken, hebben de onderzoekers een slimme truc gebruikt. Ze hebben duizenden voorbeelden van De Denker laten oplossen en toen teruggekeken (in het Engels: hindsight).

Ze keken: "Waar zat het antwoord precies in dit lange verhaal?"
Ze hebben een dataset gemaakt van alleen de kortste, meest efficiënte versies van die verhalen.
Vervolgens hebben ze TERMINATOR getraind om te voorspellen: "Zit het antwoord nu al in wat De Denker heeft geschreven?"

Wat levert dit op?

Het resultaat is indrukwekkend:

Snelheid: De Denker is nu veel sneller. Hij hoeft niet meer 1000 regels te schrijven als 400 al genoeg waren.
Kosten: Omdat hij minder "denkt", kost het minder energie en geld om de computer te laten werken.
Kwaliteit: Het mooie is dat de antwoorden even goed blijven. De Denker verliest geen precisie; hij doet gewoon niet de extra, nutteloze rondjes meer.

Samenvattend in één zin

TERMINATOR is als een slimme coach die naast een perfectionistische student zit, die precies weet wanneer het antwoord al op het papier staat, en de student dan zachtjes zegt: "Stop met piekeren, het antwoord is hier, schrijf het op en ga naar huis!"

Dit maakt kunstmatige intelligentie niet alleen slimmer, maar ook veel efficiënter en goedkoper.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling: Overdenken (Overthinking) in Large Reasoning Models (LRMs)

Grote Redeneringsmodellen (LRMs) presteren uitstekend op complexe taken dankzij Chain-of-Thought (CoT) redenering, waarbij het model tussenstappen genereert voordat het een definitief antwoord geeft. Een groot nadeel is echter het fenomeen van "overthinking":

LRMs genereren vaak duizenden extra "denk-tokens" zelfs nadat het juiste antwoord al is gegenereerd.
Het model blijft alternatieve oplossingspaden verkennen of zijn werk dubbelchecken, wat leidt tot onnodig hoge rekentijd en kosten.
Bestaande methoden om de redenering te verkorten (zoals retraining met RL of heuristieken) zijn vaak niet optimaal, vereisen extra training, of kunnen de nauwkeurigheid aantasten.
Het bepalen van de optimale redeneringslengte is lastig omdat deze sterk afhankelijk is van de specifieke taak en het model.

2. Methodologie: De TERMINATOR-aanpak

TERMINATOR is een inference-time strategie die de redenering stopt op het moment dat het model het eerste logische antwoord heeft gegenereerd, zonder de nauwkeurigheid te verliezen. De kern van de methode bestaat uit drie fasen:

A. Het Concept: Hindsight-Optimale Redeneringslengte (HORL)

De auteurs definiëren de Hindsight-Optimal Reasoning Length (HORL) als het minimum aantal tokens dat nodig is om het eindantwoord ( $\hat{a}$ ) te genereren. Alles wat na dit punt komt, wordt als overbodig beschouwd.

In plaats van te wachten tot het model klaar is, probeert TERMINATOR te voorspellen wanneer $\hat{a}$ voor het eerst logisch is afgeleid.

B. Dataverzameling en Validatie (De Pipeline)

Om een model te trainen dat dit moment herkent, is een dataset nodig met de exacte positie van het eerste antwoord. Omdat dit handmatig annoteren onhaalbaar is, ontwikkelden de auteurs een geautomatiseerde pipeline:

Extractie: Een LRM haalt het definitieve antwoord ( $\hat{a}$ ) uit de volledige oplossing ( $s$ ).
Identificatie: Het model zoekt in de CoT ( $r$ ) naar de eerste tekstspan die leidt tot $\hat{a}$ .
Verificatie: Een feedback-loop verifieert of de gevonden span het antwoord bevat. Als dit mislukt, probeert het model het opnieuw met feedback.
Token-index: De exacte token-index van dit moment wordt vastgelegd als het label voor training.

C. Het Model: Binaire Probing Classifier

TERMINATOR is een kleine classificatiemodel (een "probe") dat wordt getraind op de verborgen staten (hidden states) van de laatste laag van het LRM.

Taak: Voorspellen bij elke token of het eerste antwoord al is gegenereerd (label 1) of niet (label 0).
Training: Het model gebruikt een gewogen binary cross-entropy loss om de class imbalance (veel meer "niet-antwoord" tokens dan "antwoord" tokens) te compenseren.
Inference: Tijdens het genereren kijkt TERMINATOR naar een schuifvenster van de 10 meest recente voorspellingen. Als de meerderheid (>50%) van deze voorspellingen "1" is, wordt het <|end_of_text|> token ingevoegd om de generatie onmiddellijk te stoppen.

D. Onderliggende Signalen

De auteurs analyseren twee signalen die aantonen dat het antwoord moment nabij is:

Token-Confidence: Er is een scherpe piek in de zelfvertrouwen-metriek van het model op het moment dat het antwoord wordt gegenereerd, gevolgd door een daling (het model begint te twijfelen).
Gebruik van "Thinking Tokens": Tokens zoals "hmm", "okay" komen vaker voor voor het antwoord, terwijl tokens zoals "another" of "wait" vaker voorkomen na het antwoord.

3. Belangrijkste Bijdragen

Nieuw Concept: Introduceert de Hindsight-Optimal Reasoning Length en toont aan dat de eerste verschijning van het antwoord waarneembare signalen heeft.
TERMINATOR Algorithm: Een nieuwe inference-time methode die geen retraining van het basismodel vereist en geen handmatige drempelwaarden (thresholds) nodig heeft die op validatie-data moeten worden afgestemd.
Robuuste Data-pipeline: Een schaalbare methode om HORL-datasets te creëren door middel van extractie, identificatie en verificatie met feedback.
Empirisch Bewijs: Demonstreert dat TERMINATOR de beste balans vindt tussen efficiëntie (tokenbesparing) en nauwkeurigheid.

4. Resultaten

TERMINATOR werd getest op vier uitdagende datasets: MATH-500, AIME 2025, HumanEval en GPQA, met verschillende modellen (Qwen3-8B/14B, Ministral-3-8B/14B).

Tokenreductie: Gemiddelde verkorting van de CoT met 14% tot 55%.
Nauwkeurigheid: TERMINATOR behoudt de nauwkeurigheid van het volledige model (vaak >90% van de originele score) en presteert beter dan state-of-the-art methoden zoals DEER, Dynasor en Thought Calibration.
Pareto-voorhoede: Op de grafieken van nauwkeurigheid versus compressie (tokenbesparing) ligt TERMINATOR consistent op de Pareto-voorhoede, wat betekent dat het de beste trade-off biedt.
Latentie: De gemiddelde latentie wordt gehalverd (bijv. van ~32s naar ~14s voor Qwen3-8B op MATH-500), met slechts een klein overhead van ~7-10% door het extra classificatiemodel.

5. Betekenis en Conclusie

TERMINATOR biedt een praktische oplossing voor het probleem van "overthinking" in moderne AI-modellen.

Efficiëntie: Het maakt het mogelijk om dure inference-tijd te besparen zonder in te leveren op de kwaliteit van het antwoord.
Generalisatie: De methode werkt goed over verschillende domeinen (wiskunde, codering, wetenschap) en modelgroottes.
Inzicht: De paper levert waardevolle inzichten in het interne gedrag van LRMs, zoals de correlatie tussen token-vertrouwen en het moment van antwoorden, wat verder onderzoek naar "Event-Related Potentials" in AI stimuleert.

Kortom, TERMINATOR stelt modellen in staat om te "weten" wanneer ze klaar zijn met denken, waardoor ze sneller en goedkoper kunnen opereren terwijl ze even slim blijven.