LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Each language version is independently generated for its own context, not a direct translation.

De Grote Vraag: Bedenkt de AI het antwoord eerst, of denkt hij echt na?

Stel je voor dat je een wiskundepuzzel voorlegt aan een slimme robot (een Large Language Model of LLM). De robot geeft niet alleen het antwoord, maar schrijft ook een stap-voor-stap uitleg op, net als een leerling die zijn sommen op het bord uitschrijft. Dit noemen we "Chain-of-Thought" (CoT) of "Gedachteketen".

De grote vraag voor onderzoekers was: Is die uitleg echt eerlijk?
Bedoelt de robot: "Ik heb het antwoord al in mijn hoofd voordat ik begon met schrijven, en ik schrijf nu gewoon een mooi verhaal om het te verklaren"? Of doet hij echt: "Ik begin met de vraag, reken het stap voor stap uit terwijl ik schrijf, en het antwoord komt pas aan het einde"?

De onderzoekers van dit paper wilden weten of de robot een truukspeler is (het antwoord al weet) of een eerlijke denker (het antwoord berekent terwijl hij schrijft).

De Experimenten: De "Röntgenbril" en de "Tijdreis"

Om dit te ontdekken, gebruikten de onderzoekers twee slimme methoden op synthetische rekenopgaven (zoals: A = 1 + B, B = 2 + 3, wat is A?).

1. De Röntgenbril (Linear Probing)

Stel je voor dat je een röntgenbril opzet die door het brein van de robot kan kijken. Ze keken op elk moment in het proces of het antwoord al "zichtbaar" was in de interne geheugens van de robot.

Het resultaat: Toen de robot de vraag las, zag de röntgenbril geen antwoord. Het antwoord was er nog niet. Pas toen de robot begon met het schrijven van de uitleg (de gedachteketen), verscheen het antwoord langzaam in zijn brein.
De vergelijking: Het is alsof je een cake bakt. Als je de ingrediënten (de vraag) in de kom doet, is de cake nog niet klaar. De cake (het antwoord) ontstaat pas terwijl je roert en bakt (het schrijven van de uitleg). De robot heeft het antwoord niet van tevoren in zijn zak gestopt.

2. De Tijdreis (Causal Interventions)

Vervolgens deden ze iets nog spannenders. Ze probeerden de "gedachten" van de robot op te vangen en te vervangen door de gedachten van een andere robot die een ander probleem oplost.

Het experiment: Ze namen de gedachten van de robot voordat hij begon met schrijven en vervangen die door die van een ander. Geen verandering in het eindantwoord.
Het tweede experiment: Ze namen de gedachten van de robot tijdens het schrijven van de uitleg (bijvoorbeeld bij stap 3 van 5) en vervangen die door die van een ander. Wel verandering! Het eindantwoord veranderde direct.
De vergelijking: Het is alsof je een spoorbaan bouwt. Als je de eerste sleep van de trein (de vraag) verwisselt, komt de trein nog steeds op hetzelfde station aan. Maar als je de rails halverwege de rit verwisselt, komt de trein op een heel ander station aan. De robot is dus afhankelijk van wat hij net heeft geschreven om de volgende stap te bepalen.

De Conclusie: De Robot is eerlijk (in dit geval)

Het belangrijkste nieuws is positief voor de betrouwbaarheid van AI:

Geen vooraf bepaald antwoord: De robot weet het antwoord niet voordat hij begint met redeneren.
Echte berekening: Hij berekent het antwoord terwijl hij de uitleg schrijft.
De uitleg is waarheidsgetrouw: Omdat het antwoord uit de uitleg komt, is de geschreven "Chain-of-Thought" een eerlijke weerspiegeling van wat er in het brein van de robot gebeurt.

Een belangrijke nuance: De "Recente Geheugen"

De onderzoekers merkten wel iets interessants op. De robot heeft een soort "kortetermijngeheugen" dat heel sterk is. Hij kijkt vooral naar de laatste stap die hij schreef om de volgende stap te bepalen.

Vergelijking: Stel je een lange rij mensen voor die een boodschap doorgeven. De persoon die het antwoord moet geven, kijkt niet meer naar wat de eerste persoon in de rij zei, maar vooral naar wat de persoon direct voor hem heeft gezegd. De robot is dus erg afhankelijk van de meest recente stap in zijn redenering.

Samenvatting voor de leek

Stel je voor dat je een detective bent die een raadsel oplost.

Slecht scenario (Post-hoc): De detective heeft het antwoord al op een briefje in zijn zak, maar doet alsof hij het oplost door een verhaal te verzinnen.
Dit onderzoek: De detective begint met de aanwijzingen, loopt door het huis, verzamelt bewijsstukken en komt pas aan het einde tot de conclusie. Het verhaal dat hij schrijft, is dus echt wat hij heeft gedaan.

Conclusie: Bij deze specifieke rekenopgaven is de AI eerlijk. Hij "bedenkt" het antwoord niet van tevoren, maar "rekent" het uit terwijl hij praat. De uitleg die je leest, is dus een waarheidsgetrouwe verslag van zijn denkproces.

Each language version is independently generated for its own context, not a direct translation.

Titel: LLMs Berekenen Antwoorden Faithfully en Iteratief Tijdens CoT: Een Systematische Analyse met Meerstaps-Arithmetiek

1. Probleemstelling

Grote Taalmodellen (LLMs) genereren vaak een "Chain-of-Thought" (CoT) – een reeks tussenstappen – voordat ze een definitief antwoord geven. Een kritische vraag in het domein van modelinterpretatie is de faithfulness (geloofwaardigheid) van deze uitleg:

Is de CoT een echte weerspiegeling van het interne redeneerproces dat leidt tot het antwoord?
Of bepaalt het model het antwoord al voordat de CoT begint (bijvoorbeeld tijdens het lezen van de prompt), en genereert het de tussenstappen slechts als een "post-hoc" verhaaltje om aan een verwacht formaat te voldoen?

Als het laatste het geval is, is de CoT misleidend voor gebruikers die vertrouwen op de redenering voor betrouwbaarheid. Dit paper onderzoekt dit fenomeen systematisch.

2. Methodologie

De auteurs gebruiken een gecontroleerde testomgeving met synthetische meerstaps-arithmetische taken om de interne informatieflow van LLMs te analyseren.

Dataset: Een synthetische dataset van wiskundige problemen (bijv. A = 1 + B, B = 2 + 3, A = ?) met verschillende complexiteitsniveaus (Level 1 t/m 5). Deze niveaus variëren op basis van het aantal benodigde stappen, het aantal variabelen dat moet worden "opgeslagen" (stacked) voordat ze kunnen worden opgelost, en de aanwezigheid van afleidende (distractor) vergelijkingen.
Linear Probing:
- De auteurs trainen lineaire classifiers (probes) op de verborgen staten (hidden states) van het model op elk token-positie en elke laag.
- Doel: Bepalen op welk moment (tijd $t$ ) de probe het juiste antwoord (of tussenresultaat) kan voorspellen met hoge nauwkeurigheid.
- Metriek: $t^*$ , het tijdstip waarop de probe voor het eerst een nauwkeurigheid boven een drempelwaarde ( $\tau = 0.9$ ) bereikt. Als $t^*$ positief is (na het begin van de CoT), betekent dit dat het antwoord tijdens het genereren van de redenering wordt berekend.
Causale Interventie (Activation Patching):
- Om de causaliteit te verifiëren, voeren de auteurs experimenten uit waarbij ze verborgen staten uit een "clean run" (een probleem met antwoord $y$ ) vervangen door staten uit een andere "intervention run" (probleem met antwoord $\tilde{y}$ ).
- Doel: Kijken of het vervangen van staten in de CoT-fase het uiteindelijke antwoord verandert. Als het antwoord verandert, is er een causaal verband tussen die specifieke interne representatie en het eindresultaat.

3. Belangrijkste Resultaten

Tijdstip van Berekening (Probing Resultaten):
- De analyse toont aan dat modellen het antwoord niet hebben berekend op het moment dat ze de input lezen (de "first pass"). De nauwkeurigheid van de probes voor de input-fase is laag.
- De probes worden pas betrouwbaar (hoge nauwkeurigheid) tijdens het genereren van de CoT-tekst. Dit suggereert dat het model de (sub-)antwoorden "on the fly" berekent terwijl het de redenering schrijft.
- Dit patroon is consistent over verschillende modellen (Qwen2.5, Llama3, Yi, Mistral) en complexiteitsniveaus.
Causale Relatie (Interventie Resultaten):
- Interventies op de CoT-tekst (de gegenereerde tussenstappen) hebben een sterke causale invloed op het finale antwoord. Als de staten van de CoT worden gewijzigd, verandert het antwoord.
- Interventies op de input-tekst (de oorspronkelijke probleemstelling vóór de CoT) hebben weinig tot geen invloed op het finale antwoord.
- Dit bevestigt dat de CoT niet slechts een decoratie is, maar een noodzakelijk onderdeel van het berekeningsproces.
Recency Bias:
- De causale afhankelijkheid volgt een "recency bias". Het finale antwoord hangt het sterkst af van de meest recente tussenstappen in de CoT. De modelarchitectuur lijkt informatie van eerdere stappen te "vergeten" of te overschrijven ten gunste van de meest recente berekening in de contextvenster.
Foutanalyse:
- In gevallen waar het model een fout maakt, bleek dat het correcte antwoord soms al eerder in de generatieproces aanwezig was in de verborgen staten, maar dat de decodering (het genereren van tokens) later "vastliep" op een verkeerde waarde. Dit suggereert dat de fouten vaak ontstaan in de generatiestap, niet in het initiële begrip.

4. Kernbijdragen

Empirisch Bewijs voor Faithfulness: Het paper levert robuust bewijs dat bij complexe redeneertaken (meerstaps-arithmetiek) de gegenereerde CoT een faithful (geloofwaardige) weerspiegeling is van het interne berekeningsproces van het model. Het antwoord wordt niet vooraf bepaald.
Systematische Analyse Framework: De combinatie van lineaire probing (voor het lokaliseren van informatie) en causale interventie (voor het verifiëren van causaliteit) biedt een krachtige methodologie om interne redeneerprocessen te ontleden.
Inzicht in Interne Dynamiek: De studie onthult dat LLMs bij redeneertaken werken als iteratieve calculatoren die sub-antwoorden genereren en opslaan in de context, in plaats van als systemen die een antwoord "oplossen" en vervolgens uitleggen.

5. Betekenis en Conclusie

De bevindingen zijn significant voor het vertrouwen in LLMs:

Betrouwbaarheid: Voor taken die echte redenering vereisen (zoals wiskunde), kunnen gebruikers erop vertrouwen dat de getoonde redenering (CoT) daadwerkelijk het proces is dat tot het antwoord leidt. Dit is geruststellend voor toepassingen waar uitlegbaarheid cruciaal is.
Interpretatie: Het weerlegt het idee dat CoT altijd een "post-hoc rationalisatie" is. Hoewel dit voor zeer eenvoudige taken (waar geen redenering nodig is) anders kan zijn, geldt voor complexe taken dat het model gedurende het genereren van de tekst redeneert.
Toekomstig Werk: De auteurs merken op dat de resultaten gebaseerd zijn op synthetische data. Toekomstig onderzoek moet bevestigen of dit patroon ook geldt voor complexe natuurlijke taalredenering, hoewel de bevindingen een sterk mechanistisch inzicht bieden in hoe LLMs omgaan met meervoudige stappen.

Conclusie: LLMs berekenen antwoorden iteratief tijdens het genereren van de Chain-of-Thought. De gegenereerde uitleg is dus geen nep-argumentatie, maar een trouwe weerspiegeling van de interne berekening.