The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Each language version is independently generated for its own context, not a direct translation.

De Grote Vraag: Waarom weten LLM's soms dat ze het goed hebben?

Stel je voor dat een kunstmatige intelligentie (een LLM) een moeilijk raadsel oplost. Terwijl het nadenkt, schrijft het stap voor stap een verhaal of een oplossing op.

Onderzoekers hebben een raadselachtig fenomeen ontdekt: hoe meer de AI "onzeker" wordt over haar eigen woorden (een concept dat entropie heet), hoe waarschijnlijker het is dat ze het juiste antwoord vindt.

Dit klinkt tegenstrijdig. Normaal denken we: "Als ik zeker ben, heb ik het goed." Maar hier is het omgekeerd: als de AI haar onzekerheid systematisch laat zakken terwijl ze nadenkt, is de kans groot dat ze op het goede spoor zit.

De vraag die dit papier beantwoordt is: Waarom werkt dit? Waarom heeft de interne onzekerheid van de machine iets te maken met de externe waarheid?

De Oplossing: Het "Stap-voor-stap Informatie" Principe

De auteurs van het paper stellen een nieuwe regel voor, die ze de Stap-voor-stap Informatie Aanname (in het Engels: Stepwise Informativeness Assumption of SIA) noemen.

Laten we dit uitleggen met een analogie: Het oplossen van een raadsel in het donker.

1. De Verkeerde Weg (Zonder SIA)

Stel je voor dat je in een donkere kamer staat en een raadsel moet oplossen. Je begint te gissen.

Je zegt: "Misschien is het een appel?" (Je bent onzeker).
Dan zeg je: "Nee, wacht, misschien een auto?" (Je bent nog steeds onzeker, maar je bent nu anders onzeker).
Je blijft willekeurig gissen: "Een boot? Een boom?"

In dit scenario daalt je onzekerheid misschien wel (je voelt je steeds zekerder dat het iets is), maar je komt dichter bij het juiste antwoord? Nee. Je bent gewoon zelfverzekerd aan het dwalen. Je interne zekerheid heeft niets te maken met de waarheid. Dit is wat er gebeurt bij slecht getrainde modellen.

2. De Goede Weg (Met SIA)

Nu stel je je voor dat je een schatkaart hebt die je stap voor stap opbouwt.

Stap 1: Je weet dat de schat in de tuin ligt. (Je onzekerheid over de locatie daalt van "hele wereld" naar "tuin").
Stap 2: Je weet dat het onder de grote eik ligt. (Onzekerheid daalt van "tuin" naar "onder de eik").
Stap 3: Je ziet een glinsterend object. (Onzekerheid daalt naar "dat is het").

Hier is het geheim: Elke stap die je zet, verzamelt informatie die direct helpt om het antwoord te vinden. Je onzekerheid daalt niet zomaar; hij daalt omdat je dichter bij de waarheid komt.

Dit is wat de auteurs SIA noemen: Een goed redenerend model bouwt zijn antwoord op door stap voor stap stukjes waarheid toe te voegen. Elke zin die het schrijft, maakt het juiste antwoord iets waarschijnlijker.

Waarom gebeurt dit? (De Oefening)

Je vraagt je misschien af: "Maar hoe leert een computer dit?"

De auteurs leggen uit dat dit komt door training, net zoals een mens leert.

Pre-training (Het lezen van boeken): De AI leest miljarden teksten. Ze leert dat zinnen logisch moeten lopen, maar ze weet nog niet altijd wat het juiste antwoord is op een vraag. Het is alsof iemand die alleen maar romans leest; hij schrijft mooie zinnen, maar is niet getraind om wiskundeproblemen op te lossen.
Supervised Fine-Tuning (De les): Hier krijgen de AI specifieke voorbeelden: "Hier is een vraag, hier is het juiste antwoord, en hier is de stap-voor-stap uitleg die ernaartoe leidt."
- De AI leert nu: "Als ik deze stap zet, wordt het juiste antwoord waarschijnlijker."
- Het leert de kunst van het informatie verzamelen.
Reinforcement Learning (De beloning): De AI krijgt een punt als ze het goed heeft, en geen punt als ze het fout heeft. Ze leert dat ze alleen die paden moet kiezen die leiden naar het juiste antwoord.

Door deze training leert de AI dat onzekerheid verminderen = dichter bij het antwoord komen.

De "Vingerafdrukken" van een Goede Redenering

Het paper toont aan dat we dit gedrag kunnen zien in de "geest" van de AI. Als een AI goed redeneert (dus met SIA), zie je drie dingen gebeuren:

Vroegtijdige Lock-in: De AI begint al vroeg in het proces de onzekerheid te laten zakken. Ze "pakt" het juiste antwoord snel vast, net zoals een detective die snel een verdachte uitsluit.
Scheiding: Je kunt al in het midden van de tekst zien of de AI het goed of fout gaat doen. Als de onzekerheid niet daalt, is het waarschijnlijk een foute route.
Het Plateau: Aan het einde van een goede redenering stopt de onzekerheid met dalen. De AI is bij het antwoord gekomen en heeft niets meer te twijfelen. Het is alsof je de schat hebt gevonden; er is geen onzekerheid meer.

Conclusie

Kortom:
De correlatie tussen "interne onzekerheid" en "externe juistheid" is niet toeval. Het is een structuur die de AI leert tijdens training.

Als een AI goed redeneert, is elke stap een stukje informatie dat het juiste antwoord dichterbij brengt. De onzekerheid daalt omdat de waarheid duidelijker wordt.
Als een AI slecht redeneert (of hallucineert), daalt de onzekerheid misschien ook, maar dan alleen omdat ze zelfverzekerd in de war raakt, zonder dichter bij de waarheid te komen.

Dit paper geeft ons dus een manier om te begrijpen waarom we kunnen vertrouwen op de onzekerheid van een AI als teken dat ze goed denkt, en wanneer we moeten oppassen. Het is alsof we een thermometer hebben die niet alleen de temperatuur meet, maar ook vertelt of de patiënt (de AI) op weg is naar genezing (het juiste antwoord).

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Er is een groeiend corpus aan empirisch onderzoek dat aantoont dat er een sterke correlatie bestaat tussen de interne entropiedynamiek van grote taalmodellen (LLMs) en de kwaliteit van hun redenering. Specifiek wordt waargenomen dat wanneer een model een redeneerproces (Chain-of-Thought) doorloopt, de conditionele entropie van het antwoord vaak daalt naarmate het proces vordert, en dat deze daling correleert met een hogere kans op een correct antwoord.

Het centrale, onopgeloste raadsel is echter waarom deze correlatie bestaat.

Interne entropie is gedefinieerd puur op basis van de voorspellende verdeling van het model zelf ( $p_\theta$ ).
Correctheid is gedefinieerd extern, gebaseerd op de grond-waarheid (ground-truth) verdeling ( $p^\star$ ).

Er is geen a priori reden waarom de interne onzekerheid van een model automatisch zou corresponderen met de externe waarheid. Bestaande verklaringen zijn vaak puur empirisch of nemen aan dat training dit automatisch regelt, zonder de onderliggende structurele voorwaarden te formuleren.

2. Methodologie en Theoretisch Kader

De auteurs introduceren een theoretisch raamwerk om deze correlatie te verklaren, gebaseerd op informatietheorie.

De Stapsgewijze Informatieve Aanneming (SIA)

De kern van het artikel is de Stepwise Informativeness Assumption (SIA). Deze aanname stelt dat redeneer-prefixen (de gegenereerde tussenstappen) in verwachting informatie accumuleren over het ware antwoord.

Formeel: Voor een gezamenlijke verdeling $p$ die de query, de redeneertrace en het antwoord koppelt, geldt dat de conditionele wederzijdse informatie $I_p(A; C_{1:k} | Q)$ positief en toenemend is naarmate $k$ (de lengte van de prefix) toeneemt.
Dit betekent dat elke stap in de redenering, in verwachting, de onzekerheid over het juiste antwoord verkleint.

Theoretische Afleidingen

De auteurs leiden af dat onder SIA de conditionele antwoordentropie fungeert als een progressievariabele:

Entropie als maatstaf voor vooruitgang: De daling van de entropie $H(A | Q, C_{1:k})$ komt overeen met de accumulatie van informatie over het antwoord.
Fano's Ongelijkheid: Ze tonen aan dat er een theoretische ondergrens is voor de foutkans van een predictor, gekoppeld aan de conditionele entropie. Als de entropie hoog blijft, kan het model niet betrouwbaar correct zijn.
Oorsprong van SIA:
- Menselijke traces: Menselijke redenering volgt vaak een structuur waarbij informatie progressief wordt onthuld (beperkt door cognitieve capaciteit).
- Training: Via Maximum Likelihood Estimation (MLE) en Supervised Fine-Tuning (SFT) leert het model om de verdeling van menselijke traces na te bootsen. Omdat menselijke traces SIA-voldoen, "erft" het model deze eigenschap, mits het trainingsdoel expliciet gekoppeld is aan het juiste antwoord (zoals bij SFT en Reinforcement Learning).

Empirische Validatie

De auteurs testen hun theorie op een breed scala aan modellen (Gemma-2, LLaMA-3.2, Qwen-2.5, DeepSeek, Olmo) en datasets (GSM8K, ARC, SVAMP). Ze analyseren drie trainingstypen:

Base models (alleen pre-training).
SFT (Supervised Fine-Tuning op Chain-of-Thought data).
RL (Reinforcement Learning met verifieerbare beloningen).

Ze meten de SIA-alignatiecoëfficiënt ( $\rho_{SIA}$ ), de correlatie tussen de daling van de entropie en de stijging van de waarschijnlijkheid van het gouden (ware) antwoord.

3. Belangrijkste Resultaten

Training induceert SIA:
- Base modellen tonen vaak een zwakke of zelfs negatieve correlatie. Hun entropie daalt soms, maar niet noodzakelijk richting het juiste antwoord (ze "hallucineren" met zekerheid).
- SFT-modellen tonen een sterke positieve correlatie.
- RL-modellen (zoals DeepSeek-R1) tonen een bijna perfecte alignatie. Dit bevestigt dat training voor redenering de interne entropiedynamiek structureel koppelt aan externe correctheid.
Observabele handtekeningen van correcte redenering:
Wanneer SIA geldt, vertonen correcte traces specifieke patronen die niet zichtbaar zijn in foutieve traces of niet-gealigneerde modellen:
1. Vroege "Lock-in": Correcte traces accumuleren een groter deel van de totale informatiewinst vroeg in het generatieproces. De entropie daalt sneller bij correcte paden.
2. Vroege scheidbaarheid: De entropie kan al vroeg in de trace (voordat het antwoord wordt gegenereerd) betrouwbaar onderscheid maken tussen correcte en incorrecte paden (hoge AUC).
3. Saturatie: Correcte paden bereiken een plateau bij (bijna) nul entropie, wat aangeeft dat alle relevante informatie is verzameld. Foutieve paden stabiliseren vaak op een hoger entropieniveau of vertonen "rebound"-effecten.
Ablatiestudies:
Door de volgorde van tokens in de prefix te shuffle (verwarren), verdwijnt de correlatie direct. Dit bewijst dat de daling van de entropie afhankelijk is van de structurele accumulatie van informatie en niet slechts van het aantal tokens.

4. Bijdragen

Theoretische verklaring: Het artikel biedt de eerste structurele, informatietheoretische verklaring voor waarom interne entropie-correlaties met externe correctheid werken. Het identificeert SIA als de minimale voorwaarde hiervoor.
Formalisatie van trainingseffecten: Het toont aan hoe MLE, SFT en RL de verdeling van het model zodanig veranderen dat SIA wordt geïnduceerd, en waarom base-modellen dit vaak missen.
Diagnostische tools: Het definieert meetbare handtekeningen (vroege entropiedaling, saturatie) die kunnen worden gebruikt om de kwaliteit van redenering in real-time te monitoren, hallucinaties te detecteren en redenering te sturen (bijv. via early stopping).

5. Betekenis en Impact

Deze bevindingen zijn cruciaal voor de ontwikkeling van betrouwbare AI-systemen:

Vertrouwen in LLMs: Het biedt een theoretische basis voor het gebruik van entropie als signaal voor betrouwbaarheid. Als een model SIA niet volgt (bijv. bij hallucinaties of in OOD-scenario's), is entropie geen betrouwbare indicator meer.
Efficiëntie: Het ondersteunt methoden voor "early stopping" en het optimaliseren van Chain-of-Thought, omdat men nu begrijpt waarom een dalende entropie een teken van succes is.
Toekomstige richtingen: Het stelt de grenzen van entropie-based diagnostics bloot (het werkt niet voor vrij creatieve tekst zonder vast antwoord) en suggereert dat toekomstige trainingen expliciet gericht moeten zijn op het handhaven van deze informatieve structuur.

Kortom, het artikel beweert dat entropie-dynamiek alleen dan een proxy is voor redeneerkwaliteit als het model heeft geleerd om stapsgewijs informatie over het antwoord te accumuleren, een eigenschap die door specifieke training wordt opgelegd.