From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Each language version is independently generated for its own context, not a direct translation.

Van Chaos naar Kalmte: Hoe AI leert om eerlijk te zijn over wat ze niet weet

Stel je voor dat je een zeer slimme, maar soms overmoedige assistent hebt. Deze assistent (een 'Large Language Model' of LLM) kan vragen beantwoorden over van alles: van de geschiedenis tot wiskunde. Het probleem is dat deze assistent soms dingen verzint die er heel overtuigend uitzien, maar helemaal niet waar zijn. We noemen dit 'hallucinaties'.

In het dagelijks leven is dit misschien niet erg. Maar in de wereld van geneeskunde, financiën of recht is het gevaarlijk. Als een AI zegt: "Ik ben 100% zeker dat deze medicijnwerking veilig is," terwijl ze dat niet is, kan dat rampzalig zijn.

Deze paper introduceert een slimme manier om deze AI te trainen om niet alleen antwoorden te geven, maar ook om eerlijk te zeggen hoe zeker ze zich voelt. Ze noemen dit "gekalibreerde onzekerheid".

Hier is hoe ze dat doen, vertaald in een verhaal met analogieën:

1. Het Probleem: De "Gokker" vs. De "Wiskundige"

Standaard AI-modellen zijn als gokkers. Ze gooien een antwoord op de tafel en zeggen: "Dit is het!" Zelfs als ze het fout hebben, klinken ze vaak zelfverzekerd.

Bestaande methoden om hun zekerheid te meten zijn als het laten gooien van een muntstuk 100 keer om te zien hoe vaak hij op kop valt. Dat werkt, maar het is trager en duurder (rekenkracht) en de uitkomst is vaak een willekeurig getal dat niet direct vertaalt naar een percentage kans.

2. De Oplossing: Een Drie-Stappen Plan

De auteurs van dit paper hebben een nieuwe methode bedacht die de AI leert om haar eigen twijfel te begrijpen, zonder dat het lang duurt.

Stap 1: De "Kaleidoscoop" (De Entropie)

Stel je voor dat je de AI vraagt: "Wie was de eerste president van de VS?"
In plaats van één antwoord te geven, laten we de AI 10 keer hetzelfde antwoord bedenken.

Als de AI het weet, zullen alle 10 de antwoorden bijna identiek zijn (bijv. "George Washington").
Als de AI het niet weet, zullen de antwoorden als een kaleidoscoop uit elkaar spatten: "Abraham Lincoln", "Thomas Jefferson", "Een man met een hoed", etc.

De onderzoekers meten deze "uit elkaar spatten" in de digitale wereld. Hoe meer chaos (of entropie) er is in de verschillende antwoorden, hoe onzeker de AI is. Dit is hun eerste, ruwe maatstaf voor twijfel.

Stap 2: De "Vertaler" (Platt Scaling)

Het probleem met de "chaos-maatstaf" uit stap 1 is dat het een wiskundig getal is dat niemand begrijpt (bijv. "0,452 chaos"). We willen een percentage: "Ik ben 70% zeker".

Dus, ze gebruiken een slimme vertaler (Platt Scaling). Deze vertaler kijkt naar de chaos en zegt: "Ah, deze hoeveelheid chaos komt overeen met een kans van 80% dat het antwoord fout is."
Nu hebben we een betrouwbaar en menselijk begrijpelijk getal: de "Gouden Standaard" voor onzekerheid.

Stap 3: De "Coach" (Versterkend Leren)

Nu komt het magische deel. Ze trainen de AI niet om het antwoord te verbeteren, maar om haar eigen twijfel te leren inschatten.

Stel je voor dat de AI een leerling is en de "Gouden Standaard" uit stap 2 is de coach.

De AI zegt: "Ik denk dat het antwoord George Washington is, en ik ben 90% zeker."
De coach kijkt naar de "chaos-maatstaf" en zegt: "Nee, je was hier erg onzeker. Je had moeten zeggen: 'Ik ben maar 40% zeker'."
De AI krijgt een beloning als ze de twijfel goed inschat, en een straf als ze te zelfverzekerd is.

Ze gebruiken een slimme trainingsmethode (GRPO) die dit doet zonder de hele AI opnieuw te hoeven bouwen, wat heel efficiënt is.

Waarom is dit zo cool?

Snelheid: De oude methoden moesten 100 keer "gokken" om een antwoord te geven. Deze nieuwe methode leert de AI om in één keer te zeggen: "Ik weet het niet zeker." Dat is veel sneller.
Eerlijkheid: De AI wordt niet alleen slim, maar ook nederig. Ze leert om te zeggen: "Ik denk dit, maar ik heb hier twijfels," in plaats van een fout antwoord met een glimlach te geven.
Toepasbaar: Het werkt zelfs op vragen die de AI nog nooit heeft gezien (zoals wiskundeproblemen), wat betekent dat ze echt heeft geleerd hoe ze moet twijfelen, niet alleen wat ze moet zeggen.

Conclusie

Dit onderzoek is als het geven van een geweten aan een super-slimme computer. Het zorgt ervoor dat de AI niet alleen antwoorden geeft, maar ook begrijpt wanneer ze moet zwijgen of waarschuwen. Voor toepassingen in de zorg of het recht is dit een enorme stap naar veiliger en betrouwbaarder kunstmatige intelligentie.

Kortom: Ze hebben de AI niet alleen slimmer gemaakt, maar ook wijzer over wat ze wel en niet weet.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) presteren uitstekend op diverse NLP-taken, maar ze zijn vatbaar voor het genereren van zelfverzekerde, doch onjuiste antwoorden (hallucinaties). Voor toepassingen in hoog-risico domeinen zoals gezondheidszorg, financiën en juridische ondersteuning is het cruciaal dat modellen niet alleen een antwoord geven, maar ook een gecalibreerde onzekerheidsschatting leveren.

Bestaande methoden voor onzekerheidsschatting hebben echter belangrijke beperkingen:

Post-hoc sampling-methoden: Deze genereren meerdere antwoorden en meten de semantische variatie (bijv. via entropie). Hoewel effectief, zijn ze computationally duur door het herhaaldelijk genereren van samples en leveren ze vaak niet-gecalibreerde, schaalvrije waarden op die niet direct als waarschijnlijkheid interpreteerbaar zijn.
Verbaliseerde onzekerheid: Modellen worden gevraagd om zelf een zekerheidscore te geven. Dit is efficiënt, maar de betrouwbaarheid hangt sterk af van het modelgrootte; kleinere modellen leveren vaak slecht gecalibreerde schattingen.
Versterkingsleer (RL) benaderingen: Bestaande RL-methoden gebruiken vaak grove supervisie of dure optimalisatieschema's en missen soms de nauwkeurige kalibratie.

Het doel van dit onderzoek is een methode te ontwikkelen die LLMs in staat stelt om tijdens de inferentie efficiënt, interpreteerbaar en goed gecalibreerde onzekerheidsschattingen te genereren zonder de computerefficiëntie van post-hoc sampling te hoeven offeren.

Methodologie

De auteurs stellen een driefasige pipeline voor om LLMs na te trainen (post-training) zodat ze gecalibreerde onzekerheid kunnen redeneren.

Fase 1: Berekening van Fijnkorrelige Entropie-gebaseerde Onzekerheid

Voor een gegeven vraag worden $K$ stochastische antwoorden gegenereerd.
Deze antwoorden worden gemapt naar embedding-vectoren.
Een kernel-matrix wordt geconstrueerd om de paarsgewijze gelijkenis tussen de gegenereerde antwoorden te vangen.
De von Neumann-entropie wordt berekend op de eigenwaarden van deze genormaliseerde kernel-matrix. Dit levert een continue, fijnkorrelige onzekerheidscore ( $S(x)$ ) op die de distributievariabiliteit in de semantische ruimte vastlegt, verder dan alleen token-niveau entropie.

Fase 2: Kalibratie via Platt Scaling

De ruwe entropie-scores ( $S(x)$ ) zijn niet direct als waarschijnlijkheid interpreteerbaar.
Er wordt een kalibratiefunctie $g$ geleerd via Platt Scaling (een logistische transformatie) op een validatiedataset met binaire labels (juist/onjuist).
Dit transformeert de scores naar gecalibreerde waarschijnlijkheidstargets ( $u_{cal}$ ), die de kans vertegenwoordigen dat een antwoord onjuist is: $P(\text{incorrect} | x)$ .

Fase 3: Reinforcement Learning (RL) met GRPO

Het doelmodel wordt getraind om deze gecalibreerde targets te voorspellen.
Decoupling: Antwoordgeneratie en onzekerheidsschatting worden losgekoppeld. Het model genereert eerst een antwoord (vast), en leert vervolgens een onzekerheidsschatting voor dat specifieke antwoord.
Algoritme: Er wordt gebruikgemaakt van Group Relative Policy Optimization (GRPO), een efficiëntere variant van PPO die geen grote criticus-netwerken vereist.
Parameter-efficiëntie: Er wordt LoRA (Low-Rank Adaptation) gebruikt om de trainingskosten te verlagen en catastrofaal vergeten te voorkomen.
Beloningsfunctie: De beloning ( $R_{entropy}$ ) straft de afwijking tussen de voorspelde onzekerheid ( $u_\theta$ ) en het gecalibreerde target ( $u_{cal}$ ):
$R_{entropy} = 1 - \max(0.05, |u_\theta - u_{cal}|)$
Het model wordt geprompt om eerst een redeneertraject (Chain-of-Thought) te genereren over de onzekerheid, gevolgd door een numerieke schatting.

Belangrijkste Bijdragen

Nieuwe Kalibratie-Beloning: Introductie van een beloningsfunctie die de verbaal uitgedrukte onzekerheid van het model aligneert met een state-of-the-art sampling-maatstaf (von Neumann entropie), terwijl het expliciet gericht is op het produceren van gecalibreerde waarschijnlijkheden.
Superieure Prestaties: Het bewijzen dat deze beloning leidt tot verbaal uitgedrukte onzekerheid met een hoge rangcorrelatie met de sampling-maatstaf, maar met veel betere kalibratie en inferentie-efficiëntie.
Vergelijking met Brier Score: Een uitgebreide vergelijking met een beloning gebaseerd op de Brier-score (een veelgebruikte methode in de literatuur), waarbij de entropie-benadering superieure resultaten laat zien, zowel binnen- als buiten-distributie.

Resultaten

De methode werd getest op TriviaQA en Natural Questions (in-distributie) en GSM8K (out-of-distributie), gebruikmakend van het Qwen2.5-7B-Instruct model.

In-distributie (TriviaQA + NQ):
- De entropie-benadering verlaagde de Expected Calibration Error (ECE) van 41,99% (Base) en 34,17% (Base+CoT) naar 7,2%.
- De Brier-score methode bereikte 15,70% ECE, wat aanzienlijk slechter was dan de entropie-methode.
- De Spearman-correlatie met de gecalibreerde targets was het hoogst voor de entropie-methode (0,67).
Out-of-distributie (GSM8K):
- De entropie-methode behaalde opnieuw de beste kalibratie met een ECE van 3,15%, vergeleken met 32,22% voor het basismodel en 33,28% voor de Brier-methode.
- Beide geavanceerde methoden (Brier en Entropie) presteerden beter dan baselines op AUROC, maar de entropie-methode bleek robuuster in kalibratie.

Conclusie: Het model leert een robuust gedrag om onzekerheid te redeneren en generaliseert goed naar onbekende taken zonder extra verwerking.

Betekenis en Conclusie

Dit paper presenteert een doorbraak in het maken van LLMs veiliger en betrouwbaarder voor kritieke toepassingen. Door de onzekerheidsschatting direct in het trainingsdoel te integreren via een efficiënt RL-framework (GRPO + LoRA), wordt een compromis gevonden tussen de nauwkeurigheid van dure sampling-methoden en de snelheid van directe voorspelling.

De belangrijkste implicatie is dat modellen nu gecalibreerde onzekerheid kunnen uitdrukken (waarbij de voorspelde kans overeenkomt met de werkelijke nauwkeurigheid), wat essentieel is voor menselijk toezicht en risicobewust besluitvorming. De methode is computationally lichtgewicht tijdens de inferentie, wat het toepasbaar maakt voor real-time systemen, zelfs op apparaten met beperkte middelen.

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

1. Het Probleem: De "Gokker" vs. De "Wiskundige"

2. De Oplossing: Een Drie-Stappen Plan

Stap 1: De "Kaleidoscoop" (De Entropie)

Stap 2: De "Vertaler" (Platt Scaling)

Stap 3: De "Coach" (Versterkend Leren)

Waarom is dit zo cool?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach