Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Each language version is independently generated for its own context, not a direct translation.

Titel: CURE – De "Gewetenscheck" voor AI die Lange Verhalen Schrijft

Stel je voor dat een kunstmatige intelligentie (AI) een schrijver is die een heel lang verhaal moet schrijven, bijvoorbeeld een biografie van een beroemd persoon. Het probleem is: deze schrijver is vaak erg zelfverzekerd, zelfs als hij iets verzonnen heeft. Hij zegt met een strakke blik: "David Bowie is geboren op 8 januari 1947," terwijl hij dat eigenlijk niet zeker weet. Dit noemen we "hallucineren". De AI weet niet wanneer ze twijfel moet hebben.

De auteurs van dit paper, Xin Liu en Lu Wang, hebben een oplossing bedacht genaamd CURE. Ze willen de AI leren om niet alleen te schrijven, maar ook om na te denken over hoe zeker ze is van wat ze schrijft.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Losse Steentjes" Methode (Claim-aware Reasoning)

Stel je voor dat de AI een muur moet bouwen. Normaal gesproken gooit ze gewoon een hele bak bakstenen (zinnen) op elkaar. Als er één verkeerde steen tussen zit, is de hele muur onbetrouwbaar, maar je ziet het niet direct.

CURE dwingt de AI om de muur steen voor steen te bouwen. Voor elke steen (elk feitje) moet de AI eerst een betrouwbaarheidsscore geven.

Voorbeeld: "David Bowie is geboren in Londen." -> Zekerheid: 98% (Dit is een bekende steen).
Voorbeeld: "David Bowie is overleden op 3 maart 2016." -> Zekerheid: 30% (De AI twijfelt hierover, misschien is de datum niet helemaal juist).

Door dit te doen, wordt de twijfel zichtbaar. De AI zegt niet meer: "Ik weet het zeker," maar: "Ik denk dit wel, maar ik ben niet 100% zeker."

2. De Drie-Fasen Training (Het Opleidingsprogramma)

De AI kan dit niet zomaar van de ene op de andere dag leren. De auteurs gebruiken een slimme, drie-staps training, alsof je een student opleidt tot een zeer nauwkeurige journalist:

Fase 1: De Basisregels (Haalbaarheid)
Eerst leren we de AI om netjes te werken. Ze moet leren om haar verhaal op te splitsen in losse feiten en om die feiten te controleren. Het is alsof je een leerling eerst leert om zijn werk netjes te presenteren voordat je hem laat rekenen.
Fase 2: Het Geweten (Kalibratie)
Dit is het belangrijkste deel. We leren de AI om eerlijk te zijn over haar twijfel.
- Als ze een fout maakt, moet ze zeggen: "Oh, ik was niet zeker, mijn zekerheidsscore was te hoog."
- Als ze het goed heeft, moet ze zeggen: "Ja, dit weet ik zeker."
  De AI leert hierdoor dat het niet slim is om altijd zelfverzekerd te klinken. Ze leert haar "zekerheidsmeter" af te stemmen op de werkelijkheid.
Fase 3: De Feitelijkheid (Optimalisatie)
Pas als de AI goed kan meten hoe zeker ze is, gaan we haar trainen om de feiten zelf nog beter te krijgen. Omdat ze nu al weet waar ze twijfelt, kan ze zich focussen op de feiten die ze echt moet verbeteren, zonder haar eerlijke twijfel te verliezen.

3. De "Selectieve Scherpe" (Bij het Antwoorden)

Als de AI nu een vraag krijgt, gebruikt ze haar nieuwe vaardigheden op een slimme manier.
Stel, de AI moet een biografie schrijven. Ze heeft twintig feiten verzameld.

Feit 1 t/m 15: Zekerheid 90% of hoger. -> Deze schrijft ze op.
Feit 16 t/m 20: Zekerheid 30% of lager. -> Deze laat ze weg.

In plaats van een verhaal te schrijven vol met onzekerheden die ze probeert te verbergen, zegt de AI: "Hier is het verhaal, maar ik heb de twijfelachtige stukjes weggelaten." Of ze zegt: "Ik weet dit niet zeker, dus ik vertel het je niet."

Waarom is dit zo belangrijk?

Vroeger probeerden we AI's te trainen door ze te straffen als ze fouten maakten. Maar dat leerde ze niet hoe ze hun fouten konden zien. Ze bleven gewoon zelfverzekerd fouten maken.

CURE is als een spiegel voor de AI. Het leert haar om te zeggen: "Ik ben niet zeker."

Voor de gebruiker: Je krijgt een antwoord waar je op kunt vertrouwen. Als de AI twijfelt, zie je dat direct.
Voor de AI: Ze maakt minder fouten omdat ze niet probeert om dingen te verzinnen waar ze geen weet van heeft.

Kortom: CURE maakt de AI niet alleen slimmer, maar ook eerlijker. Het is alsof we een schrijver niet alleen leren schrijven, maar ook leren om te zeggen: "Ik weet dit niet zeker," zodat jij als lezer precies weet wat je kunt vertrouwen en wat niet.

Each language version is independently generated for its own context, not a direct translation.

`):** Het model identificeert potentiële claims en uit expliciet zijn onzekerheid in natuurlijke taal.

Decompositie (<decompose>): Het antwoord wordt opgesplitst in een set van atomaire, onafhankelijk verifieerbare claims. Elke claim $c_i$ wordt gekoppeld aan een expliciete confidentieschatting $p_i$ (tussen 0 en 1).
Dit protocol maakt het mogelijk om onzekerheid te lokaliseren tot specifieke feitelijke eenheden.

2. Multi-stadia Trainingspijplijn

Een kernontwerpprincipe is het expliciet ontkoppelen van kalibratie (het afstemmen van vertrouwen op juistheid) en optimalisatie van feitelijke juistheid. Het auteurs stellen dat een gezamenlijke optimalisatie leidt tot conflicterende leerpatronen en oververtrouwen. De pijplijn verloopt in drie fasen:

Fase 1: Haalbaarheidsinductie (Feasibility Induction):
- Supervised Fine-Tuning (SFT): Het model leert het gestructureerde formaat en genereert relevante claims. Confidence-labels worden gecorrigeerd met behulp van een extern verificatiesysteem (VeriScore) en een LLM om de kwaliteit van de labels te verhogen.
- RL voor Haalbaarheid (GRPO): Het model wordt getraind met Group Relative Policy Optimization (GRPO) om strikte constraints te respecteren: relevantie (antwoordt op de vraag), verifieerbaarheid (claims zijn objectief) en trouw (de claims komen overeen met de redenering).
Fase 2: Kalibratie-optimalisatie (Calibration Optimization):
- In plaats van GRPO, gebruiken de auteurs Direct Preference Optimization (DPO).
- Er worden voorkeursparen (preference pairs) gegenereerd waarbij een "corrected" versie (waarbij de confidentiescore beter overeenkomt met de feitelijke juistheid) wordt geprefereerd boven een "originele" versie.
- Dit zorgt ervoor dat het model leert om lage confidence toe te kennen aan onjuiste claims en hoge confidence aan juiste claims, zonder dat de feitelijke inhoud van de claims verandert.
Fase 3: Feitelijke optimalisatie (Factuality Optimization):
- Nu de kalibratie is ingesteld, wordt GRPO opnieuw gebruikt om de feitelijke juistheid te maximaliseren.
- Beloningen worden alleen toegekend aan de tokens die de feitelijke inhoud van de claims vormen. Tokens die betrekking hebben op de redenering en confidentiescores worden gemaskeerd. Dit voorkomt dat het optimaliseren van de juistheid de reeds geleerde kalibratie verstoort.

3. Selectieve Voorspelling (Selective Prediction)

Tijdens inferentie kan het model claims met een lage confidentiescore (onder een drempelwaarde $\tau$ ) filteren. Dit stelt het model in staat om zich terug te trekken bij onzekere claims, wat de algehele betrouwbaarheid van het antwoord verhoogt.

Belangrijkste Resultaten

Het framework is geëvalueerd op vier benchmarks voor lange teksten: FactBench, LongFact, Biography en FactRBench.

Verbeterde Feitelijke Juistheid: CURE overtreft consequent concurrerende methoden, waaronder baselines met Supervised Fine-Tuning (SFT) en Reinforcement Learning (zoals L2RF).
- Op de Biography-dataset verbeterde CURE de claim-gebaseerde feitelijke nauwkeurigheid met 39,9%.
- Op FactBench werd een relatieve verbetering van 9,4% geboekt ten opzichte van de sterke RL-baseline L2RF.
Superieure Kalibratie: CURE bereikte de beste kalibratiekwaliteit, gemeten aan de hand van de AUROC (Area Under the ROC Curve), een maatstaf voor het vermogen om juiste claims te onderscheiden van onjuiste.
- Op FactBench steeg de AUROC met 16,0%.
Behoud van Recall: In tegenstelling tot methoden die vaak ten koste gaan van de dekking (recall), behield CURE een competitieve feitelijke recall, wat aangeeft dat het model niet alleen nauwkeuriger wordt, maar ook niet te conservatief wordt.
Generalisatie: De methode bleek effectief te werken op verschillende modelarchitecturen, waaronder Qwen3-4B.

Betekenis en Conclusie

De paper demonstreert dat het modelleren van onzekerheid op het niveau van individuele claims essentieel is voor betrouwbare lange teksten. De belangrijkste bijdrage is het inzicht dat kalibratie en feitelijke optimalisatie conflicting objectives zijn die niet gezamenlijk geoptimaliseerd kunnen worden zonder te leiden tot oververtrouwen.

Door deze doelen te ontkoppelen via een multi-stadia pijplijn en het gebruik van gestructureerde redenering, creëert CURE modellen die niet alleen feitelijker zijn, maar ook transparanter. Ze kunnen hun eigen onzekerheid communiceren, waardoor gebruikers beter kunnen beoordelen welke delen van een antwoord betrouwbaar zijn. Dit is een cruciale stap naar het maken van LLM's die echt "vertrouwbaar" zijn voor complexe, feitelijke taken.

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

1. De "Losse Steentjes" Methode (Claim-aware Reasoning)

2. De Drie-Fasen Training (Het Opleidingsprogramma)

3. De "Selectieve Scherpe" (Bij het Antwoorden)

Waarom is dit zo belangrijk?

2. Multi-stadia Trainingspijplijn

3. Selectieve Voorspelling (Selective Prediction)

Belangrijkste Resultaten

Betekenis en Conclusie

Meer zoals dit

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG