Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Het paper introduceert CURE, een framework dat de feitelijke nauwkeurigheid van lange teksten verbetert door grote taalmodellen te trainen om op claim-niveau onzekerheid te redeneren en hun betrouwbaarheid te kalibreren, wat leidt tot betere selectieve voorspellingen en een aanzienlijke daling van hallucinaties.

Xin Liu, Lu Wang

Gepubliceerd 2026-04-15
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: CURE – De "Gewetenscheck" voor AI die Lange Verhalen Schrijft

Stel je voor dat een kunstmatige intelligentie (AI) een schrijver is die een heel lang verhaal moet schrijven, bijvoorbeeld een biografie van een beroemd persoon. Het probleem is: deze schrijver is vaak erg zelfverzekerd, zelfs als hij iets verzonnen heeft. Hij zegt met een strakke blik: "David Bowie is geboren op 8 januari 1947," terwijl hij dat eigenlijk niet zeker weet. Dit noemen we "hallucineren". De AI weet niet wanneer ze twijfel moet hebben.

De auteurs van dit paper, Xin Liu en Lu Wang, hebben een oplossing bedacht genaamd CURE. Ze willen de AI leren om niet alleen te schrijven, maar ook om na te denken over hoe zeker ze is van wat ze schrijft.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Losse Steentjes" Methode (Claim-aware Reasoning)

Stel je voor dat de AI een muur moet bouwen. Normaal gesproken gooit ze gewoon een hele bak bakstenen (zinnen) op elkaar. Als er één verkeerde steen tussen zit, is de hele muur onbetrouwbaar, maar je ziet het niet direct.

CURE dwingt de AI om de muur steen voor steen te bouwen. Voor elke steen (elk feitje) moet de AI eerst een betrouwbaarheidsscore geven.

  • Voorbeeld: "David Bowie is geboren in Londen." -> Zekerheid: 98% (Dit is een bekende steen).
  • Voorbeeld: "David Bowie is overleden op 3 maart 2016." -> Zekerheid: 30% (De AI twijfelt hierover, misschien is de datum niet helemaal juist).

Door dit te doen, wordt de twijfel zichtbaar. De AI zegt niet meer: "Ik weet het zeker," maar: "Ik denk dit wel, maar ik ben niet 100% zeker."

2. De Drie-Fasen Training (Het Opleidingsprogramma)

De AI kan dit niet zomaar van de ene op de andere dag leren. De auteurs gebruiken een slimme, drie-staps training, alsof je een student opleidt tot een zeer nauwkeurige journalist:

  • Fase 1: De Basisregels (Haalbaarheid)
    Eerst leren we de AI om netjes te werken. Ze moet leren om haar verhaal op te splitsen in losse feiten en om die feiten te controleren. Het is alsof je een leerling eerst leert om zijn werk netjes te presenteren voordat je hem laat rekenen.
  • Fase 2: Het Geweten (Kalibratie)
    Dit is het belangrijkste deel. We leren de AI om eerlijk te zijn over haar twijfel.
    • Als ze een fout maakt, moet ze zeggen: "Oh, ik was niet zeker, mijn zekerheidsscore was te hoog."
    • Als ze het goed heeft, moet ze zeggen: "Ja, dit weet ik zeker."
      De AI leert hierdoor dat het niet slim is om altijd zelfverzekerd te klinken. Ze leert haar "zekerheidsmeter" af te stemmen op de werkelijkheid.
  • Fase 3: De Feitelijkheid (Optimalisatie)
    Pas als de AI goed kan meten hoe zeker ze is, gaan we haar trainen om de feiten zelf nog beter te krijgen. Omdat ze nu al weet waar ze twijfelt, kan ze zich focussen op de feiten die ze echt moet verbeteren, zonder haar eerlijke twijfel te verliezen.

3. De "Selectieve Scherpe" (Bij het Antwoorden)

Als de AI nu een vraag krijgt, gebruikt ze haar nieuwe vaardigheden op een slimme manier.
Stel, de AI moet een biografie schrijven. Ze heeft twintig feiten verzameld.

  • Feit 1 t/m 15: Zekerheid 90% of hoger. -> Deze schrijft ze op.
  • Feit 16 t/m 20: Zekerheid 30% of lager. -> Deze laat ze weg.

In plaats van een verhaal te schrijven vol met onzekerheden die ze probeert te verbergen, zegt de AI: "Hier is het verhaal, maar ik heb de twijfelachtige stukjes weggelaten." Of ze zegt: "Ik weet dit niet zeker, dus ik vertel het je niet."

Waarom is dit zo belangrijk?

Vroeger probeerden we AI's te trainen door ze te straffen als ze fouten maakten. Maar dat leerde ze niet hoe ze hun fouten konden zien. Ze bleven gewoon zelfverzekerd fouten maken.

CURE is als een spiegel voor de AI. Het leert haar om te zeggen: "Ik ben niet zeker."

  • Voor de gebruiker: Je krijgt een antwoord waar je op kunt vertrouwen. Als de AI twijfelt, zie je dat direct.
  • Voor de AI: Ze maakt minder fouten omdat ze niet probeert om dingen te verzinnen waar ze geen weet van heeft.

Kortom: CURE maakt de AI niet alleen slimmer, maar ook eerlijker. Het is alsof we een schrijver niet alleen leren schrijven, maar ook leren om te zeggen: "Ik weet dit niet zeker," zodat jij als lezer precies weet wat je kunt vertrouwen en wat niet.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →