From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Dit artikel introduceert een drie-staps pipeline die grote taalmodellen post-train om via versterkingsleer efficiënte, goed gekalibreerde en interpreteerbare onzekerheidsschattingen te genereren, wat een verbetering biedt ten opzichte van bestaande, rekenintensieve methoden.

Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Van Chaos naar Kalmte: Hoe AI leert om eerlijk te zijn over wat ze niet weet

Stel je voor dat je een zeer slimme, maar soms overmoedige assistent hebt. Deze assistent (een 'Large Language Model' of LLM) kan vragen beantwoorden over van alles: van de geschiedenis tot wiskunde. Het probleem is dat deze assistent soms dingen verzint die er heel overtuigend uitzien, maar helemaal niet waar zijn. We noemen dit 'hallucinaties'.

In het dagelijks leven is dit misschien niet erg. Maar in de wereld van geneeskunde, financiën of recht is het gevaarlijk. Als een AI zegt: "Ik ben 100% zeker dat deze medicijnwerking veilig is," terwijl ze dat niet is, kan dat rampzalig zijn.

Deze paper introduceert een slimme manier om deze AI te trainen om niet alleen antwoorden te geven, maar ook om eerlijk te zeggen hoe zeker ze zich voelt. Ze noemen dit "gekalibreerde onzekerheid".

Hier is hoe ze dat doen, vertaald in een verhaal met analogieën:

1. Het Probleem: De "Gokker" vs. De "Wiskundige"

Standaard AI-modellen zijn als gokkers. Ze gooien een antwoord op de tafel en zeggen: "Dit is het!" Zelfs als ze het fout hebben, klinken ze vaak zelfverzekerd.

Bestaande methoden om hun zekerheid te meten zijn als het laten gooien van een muntstuk 100 keer om te zien hoe vaak hij op kop valt. Dat werkt, maar het is trager en duurder (rekenkracht) en de uitkomst is vaak een willekeurig getal dat niet direct vertaalt naar een percentage kans.

2. De Oplossing: Een Drie-Stappen Plan

De auteurs van dit paper hebben een nieuwe methode bedacht die de AI leert om haar eigen twijfel te begrijpen, zonder dat het lang duurt.

Stap 1: De "Kaleidoscoop" (De Entropie)

Stel je voor dat je de AI vraagt: "Wie was de eerste president van de VS?"
In plaats van één antwoord te geven, laten we de AI 10 keer hetzelfde antwoord bedenken.

  • Als de AI het weet, zullen alle 10 de antwoorden bijna identiek zijn (bijv. "George Washington").
  • Als de AI het niet weet, zullen de antwoorden als een kaleidoscoop uit elkaar spatten: "Abraham Lincoln", "Thomas Jefferson", "Een man met een hoed", etc.

De onderzoekers meten deze "uit elkaar spatten" in de digitale wereld. Hoe meer chaos (of entropie) er is in de verschillende antwoorden, hoe onzeker de AI is. Dit is hun eerste, ruwe maatstaf voor twijfel.

Stap 2: De "Vertaler" (Platt Scaling)

Het probleem met de "chaos-maatstaf" uit stap 1 is dat het een wiskundig getal is dat niemand begrijpt (bijv. "0,452 chaos"). We willen een percentage: "Ik ben 70% zeker".

Dus, ze gebruiken een slimme vertaler (Platt Scaling). Deze vertaler kijkt naar de chaos en zegt: "Ah, deze hoeveelheid chaos komt overeen met een kans van 80% dat het antwoord fout is."
Nu hebben we een betrouwbaar en menselijk begrijpelijk getal: de "Gouden Standaard" voor onzekerheid.

Stap 3: De "Coach" (Versterkend Leren)

Nu komt het magische deel. Ze trainen de AI niet om het antwoord te verbeteren, maar om haar eigen twijfel te leren inschatten.

Stel je voor dat de AI een leerling is en de "Gouden Standaard" uit stap 2 is de coach.

  • De AI zegt: "Ik denk dat het antwoord George Washington is, en ik ben 90% zeker."
  • De coach kijkt naar de "chaos-maatstaf" en zegt: "Nee, je was hier erg onzeker. Je had moeten zeggen: 'Ik ben maar 40% zeker'."
  • De AI krijgt een beloning als ze de twijfel goed inschat, en een straf als ze te zelfverzekerd is.

Ze gebruiken een slimme trainingsmethode (GRPO) die dit doet zonder de hele AI opnieuw te hoeven bouwen, wat heel efficiënt is.

Waarom is dit zo cool?

  1. Snelheid: De oude methoden moesten 100 keer "gokken" om een antwoord te geven. Deze nieuwe methode leert de AI om in één keer te zeggen: "Ik weet het niet zeker." Dat is veel sneller.
  2. Eerlijkheid: De AI wordt niet alleen slim, maar ook nederig. Ze leert om te zeggen: "Ik denk dit, maar ik heb hier twijfels," in plaats van een fout antwoord met een glimlach te geven.
  3. Toepasbaar: Het werkt zelfs op vragen die de AI nog nooit heeft gezien (zoals wiskundeproblemen), wat betekent dat ze echt heeft geleerd hoe ze moet twijfelen, niet alleen wat ze moet zeggen.

Conclusie

Dit onderzoek is als het geven van een geweten aan een super-slimme computer. Het zorgt ervoor dat de AI niet alleen antwoorden geeft, maar ook begrijpt wanneer ze moet zwijgen of waarschuwen. Voor toepassingen in de zorg of het recht is dit een enorme stap naar veiliger en betrouwbaarder kunstmatige intelligentie.

Kortom: Ze hebben de AI niet alleen slimmer gemaakt, maar ook wijzer over wat ze wel en niet weet.