Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Het artikel introduceert UniCR, een uniform kader dat heterogene onzekerheidsbewijzen fuseert tot gekalibreerde correctheidskansen om door de gebruiker gespecificeerde foutbudgetten af te dwingen via principiële weigering, waardoor de betrouwbaarheid wordt verbeterd en hallucinaties in grote taalmodellen worden verminderd zonder dat fijninstelling van het basismodel vereist is.

Oorspronkelijke auteurs: Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

Gepubliceerd 2026-06-15
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer slimme, snel pratende assistent hebt die een beetje van bijna alles weet. Het probleem is dat deze assistent soms met absolute zekerheid praat over dingen die ze eigenlijk niet weten, of ze verzinnen feiten die echt lijken te zijn, maar die fout zijn. Dit is een beetje zoals een student die het antwoord op een toets raadt en zegt: "Ik weet het 100% zeker!", zelfs als hij gewoon aan het gokken is.

Het artikel dat je hebt gedeeld, introduceert een nieuw systeem genaamd UniCR. Zie UniCR als een slimme "kwaliteitscontrolemanager" die tussen de assistent en de persoon die de vragen stelt in zit. De belangrijkste taak is om de assistent te leren wanneer hij moet spreken en, nog belangrijker, wanneer hij stil moet blijven.

Zo werkt UniCR, met gebruik van enkele alledaagse analogieën:

1. Aanwijzingen verzamelen (Het detectivewerk)

Normaal gesproken kijkt een AI alleen naar zijn eigen interne gedachten om te beslissen of hij het bij het rechte eind is. UniCR is anders; het werkt als een detective die aanwijzingen verzamelt uit veel verschillende bronnen voordat het een oordeel velt. Het controleert:

  • Hoe zeker de AI zich voelt: Komt het "onderbuikgevoel" (waarschijnlijkheid) van de AI overeen met het antwoord?
  • Consistentie: Als je de AI dezelfde vraag op vijf verschillende manieren stelt, geeft hij dan elke keer hetzelfde antwoord? Als de antwoorden alle kanten op gaan, is dat een rood vlaggetje.
  • Externe hulp: Heeft de AI een betrouwbaar document gevonden of een rekenmachine (tools) gebruikt om zijn antwoord te onderbouwen?
  • De "Waarheidscheck": Past het antwoord bij wat we al weten te zijn waar?

2. De "Zekerheidsmeter" (Kalibratie)

Zodra de detective alle aanwijzingen heeft verzameld, raadt UniCR niet zomaar een getal; het berekent een gekalibreerde waarschijnlijkheid. Stel je een weersverwachting voor die voorheen zei "het kan regenen" in 50% van de gevallen, terwijl het in werkelijkheid 90% van de tijd regende. Die weersverwachting was onbetrouwbaar. UniCR repareert dit. Het past de zekerheidsmeter van de AI aan, zodat wanneer de AI zegt: "Ik ben 90% zeker", dit ook daadwerkelijk betekent dat er 90% kans is dat het correct is. Het gebruikt een eenvoudige "regelknop" (temperature scaling) om ervoor te zorgen dat het vertrouwen van de AI overeenkomt met de realiteit.

3. Het Veiligheidsbudget (Risicogestuurde weigering)

Dit is het belangrijkste deel. Stel je voor dat je een auto rijdt en je hebt een strikte regel: "Ik mag slechts één keer per 1.000 mijl het risico lopen op een lekke band te krijgen."
UniCR stelt een vergelijkbaar foutbudget in voor de AI. Als de zekerheidsscore van de AI onder een bepaalde lijn zakt waarbij het budget in gevaar kan komen, dwingt UniCR de AI om te weigeren te antwoorden. In plaats van een foutief antwoord te geven, zegt de AI: "Ik weet niet genoeg om dit veilig te beantwoorden."

Cruciaal is dat dit systeem werkt, zelfs als de AI een "black box" is (je kunt niet zien hoe hij van binnen denkt). Je hoeft de AI niet opnieuw te trainen of zijn brein te veranderen; je voegt er gewoon deze veiligheidsmanager bovenop.

4. Lange verhalen afhandelen (Feitencontrole)

Wanneer de AI lange verhalen of rapporten moet schrijven, is het makkelijk om per ongeluk feiten te verzinnen. UniCR controleert het verhaal tegen echt bewijs (zoals het opzoeken van feiten in een bibliotheek). Als de AI een zin schrijft die in strijd is met het bewijs, verlaagt UniCR de zekerheid voor dat specifieke deel. Dit voorkomt dat de AI vol zelfvertrouwen tallen vertelt.

De Resultaten

Het artikel testte dit systeem op drie soorten taken:

  1. Korte vragen (zoals trivia).
  2. Code schrijven (waarbij de code daadwerkelijk wordt uitgevoerd om te zien of het werkt).
  3. Lange onderzoeksantwoorden (met behulp van externe documenten).

In al deze tests presteerde UniCR beter dan oudere methoden. Het was beter in het herkennen wanneer het onzeker was, het maakte minder fouten wanneer het wel antwoord gaf, en het slaagde er beter in om meer vragen correct te beantwoorden zonder de veiligheidsregels te overtreden.

Kortom: UniCR is een universeel vangnet dat AI leert om "ik weet het niet" te zeggen in plaats van vol zelfvertrouwen te gokken. Het combineert veel verschillende aanwijzingen om te beslissen wanneer het spreekt en wanneer het stil blijft, waardoor gegarandeerd wordt dat de AI binnen een veilige foutmarge blijft, en dat alles zonder de AI vanaf nul te hoeven herbouwen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →