Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die je vragen beantwoordt. Soms weet hij het antwoord met 100% zekerheid, en soms twijfelt hij. Het probleem is dat deze assistent (een Large Language Model of LLM) vaak doet alsof hij het weet, zelfs als hij het eigenlijk niet weet. Hij zegt: "Ik ben 90% zeker," terwijl hij in werkelijkheid helemaal niet weet wat hij moet zeggen.

Deze paper, getiteld "Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities", komt met een slimme oplossing om die twijfel eerlijker te maken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Zekerheids-Bluf"

Stel je voor dat de assistent een gokker is. Als je hem vraagt: "Wie heeft het WK Cricket 2019 gewonnen?", zegt hij misschien: "Ik ben 80% zeker dat het Engeland is."

Maar wat als de vraag dubbelzinnig is? Wat als het antwoord eigenlijk "Engeland én Wales" is, omdat ze samen hebben gehost? Of wat als de assistent gewoon niet genoeg informatie heeft?
De huidige methoden (de "oude manier") geven vaak één getal, zoals "80%". Dit is alsof je zegt: "De kans is 80%." Maar dit vertelt ons niet waarom hij twijfelt. Is het omdat de vraag raar is gesteld? Of omdat hij het gewoon niet weet? De paper laat zien dat deze ene getal vaak misleidend is, vooral bij moeilijke of onduidelijke vragen.

2. De Oplossing: Twee Soorten Twijfel

De auteurs zeggen: "Laten we niet één getal geven, maar twee soorten twijfel onderscheiden." Ze noemen dit Onnauwkeurige Kansen (Imprecise Probabilities).

Stel je voor dat je een weersvoorspelling krijgt.

Eerste-orde onzekerheid (De "Wolken"): Dit is de twijfel over het weer zelf. Is het morgen regen of zon? Soms is het gewoon onmogelijk om het te weten, omdat de natuur chaotisch is. In de vraag van de assistent is dit als de vraag zelf verwarrend is (bijv. "Wat is de beste stad?" zonder te zeggen waarvoor).
Tweede-orde onzekerheid (De "Voorspeller"): Dit is de twijfel over de voorspeller zelf. Weet de assistent genoeg? Heeft hij genoeg voorbeelden gezien? Is hij verward?

De paper stelt voor om dit te visualiseren als een bereik in plaats van één punt.

Oude manier: "Ik denk dat de kans 60% is." (Te specifiek, misschien vals).
Nieuwe manier: "Ik denk dat de kans ergens tussen de 20% en 80% ligt."

Die "gaten" in de getallen (van 20 tot 80) vertellen je: "Hé, ik weet het niet precies, want ik ben onzeker over mijn eigen kennis." Dat is de tweede-orde onzekerheid.

3. Hoe werkt het? (De "Gok-Strategie")

Hoe krijg je deze bereiken van een computer? De auteurs gebruiken slimme prompts (vragen aan de AI).

Stel je voor dat je de assistent vraagt om gokprijzen te zetten in plaats van percentages.

Vraag: "Als ik je €100 geef als je antwoord klopt, hoeveel zou je maximaal durven te betalen voor die gok?"
Als hij het antwoord heel zeker weet, zegt hij: "Ik betaal €90."
Als hij twijfelt, zegt hij: "Ik betaal misschien €40, maar misschien ook wel €80, afhankelijk van hoe ik de vraag interpreteer."

Door deze "gokprijzen" te vragen, dwingen ze de assistent om eerlijk toe te geven waar zijn kennis eindigt. Als hij een breed bereik geeft (bijv. €40 tot €80), weten we dat hij onzeker is over zijn eigen zekerheid.

4. Waarom is dit beter? (De "Spiegel")

De paper toont aan dat deze nieuwe methode drie grote problemen oplost:

Dubbelzinnige vragen: Als een vraag twee goede antwoorden heeft (bijv. "Welk land? Engeland of Wales?"), geeft de oude methode vaak een willekeurig getal. De nieuwe methode zegt: "Ik kan niet kiezen, want beide zijn goed," en geeft een breed bereik.
Leren van voorbeelden: Als je de assistent meer voorbeelden geeft (in-context learning), wordt hij slimmer. De oude methode bleef vaak zeggen "Ik twijfel nog steeds", terwijl de nieuwe methode laat zien dat de twijfel (het bereik) kleiner wordt naarmate hij meer voorbeelden ziet.
Zelfreflectie: Soms vraagt de assistent zichzelf: "Was mijn antwoord goed?" De oude methode gaf hier vaak onlogische antwoorden. De nieuwe methode zorgt dat zijn twijfel logisch aansluit bij zijn keuze.

5. Het Resultaat: Betrouwbare Hulp

Kortom, deze paper zegt: "Stop met vragen naar één zeker getal. Vraag naar een bereik."

Door te vragen naar onzekerheid over de onzekerheid, krijgen we een veel eerlijker beeld van wat de AI wel en niet weet. Het is alsof we de AI een spiegel voorhouden die niet alleen zegt "Ik weet het", maar ook "Ik weet dat ik het misschien niet weet, en hier is precies hoe onzeker ik ben."

Dit maakt AI-veiligheid beter, want we kunnen nu beter beslissen wanneer we de AI moeten vertrouwen en wanneer we beter zelf moeten nadenken of een mens moeten raadplegen. Het is een stap van "blinde vertrouwen" naar "slimme samenwerking".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities" in het Nederlands.

1. Het Probleem

Grote Taalmodellen (LLM's) worden steeds vaker ingezet voor kritieke taken, waarbij het kwantificeren van onzekerheid (Uncertainty Quantification - UQ) essentieel is voor betrouwbaarheid en besluitvorming. Bestaande methoden voor het "verbaal eliciteren" van onzekerheid (waarbij het model direct vraagt om een zekerheidspercentage, bijv. "Ik ben 80% zeker") vertonen echter systematische tekortkomingen:

Ambiguïteit: Bij vragen met meerdere geldige antwoorden (bijv. "Wie was de gastheer van het WK Cricket 2019?" waarbij zowel Engeland als Wales geldig zijn), falen traditionele methoden om de mate van ambiguïteit correct weer te geven. Ze geven vaak een enkel puntwaarde die de onderliggende onduidelijkheid verbergt.
In-Context Learning (ICL): Wanneer een model meer voorbeelden krijgt in de prompt, zou de onzekerheid moeten dalen naarmate het model de taak beter begrijpt. Echter, bestaande methoden tonen vaak een hoge, vlakke onzekerheidsscore ondanks dalende voorspelfouten.
Zelfreflectie: Wanneer een model wordt gevraagd om een antwoord te kiezen en vervolgens de redenatie te geven, klopt de verkregen onzekerheidsscore vaak niet met de daadwerkelijke keuze van het model (gebrek aan Bayesiaanse rationaliteit).

De kernoorzaak is dat bestaande methoden onzekerheid reduceren tot één precieze waarschijnlijkheid (first-order uncertainty). Ze kunnen geen onderscheid maken tussen aleatorische onzekerheid (inhérent aan de vraag/ambiguïteit) en epistemische onzekerheid (onzekerheid over het model zelf of gebrek aan kennis).

2. Methodologie: Imprecise Probabilities (IP)

De auteurs stellen een nieuw raamwerk voor gebaseerd op Imprecise Probabilities (IP). In plaats van één puntwaarde, wordt onzekerheid weergegeven als een interval $[p(y), \bar{p}(y)]$ .

Eerste-orde onzekerheid: De variabiliteit in mogelijke uitkomsten (bijv. de breedte van het interval of de kans op een specifiek antwoord).
Tweede-orde onzekerheid: De onzekerheid over de waarschijnlijkheidsverdeling zelf. Dit wordt gemeten door de breedte van het interval (de "imprecisie"). Een breed interval duidt op hoge epistemische onzekerheid (het model weet het niet zeker), terwijl een smal interval duidt op hoge kennis.

Technische Implementatie:
De auteurs introduceren specifieke prompt-strategieën en post-processing procedures om deze waarden te eliciteren:

DeFinetti (Eerste-orde): Gebaseerd op Bruno de Finetti's theorie van coherentie in gokken. Het model wordt gevraagd om "inkoopprijzen" (buy prices) te geven voor elk antwoord, zodat de som exact 1,0 is. Dit forceert het model om coherent te redeneren over de kansverdeling.
ProbInt (Tweede-orde): Het model wordt direct gevraagd om een onder- en bovengrens (interval) voor de waarschijnlijkheid van elk antwoord te geven.
Credal Sets: Het eliciteren van onzekerheid via een ensemble van modellen (of meerdere runs), waarbij de spreiding in hun antwoorden het interval vormt.
Possibility Functions (POS): Het evalueren van de "plausibiliteit" van antwoorden in plaats van strikte kansen, wat nuttig is bij open-ended vragen.

Metriek voor Samenvatting:
Om een scalar onzekerheidsscore te krijgen uit deze intervallen, gebruiken de auteurs de Maximum Mean Imprecision (MMI). Dit is een maatstaf voor de totale epistemische onzekerheid over de uitkomstruimte.

3. Belangrijkste Bijdragen

Conceptueel Kader: De eerste concrete toepassing van Imprecise Probabilities voor het verbaal eliciteren van onzekerheid bij LLM's. Het biedt een principieel raamwerk om onzekerheid over onzekerheid te modelleren.
Ontkoppeling van Onzekerheid: De methologie slaagt erin om first-order (aleatorische) en second-order (epistemische) onzekerheid effectief te ontkoppelen. Dit lost het probleem op waarbij modellen niet kunnen onderscheiden of ze onzeker zijn door een slechte vraag (ambiguïteit) of door gebrek aan kennis.
Efficiënte Prompting: De voorgestelde methoden (zoals ProbInt en DeFinetti) zijn kostenefficiënt in vergelijking met sampling-basemethoden (zoals Semantic Entropy), omdat ze geen duizenden generaties vereisen, maar slechts één of enkele interacties met het model.
Besluitvorming onder IP: De auteurs tonen aan dat het nemen van beslissingen onder IP (bijv. via de maximin-regel) beter overeenkomt met de daadwerkelijke keuzes van LLM's dan traditionele Bayesiaanse rationaliteit.

4. Resultaten

De methoden zijn getest op synthetische data en real-world QA-benchmarks (zoals MAQA, AmbigQA, MMLU-Pro):

Synthetische Experimenten:
- Bij toenemende ambiguïteit (first-order noise) blijven de IP-methoden stabiel, terwijl traditionele methoden onterecht hoge onzekerheidsscores blijven tonen.
- Bij toenemende context (meer voorbeelden in ICL) daalt de tweede-orde onzekerheid (MMI) correct naarmate de voorspelfout daalt. Traditionele methoden blijven hierin steken.
Real-World QA:
- Ambiguïteit Detectie: De DeFinetti-methode behaalt de hoogste AUROC (Area Under the ROC Curve) bij het detecteren van ambiguïteit in vragen.
- Correctheid Detectie: De ProbInt-methode toont de sterkste correlatie met de voorspelfout en presteert consistent beter dan bestaande methoden zoals Vanilla confidence, Chain-of-Thought, en Semantic Entropy.
- Kosten: De IP-methoden zijn aanzienlijk goedkoper (minder API-calls) dan sampling-basemethoden en kosten minder dan de helft van de MI-Clarifications baseline.
- Zelfconsistentie: De door het model gekozen antwoorden komen het beste overeen met de beslissingsregels die voortvloeien uit de IP-intervallen (maximin-regel), wat aantoont dat de onzekerheidsscores "faithful" (trouw) zijn aan het interne redeneringsproces van het model.

5. Betekenis en Conclusie

Dit artikel biedt een fundamentele verbetering in hoe we onzekerheid bij LLM's interpreteren en gebruiken. Door over te stappen van precieze waarschijnlijkheden naar Imprecise Probabilities, kunnen systemen:

Betrouwbaarder zijn: Ze kunnen expliciet aangeven wanneer een vraag onduidelijk is versus wanneer ze simpelweg niet genoeg kennis hebben.
Beter beslissen: Downstream systemen kunnen gebruikmaken van de tweede-orde onzekerheid om te beslissen wanneer ze moeten aarzelen, om hulp te vragen, of om een fallback te activeren.
Kostenefficiënter werken: Het vermijden van zware sampling-procedures maakt schaalbare onzekerheidsquantificatie mogelijk.

De auteurs concluderen dat hun aanpak een principieel raamwerk biedt voor het beoordelen van de geloofwaardigheid van LLM's en een cruciale stap is richting veiliger en betrouwbaarder AI-systemen, hoewel ze nog steeds afhankelijk zijn van de rationaliteit van het model bij het interpreteren van prompts.

Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

1. Het Probleem: De "Zekerheids-Bluf"

2. De Oplossing: Twee Soorten Twijfel

3. Hoe werkt het? (De "Gok-Strategie")

4. Waarom is dit beter? (De "Spiegel")

5. Het Resultaat: Betrouwbare Hulp

1. Het Probleem

2. Methodologie: Imprecise Probabilities (IP)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA