Oorspronkelijke auteurs: Mohit Singh Chauhan

Gepubliceerd 2026-06-02✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Mohit Singh Chauhan

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer slimme, zelfverzekerde robot hebt die vragen beantwoordt. Soms verzint deze robot dingen. We noemen deze fouten "hallucinaties".

Lange tijd probeerden onderzoekers deze fouten te sorteren op basis van wat er mis was (bijv. "Het kreeg de feiten verkeerd" of "Het redeneerde slecht"). Maar de auteurs van dit artikel, Mohit Singh Chauhan, zeggen dat dat is alsof je auto-ongelukken sorteert op "tegen een boom gereden" versus "tegen een muur gereden". Het vertelt je wat er is gebeurd, maar het vertelt je niet hoe je de chauffeur kunt vangen vóór de crash.

Dit artikel introduceert een nieuwe manier om fouten te sorteren, genaamd DECK. In plaats van te kijken naar de inhoud van de fout, kijkt het naar het signaal dat de fout achterlaat. Het vraat: "Welk type detector zou dit opgemerkt hebben?"

De Twee Detectoren (De Assen)

Om hun systeem te bouwen, gebruiken de auteurs twee eenvoudige "sensoren" om de robot in de gaten te houden:

De Consistentie Sensor (De "Herhaal" Test): Als je de robot 10 keer dezelfde vraag stelt, geeft hij dan elke keer hetzelfde antwoord?
- Hoge Consistentie: Hij herhaalt steeds hetzelfde antwoord.
- Lage Consistentie: Hij geeft elke keer een ander antwoord.
De Zelfverzekerdheid Sensor (De "Zekerheid" Test): Hoe zeker klinkt de robot? Zegt hij het antwoord met 100% zekerheid, of klinkt hij aarzelend?
- Hoge Zelfverzekerdheid: "Ik weet het 100% zeker."
- Lage Zelfverzekerdheid: "Ik denk misschien..."

De DECK Taxonomie (De Vier Boxen)

Door deze twee sensoren te combineren, creëren de auteurs een 2x2 raster met vier soorten fouten. Ze hebben ze pakkende namen gegeven:

1. Drift (De "Verwarde Drijver")

Hoe het eruitziet: De robot is zelfverzekerd, maar geeft elke keer een ander fout antwoord als je het vraagt.
De Analogie: Stel je een gids voor die heel luidruchtig en zeker van zichzelf is, maar elke keer als je vraagt "Waar is het museum?", wijst hij in een andere richting. Hij is zelfverzekerd, maar hij drijft weg.
Wie vangt dit op? Een Black-Box detector (één die controleert of antwoorden met elkaar overeenkomen) zal dit opvangen omdat de antwoorden niet overeenstemmen.

2. Entrenched (De "Stugge Muilelui")

Hoe het eruitziet: De robot is zelfverzekerd en geeft elke keer exact hetzelfde foutieve antwoord.
De Analogie: Dit is als een student die het verkeerde antwoordmodel heeft uit het hoofd geleerd. Als je hem vraagt "Wat is 2+2?", zal hij vol zelfvertrouwen elke keer "5" zeggen, ongeacht hoe vaak je het vraagt. Hij zit vast (entrenched) in een misconceptie.
Wie vangt dit op? Dit is de moeilijkste. Consistentie-detectors denken dat het goed is omdat het consistent is! Alleen een Judge (een tweede, onafhankelijke AI die de feiten kent) kan dit opvangen.

3. Confabulation (De "Aarzelende Fabrikant")

Hoe het eruitziet: De robot is onzeker en geeft elke keer andere foutieve antwoorden.
De Analogie: Dit is de robot die toegeeft: "Ik weet het niet zeker, maar hier is een gok... eigenlijk, misschien is dit een andere gok?" Hij verzint dingen, maar weet dat hij aan het gokken is.
Wie vangt dit op? Iedereen vangt dit op. Het is lage zelfverzekerdheid en inconsistent, dus alle detectoren markeren dit als "risicovol".

4. Knotted (De "Verknoopte Heg")

Hoe het eruitziet: De robot is onzeker (lage zelfverzekerdheid) maar geeft elke keer exact hetzelfde foutieve antwoord.
De Analogie: Stel je een robot voor die doodsbang is om het fout te hebben, dus blijft hij zeggen: "Ik weet het niet zeker, maar ik denk dat het waarschijnlijk X is," en hij zegt telkens "waarschijnlijk X". Hij zit "verknoopt" in een veilige, repetitieve, maar foute patron.
Wie vangt dit op? Een White-Box detector (één die naar de interne wiskunde van de robot kijkt) zal dit opvangen, omdat de interne wiskunde van de robot laat zien dat hij eigenlijk niet zeker is, ook al wordt het antwoord herhaald.

De Grote Ontdekking: De "Universele Blinde Vlek"

De paper vond een angstwekkende situatie waarin alle detectoren tegelijk falen.

Ze testten de robots op vragen die niemand kan beantwoorden (zoals "Wat is de hoofdstad van een land dat nog niet bestaat?").

De robots zeiden niet "Ik weet het niet."
In plaats daarvan bedachten ze vol zelfvertrouwen een nepantwoord en herhaalden ze dit elke keer.

Dit creëerde een perfecte val:

De Consistentie Sensor zag dat ze het antwoord herhaalden, dus dacht: "Geweldig, het is consistent!"
De Zelfverzekerdheid Sensor zag dat ze zelfverzekerd klonken, dus dacht: "Geweldig, het is zelfverzekerd!"
De Judge faalde omdat de Judge het antwoord ook niet wist (omdat het land nog niet bestaat).

De auteurs noemen dit de "Universele Blinde Vlek." Wanneer een robot vol zelfvertrouwen een leugen herhaalt over iets wat hij niet weet, kan geen enkele huidige detector dit opvangen.

De Oplossing

De paper suggereert dat we, in plaats van te proberen een betere detector te bouken om deze specifieke leugens te vangen, een "Refusal Envelope" moeten bouwen. Dit is als een uitsmijter bij een club. Als de vraag gaat over iets dat de robot niet zou moeten weten (een kenniskloof), moet de uitsmijter de robot stoppen voordat hij überhaupt probeert iets te verzinnen en zeggen: "Ik kan die vraag niet beantwoorden."

Samenvatting

Deze paper zegt niet alleen "AI maakt fouten." Het zegt: "AI maakt fouten in vier specifieke patronen. Sommige patronen zijn makkelijk te vangen, sommige zijn moeilijk, en één specifiek patroon (zelfverzekerde, herhaalde leugens over onbekende zaken) is momenteel onmogelijk te vangen met standaard hulpmiddelen. We moeten de robot ervan weerhouden om die vragen überhaupt te beantwoorden."

Technische Samenvatting: DECK – Een Consistentie × Vertrouwen Taxonomie van LLM-hallucinaties

Probleemstelling

Bestaande taxonomieën voor hallucinaties in Large Language Models (LLM's) classificeren fouten op basis van de aard van de output-fout (bijv. geïnformeerde misconcepties, redeneerfouten, vloeiende fabricaties). Hoewel deze nuttig zijn voor diagnose, adresseren deze kaders een cruciale vraag bij implementatie: welke onzekerheidskwantificatie (UQ) scorer zou een specifieke fout hebben gedetecteerd?

De huidige literatuur biedt drie primaire families van output-niveau UQ scorers aan:

Black-box (BB): Inter-sample consistentiecontroles (bijv. semantische entropie, self-check).
White-box (WB): Token-niveau log-waarschijnlijkheidsmaten.
LLM-als-een-Judge (J): Factuele beoordeling door een apart model.

De relatie tussen specifieke typen hallucinaties en de detectiesignaturen die deze scorer-families kunnen lezen, blijft echter impliciet. Zonder een taxonomie die geworteld is in de detectie-as, blijft het selecteren van een scorer voor een nieuw domein een heuristische gok. Bovendien is er een gebrek aan mechanistisch begrip over waarom bepaalde ensembles beter presteren dan andere en waar universele faalmodi kunnen bestaan.

Methodologie

De DECK-taxonomie

Het artikel stelt DECK voor, een complementaire taxonomie die hallucinaties classificeert op basis van hun detectiesignatuur in plaats van hun semantische inhoud. Het verdeelt hallucinaties in een $2 \times 2$ raster op basis van twee observeerbare assen:

Inter-sample Consistentie: Produceert het model dezelfde onjuiste antwoorden over meerdere onafhankelijke stochastische samples heen?
Token-niveau Vertrouwen: Kent het model een hoge waarschijnlijkheid toe aan de tokens van de gegenereerde respons?

Dit levert vier gedragsregimes op (Tabel 1):

Drift (D): Lage Consistentie, Hoog Vertrouwen. Het model genereert voor elke sample verschillende zelfverzekerde, onjuiste antwoorden.
Entrenched (E): Hoge Consistentie, Hoog Vertrouwen. Het model houdt vast aan een geïnformeerde misconceptie of een gedeelde pre-training fout en reproduceert deze zonder variantie.
Confabulation (C): Lage Consistentie, Laag Vertrouwen. Het model beschikt werkelijk niet over kennis en produceert verschillende onjuiste antwoorden met een laag vertrouwen.
Knotted (K): Hoge Consistentie, Laag Vertrouwen. Het model herhaalt consequent hetzelfde voorzichtige/onjuiste antwoord, maar kent een lage token-waarschijnlijkheid toe.

Operationalisering: Lidmaatschap van een cel wordt bepaald door het toepassen van de optimale Youden's J-drempelwaarden op de BB (consistentie) en WB (vertrouwen) scorer scores op een per-conditie basis.

Experimentele Opzet

Modellen: Llama-3-8B (open-weights), GPT-4o (closed-weights), en Gemini-2.5-Flash (closed-weights).
Datasets: TriviaQA (factueel), HaluEval (adversariële hallucinaties), SelfAware (onbeantwoordbare vragen/kennisgaten) en PopQA (entiteit-gecentreerd, gestratificeerd naar populariteit).
Scorers: 15 configuraties over de drie families (BB, WB, Judge), geselecteerd op basis van de hoogste AUROC per split om bias te voorkomen.
Evaluatie:
- AUROC: Prestaties per scorer.
- Complementariteit ( $C_H$ ): Het deel van de gehallucineerde samples waarbij twee scorers het oneens zijn.
- Externe Validatie: Controleren of externe labels (bijv. entiteitspopulariteit, adversariële aard) in de voorspelde DECK-cellen terechtkomen.

Belangrijkste Bijdragen

De DECK-taxonomie: Een verschuiving van het classificeren van wat er fout is naar hoe een fout wordt gedetecteerd. Het brengt de vier gedragsregimes expliciet in kaart met de sterktes en blinde vlekken van de drie scorer-families:
- Drift: Detecteerbaar door BB en Judge.
- Entrenched: Alleen detecteerbaar door een onafhankelijke Judge (blind voor BB en WB).
- Confabulation: Detecteerbaar door alle drie de families.
- Knotted: Detecteerbaar door WB en Judge.
Identificatie van een Universele Blinde Vlek: Het artikel identificeert een regime waarin alle output-niveau UQ-families simultaan instorten. Bij "kennisgat"-inputs (bijv. SelfAware onbeantwoordbare vragen) waar de generator zelfverzekerde, herhaalbare fabricaties genereert, ziet BB een hoge overeenstemming, ziet WB een hoge token-waarschijnlijkheid, en delen de Judges dezelfde kennisgap. In dit regime faalt output-niveau UQ door constructie.
Mechanistische Validatie van Ensembling: Het artikel biedt een structurele verklaring voor waarom ensembling werkt. Het toont aan dat scorer-oneensheid niet willekeurig is, maar geconcentreerd is in specifieke DECK-kwadranten (bijv. BB mist Entrenched/Knotted; WB mist Drift/Entrenched), wat de complementariteit van de families valideert.

Resultaten

Taxonomie Validatie

Disagreement Analyse: Over 12 model-dataset combinaties stemmen de patronen van oneensheid tussen scorer-paren overeen met de DECK-voorspellingen. Bijvoorbeeld, BB-Judge oneensheden concentreren zich in de Entrenched en Knotted cellen (de blinde vlekken van BB), terwijl WB-Judge oneensheden zich concentreren in Drift en Confabulation.
External-Signal Validatie:
- SelfAware (Onbeantwoordbaar): Samples landen voornamelijk in de Entrenched cel (62–71% over modellen heen), wat de hypothese bevestigt dat kennisgat-hallucinaties zich manifesteren als zelfverzekerde, herhaalbare fouten.
- PopQA (Zeldzame Entiteiten): Samples landen voornamelijk in Confabulation, consistent met modellen die specifieke entiteitskennis missen.
- PopQA (Populaire Entiteiten): Samples landen in Entrenched, wat gerealiseerde misconcepties reflecteert.
- HaluEval: Toont model-afhankelijke distributies, vaak verdeeld tussen Entrenched en Knotted/Confabulation.

De Universele Blinde Vlek

Op de SelfAware dataset (kennisgaten) stortten alle drie de scorer-families in tot nabij kansniveau (AUROC $\approx$ 0.5 of lager).

GPT-4o: 13 van de 15 scorers vielen onder de 0.5 AUROC; $P(\text{True})$ keerde om naar 0.331.
Internal State Probe: Een lineaire probe op de laatste-laag verborgen toestanden van Llama-3-8B stortte eveneens in tot kansniveau (AUROC 0.44) op SelfAware, wat suggereert dat de faalmodus persisteert op het niveau van de activaties, en niet alleen op het niveau van de output.
Conclusie: Geen ensemble van output-niveau scorers kan deze fouten detecteren; de enige engineering-respons is een abstention envelope om dergelijke inputs te routeren naar weigering of retrieval vóór scoring.

Effecten van Model Schaal

TriviaQA: Schalen van Llama-3-8B naar GPT-4o verschoof de resterende oneensheid van Confabulation/Knotted naar Drift. Grotere modellen produceerden meer zelfverzekerde, herhaalbare hallucinaties die detecteerbaar waren door Judges maar gemist werden door BB consistentiechecks.
PopQA: Schalen verhoogde de complementariteit tussen Judges en andere families aanzienlijk, met name voor entiteit-gecentreerde queries.

Betekenis en Claims

Het artikel claimt dat DECK een mechanistisch account biedt van onzekerheidskwantificatie in LLM's, waarbij het verder gaat dan empirische ensembling naar een structureel begrip van waarom bepaalde scorers elkaar aanvullen.

Diagnostisch Nut: DECK stelt beoefenaars in staat te voorspellen welke scorer-familie zal falen voor een bepaald type hallucinatie (bijv. verwachten dat BB faalt op Entrenched fouten).
Beperking van Output-Level UQ: Het artikel claimt bescheiden maar resoluut dat output-niveau UQ een fundamentele, universele blinde vlek heeft op kennisgat-inputs waar het model zelfverzekerd onjuist is. Dit is een eigenschap van de (generator, taak) paren, niet van een specif kind algoritme.
Internal State Bewijs: De voorlopige bevinding dat een eenvoudige lineaire probe op verborgen toestanden ook faalt op deze inputs, suggereert dat de fout diep in de activatieruimte van het model zit, hoewel de auteurs opmerken dat rijkere internal-state methoden (bijv. UQ-heads, informatie-theoretische estimators) nog getest moeten worden.

Het werk concludeert dat hoewel ensembling de prestaties in veel regimes verbetert, het de universele blinde vlek van zelfverzekerde, herhaalbare fabricaties op onbeantwoordbare inputs niet kan overwinnen. De passende engineering-respons is niet een complexer ensemble, maar een systeem-niveau abstention mechanism.

DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations