Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Each language version is independently generated for its own context, not a direct translation.

De "Hallucinatie-Stopper": Hoe we AI's dwingen om eerlijk te zeggen "Ik weet het niet"

Stel je voor dat een Kunstmatige Intelligentie (AI) een zeer slimme, maar soms overmoedige journalist is. Deze journalist kan prachtige verhalen schrijven, maar heeft een groot probleem: hij durft zelden toe te geven dat hij iets niet weet. Als hij een vraag krijgt waar hij het antwoord niet in zijn geheugen of in de kranten die hij net heeft gelezen, begint hij te hallucineren. Hij verzonnt een verhaal dat klinkt als waarheid, maar eigenlijk is het pure fantasie.

Deze paper, geschreven door Angelina Hintsanen, stelt een nieuwe manier voor om dit probleem op te lossen. Het is alsof we deze journalist niet alleen een strengere baas geven, maar ook een slimme "controleur" aan zijn bureau zetten.

Het Probleem: De "Vertrouwde Leugen"

Normaal gesproken denkt de AI: "Ik moet een antwoord geven, want dat is wat ik moet doen." Zelfs als het antwoord fout is, klinkt het vaak zo zeker en zelfverzekerd dat we het geloven. De paper noemt dit een fout in de grens. Het is alsof de AI een kaart tekent van een eiland dat niet bestaat, en dat kaartje met een stempel "OFFICIËEL" voorziet.

De auteur stelt: het probleem is niet dat de AI iets verzonnen heeft, maar dat hij het te vroeg heeft afgeleverd alsof het bewezen feiten waren.

De Oplossing: Twee Wachters in plaats van Eén

De onderzoekers hebben uitgeprobeerd dat één manier van controleren niet genoeg is. Ze hebben een combinatie van twee systemen bedacht, alsof je een huis beveiligt met zowel een slimme deurbel als een fysieke slot.

1. De "Vriendelijke Baas" (Instruction-Based Refusal)

Dit is de eerste wachter. Je geeft de AI een opdracht: "Als je het antwoord niet zeker weet, zeg dan gewoon 'Ik weet het niet'."

Hoe het werkt: De AI luistert naar zijn eigen gevoel. Als hij twijfelt, zegt hij het.
Het nadeel: Soms is de AI te bang. Hij zegt "Ik weet het niet" zelfs als hij het wél zou moeten weten (te voorzichtig). En bij de wat slimmere modellen werkt dit goed, maar bij de wat minder sterke modellen (zoals GPT-3.5) luistert hij niet altijd goed en verzonnt hij toch nog iets.

2. De "Slimme Controleur" (Structural Gate)

Dit is de tweede wachter, een onafhankelijk systeem dat niet luistert naar wat de AI zegt, maar naar wat hij doet. Deze controleur kijkt naar drie signalen:

Zelfconsistentie: Als je de vraag drie keer stelt, geeft de AI dan hetzelfde antwoord?
Stabiliteit: Als je de vraag anders stelt, blijft het antwoord hetzelfde?
Bronnen: Komt het antwoord echt uit de tekst die je hebt gegeven, of heeft hij het uit zijn hoofd?

Als deze controleur ziet dat de signalen zwak zijn (bijvoorbeeld: het antwoord verandert elke keer of komt niet uit de bron), blokkeert hij de output.

Het nadeel: Soms is de AI zo overmoedig dat hij een fout antwoord geeft dat heel consistent en stabiel klinkt. De controleur denkt dan: "Oh, dit klinkt zeker," en laat het door. Dit noemen ze "Zelfverzekerde Verzonnenheid".

De Magische Combinatie: De "Super-Wacht"

De paper laat zien dat je beide systemen nodig hebt.

Als je alleen de "Vriendelijke Baas" gebruikt, blokkeert hij te veel goede antwoorden.
Als je alleen de "Slimme Controleur" gebruikt, laat hij soms die zelfverzekerde leugens door.

De oplossing: Je koppelt ze aan elkaar. De AI mag alleen antwoorden als BEIDE systemen het goedkeuren.

Als de Baas zegt: "Ik weet het niet" -> Geen antwoord.
Als de Controleur zegt: "De signalen zijn te zwak" -> Geen antwoord.

Wat leverde dit op?

In tests met verschillende AI-modellen (van de slimme tot de wat minder sterke) bleek dit systeem wonderen te doen:

Minder leugens: De hoeveelheid verzonnen feiten daalde van 30-50% naar bijna 0-4%.
Beter dan alleen maar "Nee" zeggen: De AI gaf nog steeds antwoorden op vragen die hij wél kon beantwoorden, maar hij weigerde netjes om te antwoorden op vragen waarvoor hij geen bewijs had.

Een Leuk Voorbeeld uit de Wereld van de AI

Stel je voor dat je een AI vraagt: "Wie won de voetbalwedstrijd gisteren?"

Situatie A (Geen informatie): Je geeft geen nieuwsbrief mee.
- Alleen Baas: De slimme AI zegt "Ik weet het niet". De minder slimme AI verzonnt een winnaar.
- Alleen Controleur: De AI verzonnt een winnaar die klinkt als waarheid (consistent), en de controleur laat het door.
- Combinatie: De controleur ziet dat er geen bron is en blokkeert het. De Baas zegt ook "Ik weet het niet". Resultaat: Geen leugen.
Situatie B (Twee tegenstrijdige bronnen): Je geeft twee kranten die zeggen dat Team A won, en twee die zeggen dat Team B won.
- Alleen Baas: De AI twijfelt en zegt "Ik weet het niet" (goed!).
- Alleen Controleur: De AI kiest Team A, en omdat hij dat met overtuiging doet (consistent), denkt de controleur: "Dit is zeker waar" en laat het door (fout!).
- Combinatie: De Baas ziet de verwarring en zegt "Ik weet het niet". De controleur ziet de tegenstrijdigheid. Resultaat: Geen leugen.

Conclusie in Eén Zin

Om te voorkomen dat AI's liegen alsof het de waarheid is, moeten we ze niet alleen vragen om eerlijk te zijn (wat ze soms vergeten), maar ze ook een onafhankelijke "rekenmachine" geven die controleert of hun antwoorden echt onderbouwd zijn. Alleen samen vormen ze een onverslaanbaar team tegen hallucinaties.

Dit onderzoek is een eerste stap. Het is nog niet perfect (het kost wat meer tijd en rekenkracht), maar het bewijst dat we AI's veiliger kunnen maken door slimme "remmen" te installeren in plaats van alleen maar te hopen dat ze zich gedragen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Hallucinatie als Classificatiefout

Het artikel definieert hallucinatie bij Large Language Models (LLM's) niet primair als een inhoudelijke fout, maar als een misclassificatie aan de outputgrens.

De Kern: LLM's genereren tekst voorspellend. Het probleem ontstaat wanneer een model een antwoord genereert op basis van interne aannames (prior-driven completion) en dit foutief classificeert als een antwoord dat is onderbouwd door bewijs (evidence-backed).
De Loop: Een query leidt tot een kennislacune, het model vult deze aan met interne kennis, en dit wordt zonder waarschuwing als een feitelijk onderbouwd antwoord uitgegeven.
Huidige Beperkingen: Bestaande strategieën (zoals post-hoc verificatie of zelf-consistentie) werken vaak na de generatie. Het artikel pleit voor een pre-output controlemechanisme dat de generatie blokkeert voordat het onondersteunde inhoud wordt vrijgegeven.

2. Methodologie: Een Composite Abstention Architectuur

De auteurs stellen een hybride architectuur voor die twee mechanismen combineert om hallucinatie te onderdrukken: instructie-gebaseerde weigering en een structurele onthoudingspoort (structural abstention gate).

A. De Structurele Poort (Black-Box Support-Deficit Score)

De poort berekent een score voor "ondersteuningstekort" ( $S_t$ ) op basis van drie extern meetbare signalen, zonder toegang tot de interne gewichten van het model:

Zelf-consistentie ( $A_t$ ): Het model genereert $K=3$ onafhankelijke antwoorden. $A_t$ is de fractie van overeenstemming (meerderheidsstemming).
Parafraase-stabiliteit ( $P_t$ ): De query wordt herschreven en opnieuw ingediend. $P_t$ meet de semantische overlap tussen het originele en het herschreven antwoord.
Citatiedekking ( $C_t$ ): Het percentage inhoudsworden in het antwoord dat traceerbaar is naar de verstrekte context (via trefwoord-overlap).

De Support-Deficit Score wordt berekend als:
$S_t = 1 - \frac{A_t + P_t + C_t}{3}$

Beleid: Als $S_t > \tau$ (waarbij $\tau = 0.55$ ), wordt de output geblokkeerd en wordt "ABSTAIN" (onthouding) teruggegeven.

B. De Experimentele Opzet

De evaluatie omvatte drie modellen (GPT-3.5-turbo, GPT-4o-mini, GPT-4o) onder vier condities:

Baseline: Standaard generatie.
Instructie-only: Prompting om te weigeren bij gebrek aan bewijs.
Hard-gated: Alleen de structurele poort.
Composite: Combinatie van instructie én poort (OR-logica: output wordt geblokkeerd als ofwel het model weigert ofwel de poort de drempel overschrijdt).

De tests werden uitgevoerd op 50 items verdeeld over vijf epistemische regimes (van beantwoordbaar tot tegenstrijdige bewijzen) en een stress-test van 100 items zonder context (gebaseerd op TruthfulQA).

3. Belangrijkste Bijdragen

Conceptueel Kader: Hallucinatie wordt herformuleerd als een fout in de classificatie van bewijskracht aan de outputgrens, geïnspireerd door controle-theoretische modellen van biologische inferentie.
Architectuur: Een bewijs-gebaseerde composite architectuur die instructie-gebaseerde weigering combineert met een structurele poort.
Empirisch Bewijs: Demonstreert dat geen enkel mechanisme op zichzelf voldoende is; alleen de combinatie leidt tot bijna nul hallucinatie.
Identificatie van Falingsmodi:
- Instructie-only: Neigt tot overmatige voorzichtigheid (onnodige onthouding) bij beantwoordbare vragen en faalt bij zwakkere modellen (GPT-3.5) of tegenstrijdige bewijzen.
- Structurele poort: Faalt bij "verzekerd confabuleren" (confident confabulation), waarbij het model consistent en stabiel een fout antwoord geeft dat eruitziet alsof het onderbouwd is.

4. Resultaten

De resultaten tonen aan dat de composite architectuur de beste balans biedt tussen nauwkeurigheid en hallucinatie-onderdrukking.

Algemene Prestaties (50 items):
- De composite architectuur bereikte 96–98% nauwkeurigheid met slechts 0–4% hallucinatie over alle modellen.
- Instructie-only: Bereikte 0% hallucinatie bij GPT-4o-modellen, maar leidde tot 10% onnodige onthouding op beantwoordbare vragen (over-onthouding). Bij GPT-3.5-turbo bleef er 6% hallucinatie over.
- Structurele poort alleen: Behield 100% nauwkeurigheid op beantwoordbare vragen (geen onnodige onthouding), maar faalde bij tegenstrijdige bewijzen (70% hallucinatie bij GPT-4o-modellen omdat het model "verzekerd" het verkeerde antwoord gaf).
Stress-test (TruthfulQA, geen context):
- Bij afwezigheid van context moet het model altijd onthouden.
- Instructie-only: GPT-3.5-turbo slaagde slechts in 62% van de gevallen om te onthouden (afhankelijk van modelcapaciteit).
- Structurele poort & Composite: Forceerden 98–100% onthouding over alle modellen, ongeacht de instructie-volgsnelheid. Dit bewijst dat de poort een "capaciteits-onafhankelijke vloer" biedt.
Complementaire Falingsmodi:
- De poort vangt gevallen waar instructies worden genegeerd of waar het model niet weet dat het moet onthouden.
- De instructie-component vangt gevallen waar de poort faalt (zoals bij tegenstrijdige bronnen waar het model consistent het verkeerde kiest).

5. Betekenis en Conclusie

Het artikel concludeert dat hallucinatiebestrijding niet kan worden opgelost door één enkel mechanisme.

Complementariteit: Instructie-gebaseerde weigering is effectief maar onbetrouwbaar bij zelfverzekerdheid of bij zwakkere modellen. Structurele poorten zijn robuust maar blind voor "verzekerd confabuleren".
Praktische Implicatie: Voor hoog-risico domeinen (medisch, juridisch) is de composite architectuur noodzakelijk, ondanks de hogere kosten (ongeveer 22 API-calls per query voor $K=3$ ).
Toekomst: De auteurs wijzen erop dat de huidige signalen ( $A_t, P_t, C_t$ ) kunnen worden verbeterd door expliciete detectie van bronconflicten, en dat verdere validatie nodig is over verschillende model-families (bijv. Llama, Claude).

Kortom, de studie biedt een bewezen concept voor een composiet abstention-systeem dat hallucinatie drukt tot bijna nul door de sterke punten van twee verschillende controlemechanismen te combineren, terwijl de zwakke punten van elk mechanisme worden opgevangen door het andere.