A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Large Language Model (LLM), zoals de slimme chatbots die we vandaag gebruiken, een ontzettend goed getrainde schrijver is. Deze schrijver heeft miljoenen boeken gelezen en kan prachtig, vloeiend en overtuigend tekst produceren. Maar er is een groot probleem: deze schrijver weet niet wat waarheid is. Hij weet alleen wat woorden vaak samen voorkomen.

Dit artikel, geschreven door Javier Marín, probeert een oplossing te vinden voor het fenomeen "hallucineren" (wanneer een AI dingen verzonnen die niet waar zijn). De auteur stelt dat we "hallucineren" niet als één groot probleem moeten zien, maar als drie verschillende soorten fouten die elk hun eigen geometrische vingerafdruk hebben in de digitale ruimte waar de AI denkt.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Drie Soorten "Leugens" (De Taxonomie)

De auteur verdeelt hallucinaties in drie types, elk met een eigen patroon:

Type I: De Luie Schrijver (Ontrouwheid)
- Wat gebeurt er? De AI krijgt een tekstje (bijvoorbeeld een nieuwsartikel) en moet daar een antwoord op geven. Maar in plaats van naar dat tekstje te kijken, kijkt de AI naar zijn eigen geheugen en verzonnt hij iets dat klinkt alsof het waar is, maar negeert de feiten in het artikel.
- De Analogie: Stel je voor dat je een vriend vraagt: "Wat staat er in dit specifieke recept?" en je vriend antwoordt: "Ik weet het niet, maar ik denk dat je er chocolade in moet doen." Hij negeert je vraag en gebruikt zijn eigen ideeën.
- De Oplossing (SGI): De auteurs hebben een meetlat bedacht (de Semantic Grounding Index). Als het antwoord dichter bij het originele tekstje staat dan bij de vraag zelf, is het goed. Als het antwoord juist dichter bij de vraag staat (en ver weg van het tekstje), is de AI "lui" en heeft hij geïgnoreerd wat je gaf.
Type II: De Verzonnen Wereld (Confabulatie)
- Wat gebeurt er? De AI verzonnt volledig nieuwe dingen die niet bestaan: een uitvinding die nooit is gedaan, een bedrijf dat er niet is, of een wetenschap die niet klopt.
- De Analogie: Je vraagt: "Wie heeft de koffie uitgevonden?" en de AI zegt: "De koffie is uitgevonden door een robot genaamd 'Caffie' in het jaar 2099." Dit is een volledig nieuw concept dat niet in de echte wereld past.
- De Oplossing (Γ - Gamma): Dit is de coolste vondst van het artikel. De auteurs kijken naar de richting waarin de AI beweegt in de digitale ruimte. Als de AI een goed antwoord geeft, beweegt hij in een bepaalde, voorspelbare richting (als een kompas). Als hij iets verzonnen, onbestaand ding bedenkt, beweegt hij in een vreemde, afwijkende richting. Hun meetlat (de Directional Grounding Index) kan deze "afwijkende richting" bijna perfect opsporen (95% nauwkeurigheid).
Type III: De Foutieve Details (Factuele Fouten)
- Wat gebeurt er? De AI heeft het juiste concept, maar de details kloppen niet. Bijvoorbeeld: "De Eiffeltoren staat in Parijs en is gebouwd in 1890." (Het klopt dat hij in Parijs staat, maar hij is in 1889 gebouwd).
- De Analogie: Je vraagt naar een bekende film, en de AI zegt de juiste titel en de juiste hoofdrolspeler, maar verandert de kleur van de jas van de acteur. Het verhaal klopt, maar het detail is fout.
- Het Probleem: Dit is het lastigste type. Omdat het antwoord klinkt alsof het waar is en in hetzelfde "gebied" van de digitale ruimte zit als het juiste antwoord, kan de meetlat dit niet zien. Het is alsof je probeert een valse munt te vinden die er precies hetzelfde uitziet als een echte munt, maar dan in een digitale wereld. De auteurs concluderen: dit type fout is voor hun methode onzichtbaar.

2. Waarom is dit belangrijk? (De "Waarheid" van de Meetlat)

Veel andere methoden om hallucinaties te detecteren kijken naar de tekst zelf (bijvoorbeeld: "Klinkt dit logisch?"). Maar AI's zijn zo goed in logisch klinkende onzin dat die methoden vaak falen.

De auteurs gebruiken een slimme wiskundige truc: ze kijken niet naar de woorden, maar naar de afstand en richting in de ruimte waar de AI denkt.

Als de AI een verzonnen ding bedenkt (Type II), "valt" het antwoord uit de rij.
Als de AI een bestaand feit verdraait (Type III), blijft het in de rij staan, en dat is waarom het zo lastig is om te detecteren.

3. De Valstrik van de "Stijl" (TruthfulQA)

Het artikel onderzoekt ook een bekende testset (TruthfulQA) waar AI's vaak op worden getest. Veel andere systemen denken dat ze dit goed kunnen detecteren. Maar de auteurs tonen aan dat dit een valstrik is.

De ontdekking: De AI's die "goed" scoorden op deze test, detecteerden eigenlijk niet of het antwoord waar was. Ze detecteerden alleen de schrijfstijl.
De Analogie: Stel je voor dat alle "ware" antwoorden in de test lang en voorzichtig geschreven zijn ("Misschien is het..."), terwijl alle "valse" antwoorden kort en zeker klinken ("Het is..."). Een slimme computer leert dan: "Korte zinnen = leugen". Maar dat heeft niets te maken met de feitelijke waarheid, alleen met de manier waarop de mensen de test hebben opgesteld. De auteurs bewijzen dat hun meetlat dit soort "stijl-fouten" niet ziet, wat eigenlijk een goed teken is: het betekent dat ze echt naar de feiten kijken en niet naar de vorm.

Conclusie: Wat leert dit ons?

Dit artikel zegt eigenlijk: "We moeten stoppen met denken dat 'hallucineren' één probleem is."

Als de AI je bronnen negeert, kunnen we dat meten.
Als de AI iets verzonnen bedenkt, kunnen we dat meten door te kijken naar de "richting" van zijn gedachtegang.
Maar als de AI een klein detail fout heeft binnen een waar verhaal, is dat met deze meetlat onmogelijk te zien. Dat is geen gebrek aan technologie, maar een fundamentele beperking van hoe AI's werken: ze begrijpen wat woorden vaak samen doen, maar ze weten niet wat waar is.

De auteurs geven ons dus een nieuwe kaart om te navigeren in de wereld van AI-fouten. We weten nu precies waar onze meetlat werkt en waar we moeten oppassen dat we niet bedrogen worden door een slimme, maar onbetrouwbare schrijver.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "A Geometric Taxonomy of Hallucinations in LLMs" van Javier Marín, geschreven in het Nederlands.

Probleemstelling

De term "hallucinatie" bij Large Language Models (LLMs) omvat verschillende mislukkingen die fundamenteel verschillen in hun oorzaken en gevolgen, maar vaak als één fenomeen worden behandeld. LLMs genereren tekst op basis van distributieve statistieken zonder noodzakelijkerwijs een relatie tot externe realiteit te onderhouden. Dit leidt tot drie distincte foutmodi:

Ontrouwheid (Type I): Het model negeert de verstrekte context en baseert het antwoord op parametrisch geheugen.
Confabulatie (Type II): Het model verzonnen entiteiten, mechanismen of concepten die niet bestaan (semantisch vreemde inhoud).
Factuele fout (Type III): Het model geeft verkeerde details binnen een correct conceptueel kader (de inhoud is semantisch plausibel, maar feitelijk onjuist).

Bestaande benchmarks voor hallucinaties zijn vaak gebaseerd op LLMs die zelf worden geprompt om te liegen, wat de meetbaarheid van echte factuele fouten (Type III) verstoort. Bovendien vereisen veel detectiemethoden toegang tot interne modelgewichten (white-box) of meerdere generaties per query, wat ze onpraktisch maakt voor API-gebruik.

Methodologie: Een Geometrische Taxonomie

Het artikel stelt voor om hallucinaties te definiëren en te detecteren op basis van hun geometrische handtekeningen in de inbeddingsruimte (de eenheidshypersfeer $S^{d-1}$ ). De auteurs introduceren twee detectiemethoden die geen toegang tot modelinterne states vereisen en slechts één embedding-call nodig hebben.

1. Type I: Semantic Grounding Index (SGI)

Doel: Detectie van ontrouwheid (het negeren van context).
Principe: Een getrouwe respons moet zich semantisch verplaatsen richting de context ( $c$ ) in plaats van bij de query ( $q$ ) blijven.
Formule: $SGI(r; q, c) = \frac{\theta(r, q)}{\theta(r, c)}$ , waarbij $\theta$ de geodesische afstand (hoek) is.
Interpretatie:
- $SGI > 1$ : De respons is dichter bij de context dan bij de query (getrouwd).
- $SGI \leq 1$ : De respons blijft dicht bij de query (ontrouw/Type I).

2. Type II: Directional Grounding Index ( $\Gamma$ )

Doel: Detectie van confabulatie (het verzonnen van niet-bestaande inhoud) in context-vrije settings.
Principe: Het meet de verplaatsingsvector van de query naar het antwoord en vergelijkt deze met een geleerde "grondingsrichting" ( $\hat{\mu}$ ) afgeleid van een referentiedataset van verifieerbare, correcte paren.
Formule: $\Gamma(q, r; R) = \hat{\delta}(q, r)^\top \hat{\mu}$ , waarbij $\hat{\delta}$ de genormaliseerde verplaatsingsvector is.
Interpretatie:
- Hoge waarden ( $\approx 1$ ): De verplaatsing is consistent met de richting van feitelijke gronding.
- Lage of negatieve waarden: De verplaatsing wijkt af van het "plausibele antwoord-manifold", wat wijst op Type II confabulatie.

Belangrijkste Bijdragen

Geometrische Taxonomie: Een empirisch onderbouwde indeling van hallucinaties in drie types, gebaseerd op hun positie en beweging in de inbeddingsruimte.
Nieuwe Detectiemethoden: Introductie van SGI en $\Gamma$ , die efficiënter zijn dan bestaande methoden (geen white-box toegang, geen multiple sampling nodig).
Analyse van Type III Grenzen: Een kritische analyse van waarom Type III fouten (factuele fouten binnen een correct kader) geometrisch onzichtbaar zijn voor deze methoden, in tegenstelling tot wat eerdere studies suggereerden.
Validatie op Externe Benchmarks: Systematische validatie op drie onafhankelijke, menselijk geannoteerde datasets (WikiBio, FELM, ExpertQA).

Resultaten

Type I (Ontrouwheid)

Op de HaluEval QA-dataset (10.000 voorbeelden) toonde SGI een consistente prestatie (AUROC 0.776–0.824) over verschillende embedding-architecturen.
Getrouwe antwoorden hadden een gemiddelde SGI van 1.180 (dichter bij context), terwijl ontrouwe antwoorden 0.910 hadden (dichter bij de query).

Type II (Confabulatie)

Menselijk gemaakte confabulaties: Op een dataset van 142 menselijk geschreven verzonnen teksten (finance, medisch, juridisch) bereikte $\Gamma$ een AUROC van 0.958. Dit is aanzienlijk beter dan een NLI-baseline (CrossEncoder) met 0.611, omdat NLI faalt bij syntactisch coherente maar feitelijke onzin.
Externe Validatie:
- Op ExpertQA (900 paren, expert-geannoteerd) overtrof $\Gamma$ de NLI-baseline met $\Delta = 0.243$ (AUROC 0.695 vs 0.452). NLI presteerde hier op het niveau van toeval, terwijl $\Gamma$ succesvol was.
- Op FELM was er een bescheiden verbetering.
- Op WikiBio faalde $\Gamma$ (AUROC 0.581), wat suggereert dat de annotatiecriteria hier Type II en Type III fouten vermengen, waardoor de geometrische signalen onduidelijk worden.
Domein-localiteit: De methode werkt goed binnen een specifiek domein, maar presteert slecht bij cross-domein transfer op LLM-generatie-benchmarks (AUROC daalt naar ~0.50), wat wijst op domein-specifieke grondingsrichtingen.

Type III (Factuele Fouten) & TruthfulQA

Op de TruthfulQA-dataset leek een logistische regressie (LR) op embeddings een sterke prestatie te leveren (AUROC 0.731).
Cruciaal Inzicht: Verdere analyse toonde aan dat dit signaal niet gebaseerd is op feitelijke juistheid, maar op stijl. Valse antwoorden waren korter en meer assertief, terwijl ware antwoorden langer en genuanceerder waren.
De geometrische verplaatsing van valse antwoorden was zelfs invers aan wat verwacht wordt bij foutdetectie (ze zaten dichter bij de query dan ware antwoorden, AUROC 0.365).
Conclusie: Type III fouten zijn geometrisch ondetecteerbaar via verplaatsing, omdat ze binnen hetzelfde semantische gebied van de inbeddingsruimte vallen als correcte antwoorden.

Betekenis en Conclusie

Dit artikel biedt een fundamenteel inzicht in de beperkingen en mogelijkheden van hallucinatiedetectie:

Detecteerbaar: Type I (context-ignorantie) en Type II (verzonnen entiteiten) hebben duidelijke geometrische handtekeningen die efficiënt gedetecteerd kunnen worden met SGI en $\Gamma$ .
Niet-detecteerbaar (via geometrie): Type III (factuele fouten binnen een correct kader) is inherent onzichtbaar voor geometrische methoden omdat inbeddingsruimten co-occurrence modelleren, niet waarheidsvoorwaarden.
Praktische Implicatie: Veel bestaande "succesvolle" detectiemethoden op datasets zoals TruthfulQA detecteren in werkelijkheid annotatiestijlen in plaats van feitelijke fouten. De auteurs waarschuwen voor de verwarrende aard van huidige benchmarks en benadrukken dat de grens tussen Type II en Type III de sleutel is tot het begrijpen van wat er wel en niet gedetecteerd kan worden.

De voorgestelde taxonomie en methoden bieden een robuust, white-box-vrij kader voor het diagnosticeren van LLM-fouten, mits de aard van de fout (verzonnen vs. verkeerde details) correct wordt geïdentificeerd.

A Geometric Taxonomy of Hallucinations in LLMs

1. De Drie Soorten "Leugens" (De Taxonomie)

2. Waarom is dit belangrijk? (De "Waarheid" van de Meetlat)

3. De Valstrik van de "Stijl" (TruthfulQA)

Conclusie: Wat leert dit ons?

Probleemstelling

Methodologie: Een Geometrische Taxonomie

1. Type I: Semantic Grounding Index (SGI)

2. Type II: Directional Grounding Index (Γ\GammaΓ)

Belangrijkste Bijdragen

Resultaten

Type I (Ontrouwheid)

Type II (Confabulatie)

Type III (Factuele Fouten) & TruthfulQA

Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

2. Type II: Directional Grounding Index ( $\Gamma$ )