Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Het Geheim van de Hallucinerende AI: Een Reis door de "Witte Ruimte"

Stel je voor dat een taalmodel (zoals GPT-2) een enorme bibliotheek is. Als het een verhaal bedenkt, zoekt het in deze bibliotheek naar de juiste woorden. Soms lukt dit perfect, maar soms hallucineert het: het zegt dingen die niet waar zijn.

De onderzoekers in dit paper willen weten: Waarom doet de AI dit? En kunnen we het verschil zien tussen drie soorten fouten?

1. De Drie Soorten Fouten (De "Drie Diefen")

De auteurs hebben drie soorten hallucinaties bedacht, die ze vergelijken met drie verschillende manieren waarop iemand in een donkere kamer kan struikelen:

Type 1 (De Zwerver): De AI weet niet waarheen te gaan. Het drijft zomaar rond in het midden van de kamer, zonder richting. Het is verward, maar niet per se kwaadwillig.
Type 2 (De Valse Vriend): De AI denkt dat hij precies weet waar hij moet zijn, maar hij is in de verkeerde kamer beland. Hij is heel zeker van zijn zaak (hij "committeert" aan een plek), maar die plek is fout. Hij zegt bijvoorbeeld: "De bank heeft gisteren een recordwinst gemaakt," terwijl hij eigenlijk over een vis (een zeehond) praat. Hij is overtuigd, maar verkeerd.
Type 3 (De Lege Plek): De AI moet iets zeggen waarvoor er in de hele bibliotheek geen boeken zijn. Het is een vraag die gewoon niet bestaat (bijv. "Hoe meet je de kleur van een gedachte?"). De AI kan nergens op aansluiten en blijft stilstaan.

Het probleem: In de vorige experimenten konden de onderzoekers Type 1 (de zwerver) en Type 2 (de valse vriend) niet uit elkaar houden. Ze leken precies hetzelfde te doen in de meetresultaten. Het was alsof je twee mensen probeerde te onderscheiden die allebei een grijs T-shirt dragen in een mistige kamer.

2. De Oplossing: "Whitening" (Het Verwittigings-Filter)

De onderzoekers ontdekten dat de meetresultaten van de AI bijna perfect op elkaar leken (ze zaten in een "micro-signal regime", oftewel: de verschillen waren zo klein dat ze in de vierde decimaal zaten).

Om dit op te lossen, gebruikten ze een techniek genaamd PCA-whitening.

De Analogie: Stel je voor dat je een foto hebt die erg wazig is en waar alle kleuren een beetje grijs van zijn. Je kunt de foto niet goed zien. "Whitening" is alsof je een speciaal filter op de foto legt dat de achtergrondgrijsheid verwijdert en de kleuren juist scherper en contrastrijker maakt.
Door dit te doen, werden de kleine verschillen tussen de AI-fouten ineens zichtbaar.

3. Het Grote Ontdekking: Kijk naar de "Zekerheid"

Na het filteren zagen ze iets verrassends. Het verschil zat niet in hoe "wazig" de woorden waren (dat dachten ze eerst), maar in hoe vastberaden de AI was.

Ze maten de "piek-uitlijning" (max sim): Hoe sterk leek de AI op één specifiek idee?

Type 2 (Valse Vriend): Heeft de hoogste zekerheid. Hij is heel zeker van zijn verkeerde antwoord.
Type 1 (De Zwerver): Heeft een gemiddelde zekerheid. Hij twijfelt een beetje.
Type 3 (Lege Plek): Heeft de laagste zekerheid. Hij kan zich aan niets vastklampen.

Dit bevestigde hun theorie: Als je kijkt naar hoe "vastberaden" de AI is, kun je de fouten uit elkaar halen.

4. De Valstrik: Het "15 vs. 30" Experiment

Er was een kleine valstrik in de eerste metingen.

De onderzoekers begonnen met 15 zinnen (prompts) om de AI te testen. Hier leek het alsof een andere meting (de "entropie" of verwarring) het beste werkte.
Maar toen ze het aantal zinnen verdubbelden naar 30, verdween dit effect volledig!
De les: De eerste 15 zinnen waren per ongeluk te veel op elkaar gelijkend. Het leek alsof de AI iets speciaals deed, maar dat was alleen een toevalstreffer door de keuze van de zinnen. Dit is een waarschuwing voor andere onderzoekers: Kies je vragen divers genoeg, anders zie je geesten waar er geen zijn.

5. Waarom kunnen ze Type 1 en Type 2 nog niet perfect scheiden?

Hoewel ze een klein verschil zagen tussen de "Zwerver" (Type 1) en de "Valse Vriend" (Type 2), was dit verschil nog te klein om met 100% zekerheid te zeggen: "Dit is Type 1, dat is Type 2".

De Analogie: De AI (GPT-2) is als een kleine fiets. Hij kan best hard rijden, maar hij is niet sterk genoeg om een heel steile berg op te komen. De onderzoekers denken dat als je een grote vrachtwagen (een groter AI-model) gebruikt, het verschil tussen de "Zwerver" en de "Valse Vriend" veel duidelijker wordt. De "berg" is te steil voor de kleine fiets, maar voor de vrachtwagen is het een fluitje van een cent.

🎯 Samenvatting in Eén Zin

Door een speciaal "scherpzet-filter" (whitening) toe te passen, ontdekten de onderzoekers dat je hallucinaties kunt onderscheiden door te kijken hoe vastberaden de AI is, maar dat hun huidige AI-model nog net te klein is om alle soorten fouten perfect uit elkaar te houden.

De belangrijkste boodschap: Soms is het niet dat de AI niet kan, maar dat we de verkeerde bril op hebben om naar de fouten te kijken. En als je die bril verwisselt, zie je de waarheid ineens heel duidelijk.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types" in het Nederlands.

Probleemstelling

Het paper adresseert een fundamenteel probleem in de detectie van hallucinaties in taalmodellen: het onderscheid tussen twee specifieke soorten fouten in de ruimtelijke structuur van token-embeddings. Een eerdere taxonomie (Korun, 2026b) definieerde drie types hallucinaties:

Type 1 (Center-drift): Generatie drijft weg naar het centroid van de embedding-ruimte onder zwakke context.
Type 2 (Wrong-well): Het model committeert zich aan een lokaal coherente, maar contextueel verkeerde cluster.
Type 3 (Coverage gap): De query vereist semantische combinaties die ontbreken in de training, wat leidt tot zwakke toewijzing aan alle clusters.

Hoewel Type 3 goed te onderscheiden was, bleven Type 1 en Type 2 in eerdere metingen (op basis van volledige dimensies) ononderscheidbaar. De auteurs stelden twee hypothesen voor dit falen:

Capaciteitsbeperking: Het 124M-parameter model (GPT-2-small) mist de precisie om het onderscheid te maken.
Spectrale menging: Het onderscheid zit in specifieke eigenspectra-banden die verdunnen wanneer metingen over alle componenten worden geaggregeerd.

Methodologie

De auteurs hebben een reeks experimenten uitgevoerd met GPT-2-small (124M parameters) om deze vraag te beantwoorden, met de volgende kernmethodologische aanpassingen:

PCA-Whitening: In plaats van het gebruik van ruwe embeddings, hebben de auteurs een whitening-transformatie toegepast. Dit normaliseert de variantie over alle dimensies, waardoor micro-signalen (verschillen in de vierde decimaal van de cosinus-ähnelijkheid) worden versterkt in een gekalibreerde ruimte.
Multi-run Stabiliteitsanalyse: Om statistische robustheid te garanderen, zijn experimenten 20 keer herhaald met onafhankelijke generatie-zaden (seeds).
Prompt-diversificatie: Een kritiek ontwerpkeuze was het vergroten van de prompt-set van 15 naar 30 prompts per groep. Dit was nodig om te testen of eerdere resultaten niet het gevolg waren van artefacten van een specifieke prompt-set.
Spectrale Band Decompositie: Om de "spectrale menging"-hypothese te testen, hebben de auteurs de data opgedeeld in zes spectrale banden (van dominante tot tail-componenten) en deze onafhankelijk geanalyseerd.
Statistische Analyse: Gebruik van Mann-Whitney U-tests op prompt-niveau, met Holm-Bonferroni-correctie, effectgroottes (rank-biserial $r$ ), en analyse van pseudoreplicatie (token-niveau vs. prompt-niveau).

Key Contributions

Het paper levert drie belangrijke bijdragen:

Identificatie van de juiste metriek: Whitening onthult dat peak cluster alignment (max sim) de theoretisch correcte metriek is om hallucinatietypes te scheiden, en niet de entropie ( $H(v)$ ) zoals eerder werd aangenomen. Max sim meet direct de "cluster commitment" die de taxonomie definieert.
Bevestiging van capaciteitsbeperking: Er is bewijs gevonden dat de ononderscheidbaarheid van Type 1 en 2 een fundamentele beperking is van het modelformaat (124M parameters) en geen meetfout door spectrale menging.
Methodologische waarschuwing: Het paper demonstreert de fragiliteit van micro-signalen in bijna-geverzadigde representatieruimten; resultaten die robuust lijken bij kleine prompt-sets (N=15) kunnen volledig instorten bij diversificatie (N=30).

Belangrijkste Resultaten

Scheiding Type 2 vs. Type 3:
- In de gewhitende ruimte scheidt max sim Type 2 (wrong-well) en Type 3 (coverage gap) significant (40% Holm-corrected significantie, $r = -0.31$ ).
- De gemiddelde waarden volgen de voorspelde orde: Type 2 > Type 1 > Type 3. Dit bevestigt dat Type 2 de hoogste cluster-commitment heeft, terwijl Type 3 de laagste heeft.
- De "pseudoreplicatie ratio" is hier omgekeerd (0.3x), wat aangeeft dat het effect echt op prompt-niveau ligt en niet wordt opgeblazen door token-correlatie.
Het Opkomende Signaal voor Type 1 vs. Type 2:
- Voor het eerst verschijnt een richtingstabiel (17/20 runs) maar onderpowered signaal voor de scheiding van Type 1 en 2 via max sim ( $r = +0.21$ , 15% Holm).
- Dit suggereert dat het model wel degelijk een gradiënt van committeert encodeert, maar dat de 124M parameters niet voldoende zijn voor een betrouwbare detectie. Dit leidt tot een voorspelling dat dit gat zal verbreden bij grotere modellen.
De Entropie ( $H(v)$ ) Valse Positief:
- Bij N=15 leek gewhitende entropie de sterkste indicator te zijn. Bij uitbreiding naar N=30 prompts instortte dit signaal volledig.
- Spectrale analyse toonde aan dat dit een artefact was dat beperkt was tot de dominante hoofdcomponenten (PCs 1–16), veroorzaakt door de specifieke selectie van de eerste 15 prompts.
Afwijzing van Spectrale Menging:
- De analyse over alle spectrale banden (inclusief de "tail" en "mid-range") toonde geen enkele band waar Type 1 en 2 significant gescheiden konden worden. Dit weerlegt de hypothese dat het onderscheid ergens "verborgen" zit in een specifiek frequentiebereik.

Betekenis en Implicaties

Nieuwe Detectie-Paradigma: Voor hallucinatiedetectie in contextuele hidden states is whitening een noodzakelijke pre-processing stap. De focus moet verschuiven van entropie naar peak cluster alignment (max sim).
Asymmetrie in Detectie: Het onderscheid tussen "coverage gaps" (Type 3) en "routing errors" (Type 1/2) is fundamenteel asymmetrisch. Coverage gaps zijn een distributie-anomalie die op elke schaal detecteerbaar is, terwijl het onderscheid tussen Type 1 en 2 een kwestie van precisie is die schaalvergroting vereist.
Methodologische Rigor: Het paper waarschuwt dat experimenten in "micro-signal regimes" extreem gevoelig zijn voor prompt-selectie. Resultaten die over meerdere seeds consistent lijken, kunnen toch artefacten zijn van een te kleine prompt-set.
Toekomstperspectief: De bevindingen voorspellen dat grotere taalmodellen (>124M parameters) de scheiding tussen Type 1 en 2 zullen kunnen maken, omdat de "cluster commitment" al aanwezig is, maar te zwak voor detectie in kleinere modellen.

Kortom, dit paper reframed het probleem van hallucinatiedetectie: het is geen kwestie van het vinden van het juiste meetinstrument in de huidige ruimte, maar het transformeren van de ruimte (via whitening) om de theoretisch correcte geometrische eigenschap (cluster commitment) zichtbaar te maken, waarbij de huidige beperkingen puur te maken hebben met modelcapaciteit.

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

🕵️‍♂️ Het Geheim van de Hallucinerende AI: Een Reis door de "Witte Ruimte"

1. De Drie Soorten Fouten (De "Drie Diefen")

2. De Oplossing: "Whitening" (Het Verwittigings-Filter)

3. Het Grote Ontdekking: Kijk naar de "Zekerheid"

4. De Valstrik: Het "15 vs. 30" Experiment

5. Waarom kunnen ze Type 1 en Type 2 nog niet perfect scheiden?

🎯 Samenvatting in Eén Zin

Probleemstelling

Methodologie

Key Contributions

Belangrijkste Resultaten

Betekenis en Implicaties

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models