Enhancing Hallucination Detection through Noise Injection

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we een "zenuwachtige" AI kunnen betrappen op het liegen

Stel je voor dat je een zeer slimme, maar soms overmoedige robot hebt die alles weet. Hij kan verhalen vertellen, wiskundeproblemen oplossen en feiten noemen. Maar soms, als hij het antwoord niet zeker weet, begint hij te hallucineren. Hij verzonnt dan iets dat klinkt als waarheid, maar helemaal fout is. Dit is gevaarlijk, want als je op zijn leugens vertrouwt, kun je in de problemen komen.

De vraag is: Hoe weten we wanneer de robot liegt en wanneer hij de waarheid spreekt?

Het oude probleem: De "Zekerheids-Bluf"

Tot nu toe keken onderzoekers naar hoe de robot antwoorden gaf. Als je hem vraagt: "Hoeveel is 2 + 2?", zegt hij "4". Als je hem vraagt: "Hoeveel is 2 + 2 als ik een toverdrankje drink?", zegt hij misschien "5".

De oude methode was om de robot te laten gokken. Je vroeg hem tien keer hetzelfde, en als hij elke keer iets anders zei, dachten we: "Ah, hij is onzeker, waarschijnlijk liegt hij." Maar dit werkt niet altijd. Soms is de robot zo zelfverzekerd in zijn leugen dat hij tien keer hetzelfde verzonnen antwoord geeft. Dan denken we: "Hij is zeker, dus het is waar," terwijl hij eigenlijk liegt.

Het probleem is dat de robot alleen kijkt naar de woorden die hij kiest (de "data-onzekerheid"), maar niet naar zijn eigen twijfel over wat hij eigenlijk weet (de "model-onzekerheid").

De nieuwe oplossing: De "Zenuwachtige" Test

In dit nieuwe onderzoek van Qualcomm AI Research hebben de wetenschappers een slimme truc bedacht. Ze noemen het Noise Injection (ruis injecteren).

Stel je de robot voor als een orkest. Normaal gesproken spelen alle muzikanten perfect samen. Maar wat als we de muzikanten een beetje zenuwachtig maken?

We geven ze een klein beetje koffie of we laten ze een beetje trillen.
Als ze een bekend liedje spelen (een waar feit), zullen ze, zelfs als ze trillen, nog steeds hetzelfde liedje spelen. Ze zijn stabiel.
Maar als ze een verzonnen liedje moeten spelen (een hallucinatie), dan raken ze in paniek. Omdat ze het niet echt weten, beginnen ze te haperen, te veranderen en verschillende fouten te maken.

De kern van de methode:
In plaats van alleen te kijken naar wat de robot zegt, sturen we een klein beetje "ruis" (verwarring) door zijn hersenen (de interne lagen van het model).

We laten de robot een vraag beantwoorden terwijl zijn interne "zenuwen" een beetje trillen.
We doen dit tien keer.
Resultaat:
- Als het antwoord waar is, blijft het antwoord stabiel, zelfs met de trillingen.
- Als het antwoord een leugen is, begint het antwoord te "smelten" of te veranderen. De robot wordt onzeker omdat zijn verzonnen verhaal niet stevig genoeg is om tegen de trillingen te houden.

Waarom werkt dit?

Het is alsof je een huis bouwt.

Een waar feit is als een huis van bakstenen. Als je er een beetje tegen duwt (de ruis), blijft het staan.
Een hallucinatie is als een huis van kaarten. Als je er een beetje tegen duwt, stort het in elkaar.

Door de robot een beetje te "schudden", zien we direct of zijn antwoord stevig staat of niet.

Wat levert dit op?

De onderzoekers hebben dit getest op verschillende slimme modellen (zoals Llama en Mistral) en verschillende vragen (van wiskunde tot algemene kennis). Ze ontdekten dat deze simpele truc:

Geen extra training nodig heeft: Je hoeft de robot niet opnieuw te leren; je schudt hem gewoon even tijdens het gesprek.
Veel beter detecteert: Het is veel moeilijker voor de robot om een leugen te verbergen als zijn interne werking een beetje verstoord wordt.
Sneller is: Het kost niet veel meer tijd dan normaal praten.

Conclusie

Dit onderzoek laat zien dat we AI niet alleen moeten vertrouwen op wat ze zeggen, maar ook op hoe ze reageren als we ze een beetje "uit hun comfortzone" duwen. Door een beetje chaos (ruis) toe te voegen, kunnen we de leugens van de waarheid onderscheiden, zodat we veiliger met deze slimme machines kunnen omgaan.

Kortom: Als een AI antwoordt terwijl hij een beetje trilt, en het antwoord blijft hetzelfde, is het waarschijnlijk waar. Als het antwoord verandert, is hij waarschijnlijk aan het liegen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLM's) zijn vatbaar voor het genereren van plausibele maar onjuiste antwoorden, een fenomeen dat bekendstaat als "hallucinaties". Het effectief detecteren van deze hallucinaties tijdens de inferentie is cruciaal voor een veilige implementatie.
Bestaande methoden voor hallucinatie-detectie vertrouwen vaak op het meten van onzekerheid door meerdere antwoorden te genereren via standaard sampling (bijv. token-sampling met temperatuur). Deze benadering vangt echter voornamelijk aleatorische onzekerheid (data-onzekerheid) op, die voortkomt uit de inherent probabilistische aard van het model. Ze negeren epistemische onzekerheid (model-onzekerheid), die het gevolg is van het trainen op een beperkte dataset en de onzekerheid over de modelparameters zelf. De auteurs stellen dat standaard sampling suboptimaal is voor het detecteren van hallucinaties omdat het geen rekening houdt met deze modelonzekerheid.

Methodologie

De auteurs introduceren een eenvoudige, trainingsvrije methode om epistemische onzekerheid te benaderen door ruisinjectie (noise injection) toe te passen op de interne representaties van het model tijdens het sampling-proces.

Bayesiaanse Kaderstelling:
- Het paper formuleert hallucinatie-detectie als het schatten van de voorspellingsverdeling $p(y|x, D)$ , waarbij $D$ de trainingsdata is.
- In plaats van te vertrouwen op één model, benaderen ze een surrogaatverdeling over mogelijke modellen $q(\omega)$ , gecentreerd rond de vooraf getrainde gewichten $\bar{\omega}$ .
- De voorspellingsverdeling wordt benaderd door te integreren over deze parameterverdeling: $p(y|x, D) \approx \int p(y|x, \omega) q(\omega) d\omega$ .
Ruisinjectie als Surrogaat:
- Omdat het exact berekenen van de posterior $p(\omega|D)$ onhaalbaar is voor LLM's, wordt $q(\omega)$ benaderd door een uniforme verdeling rond de vooraf getrainde gewichten van een subset van parameters $S$ .
- In de praktijk wordt dit geïmplementeerd door uniforme ruis toe te voegen aan de activaties van de MLP-blokken (Feed-Forward lagen) in de bovenste lagen van de transformer.
- Dit is wiskundig equivalent aan het perturberen van de bias-termen van deze lagen. Het gebruik van activaties in plaats van directe gewichtsmanipulatie maakt parallelle sampling mogelijk binnen één forward pass, wat de rekentijd drastisch verlaagt.
Noise-Enhanced Sampling:
- De methode combineert twee soorten onzekerheid:
  - Epistemisch: Verkregen door ruisinjectie in de hidden layers (sampling uit $q(\omega)$ ).
  - Aleatorisch: Verkregen door standaard token-sampling met een temperatuur $T > 0$ .
- Voor elke vraag worden $K$ samples gegenereerd waarbij voor elke sample dezelfde ruis $\epsilon$ wordt toegepast op de geselecteerde lagen, maar de tokens worden stochastisch gesampled.
- De onzekerheid wordt gemeten via Answer Entropy (entropie van de verdeling van de uiteindelijke antwoorden over de $K$ samples). Een hoge entropie duidt op een grotere kans op hallucinatie.

Belangrijkste Bijdragen

Nieuwe Inzicht: Het paper demonstreert dat hallucinatie-detectie significant verbetert door zowel aleatorische als epistemische onzekerheid te combineren, in plaats van alleen te vertrouwen op aleatorische onzekerheid.
Trainingsvrije Benadering: De methode vereist geen hertraining van het model of het trainen van extra detectiemodellen. Het werkt direct op bestaande, vooraf getrainde LLM's.
Efficiëntie: Door ruis toe te voegen aan de activaties in plaats van gewichten, kunnen meerdere "modellen" (variërende parameterinstellingen) parallel worden gesampled in één forward pass, wat de computatiekosten laag houdt.
Generalisatie: De aanpak is getest op diverse datasetten (wiskundig redeneren, algemene kennis, feitelijke QA) en verschillende modelarchitecturen (Llama-2, Llama-3, Mistral, Phi-3, Gemma).

Resultaten

De auteurs hebben hun methode uitgebreid gevalideerd met de volgende bevindingen:

Verbeterde Detectie: Op alle geteste datasets (GSM8K, CSQA, TriviaQA) en modellen leidde de noise-enhanced sampling tot een hogere AUROC (Area Under the Receiver Operating Characteristic curve) vergeleken met standaard sampling. Bijvoorbeeld, op GSM8K met Llama-2-7B-chat steeg de AUROC van 71.56 naar 76.14.
Complementair Effect: Er is een zwakke correlatie (Pearson 0.58) tussen de onzekerheid gemeten door alleen temperatuur (aleatorisch) en alleen ruisinjectie (epistemisch). Dit bevestigt dat ze complementaire informatie bieden; het combineren van beide levert de beste prestaties op.
Robuustheid: De methode werkt consistent over verschillende onzekerheidsmetrieken (Predictive Entropy, Lexical Similarity, Semantic Entropy, EigenScore, selfCheckGPT-NLI).
Geen Verlies aan Kwaliteit: Het toevoegen van epistemische onzekerheid verbetert de detectie van hallucinaties zonder de generatiekwaliteit (ACC) van het model te verslechteren.
Ablatiestudies:
- De methode werkt op verschillende lagen (laag, midden, boven), maar injectie in de bovenste lagen (20-32 bij Llama-2-7B) is effectief.
- De prestaties verbeteren met het aantal samples ( $K$ ), maar de winst van ruisinjectie blijft consistent over verschillende $K$ .
- De methode is complementair aan input-perturbaties (zoals het shuffelen van in-context learning voorbeelden); het combineren van beide geeft de beste resultaten.

Betekenis

Dit werk biedt een praktische en efficiënte oplossing voor een van de grootste uitdagingen bij het inzetten van LLM's: het betrouwbaar detecteren van hallucinaties. Door een Bayesiaanse interpretatie toe te passen via eenvoudige ruisinjectie, overbrugt de methode de kloof tussen theoretische modelonzekerheid en praktische inferentie. Het stelt ontwikkelaars in staat om hallucinaties te detecteren zonder de kosten van extra training of zware post-hoc modellen, wat essentieel is voor de veilige en betrouwbare integratie van AI-systemen in kritieke toepassingen.

Enhancing Hallucination Detection through Noise Injection

Het oude probleem: De "Zekerheids-Bluf"

De nieuwe oplossing: De "Zenuwachtige" Test

Waarom werkt dit?

Wat levert dit op?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics