Enhancing Hallucination Detection through Noise Injection

Deze paper introduceert een trainingsvrije methode die hallucinatiedetectie bij grote taalmodellen aanzienlijk verbetert door tijdens het bemonsteren ruis toe te voegen aan modelparameters of activaties om Bayesiaanse onzekerheid beter te benutten dan standaard token-bemonstering.

Litian Liu, Reza Pourreza, Sunny Panchal, Apratim Bhattacharyya, Yubing Jian, Yao Qin, Roland Memisevic

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we een "zenuwachtige" AI kunnen betrappen op het liegen

Stel je voor dat je een zeer slimme, maar soms overmoedige robot hebt die alles weet. Hij kan verhalen vertellen, wiskundeproblemen oplossen en feiten noemen. Maar soms, als hij het antwoord niet zeker weet, begint hij te hallucineren. Hij verzonnt dan iets dat klinkt als waarheid, maar helemaal fout is. Dit is gevaarlijk, want als je op zijn leugens vertrouwt, kun je in de problemen komen.

De vraag is: Hoe weten we wanneer de robot liegt en wanneer hij de waarheid spreekt?

Het oude probleem: De "Zekerheids-Bluf"

Tot nu toe keken onderzoekers naar hoe de robot antwoorden gaf. Als je hem vraagt: "Hoeveel is 2 + 2?", zegt hij "4". Als je hem vraagt: "Hoeveel is 2 + 2 als ik een toverdrankje drink?", zegt hij misschien "5".

De oude methode was om de robot te laten gokken. Je vroeg hem tien keer hetzelfde, en als hij elke keer iets anders zei, dachten we: "Ah, hij is onzeker, waarschijnlijk liegt hij." Maar dit werkt niet altijd. Soms is de robot zo zelfverzekerd in zijn leugen dat hij tien keer hetzelfde verzonnen antwoord geeft. Dan denken we: "Hij is zeker, dus het is waar," terwijl hij eigenlijk liegt.

Het probleem is dat de robot alleen kijkt naar de woorden die hij kiest (de "data-onzekerheid"), maar niet naar zijn eigen twijfel over wat hij eigenlijk weet (de "model-onzekerheid").

De nieuwe oplossing: De "Zenuwachtige" Test

In dit nieuwe onderzoek van Qualcomm AI Research hebben de wetenschappers een slimme truc bedacht. Ze noemen het Noise Injection (ruis injecteren).

Stel je de robot voor als een orkest. Normaal gesproken spelen alle muzikanten perfect samen. Maar wat als we de muzikanten een beetje zenuwachtig maken?

  • We geven ze een klein beetje koffie of we laten ze een beetje trillen.
  • Als ze een bekend liedje spelen (een waar feit), zullen ze, zelfs als ze trillen, nog steeds hetzelfde liedje spelen. Ze zijn stabiel.
  • Maar als ze een verzonnen liedje moeten spelen (een hallucinatie), dan raken ze in paniek. Omdat ze het niet echt weten, beginnen ze te haperen, te veranderen en verschillende fouten te maken.

De kern van de methode:
In plaats van alleen te kijken naar wat de robot zegt, sturen we een klein beetje "ruis" (verwarring) door zijn hersenen (de interne lagen van het model).

  1. We laten de robot een vraag beantwoorden terwijl zijn interne "zenuwen" een beetje trillen.
  2. We doen dit tien keer.
  3. Resultaat:
    • Als het antwoord waar is, blijft het antwoord stabiel, zelfs met de trillingen.
    • Als het antwoord een leugen is, begint het antwoord te "smelten" of te veranderen. De robot wordt onzeker omdat zijn verzonnen verhaal niet stevig genoeg is om tegen de trillingen te houden.

Waarom werkt dit?

Het is alsof je een huis bouwt.

  • Een waar feit is als een huis van bakstenen. Als je er een beetje tegen duwt (de ruis), blijft het staan.
  • Een hallucinatie is als een huis van kaarten. Als je er een beetje tegen duwt, stort het in elkaar.

Door de robot een beetje te "schudden", zien we direct of zijn antwoord stevig staat of niet.

Wat levert dit op?

De onderzoekers hebben dit getest op verschillende slimme modellen (zoals Llama en Mistral) en verschillende vragen (van wiskunde tot algemene kennis). Ze ontdekten dat deze simpele truc:

  1. Geen extra training nodig heeft: Je hoeft de robot niet opnieuw te leren; je schudt hem gewoon even tijdens het gesprek.
  2. Veel beter detecteert: Het is veel moeilijker voor de robot om een leugen te verbergen als zijn interne werking een beetje verstoord wordt.
  3. Sneller is: Het kost niet veel meer tijd dan normaal praten.

Conclusie

Dit onderzoek laat zien dat we AI niet alleen moeten vertrouwen op wat ze zeggen, maar ook op hoe ze reageren als we ze een beetje "uit hun comfortzone" duwen. Door een beetje chaos (ruis) toe te voegen, kunnen we de leugens van de waarheid onderscheiden, zodat we veiliger met deze slimme machines kunnen omgaan.

Kortom: Als een AI antwoordt terwijl hij een beetje trilt, en het antwoord blijft hetzelfde, is het waarschijnlijk waar. Als het antwoord verandert, is hij waarschijnlijk aan het liegen.