Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige kunstenaar hebt. Deze kunstenaar kan prachtige foto's bekijken en er prachtige verhalen over vertellen. Maar soms, als hij naar een foto van een tafel met fruit kijkt, begint hij te fantaseren en zegt hij: "Oh, en daar ligt ook nog een bos druiven!" terwijl er helemaal geen druiven zijn. In de wereld van kunstmatige intelligentie noemen we dit hallucineren. De AI ziet dingen die er niet zijn.

Deze paper introduceert een slimme nieuwe truc, genaamd CIPHER, om deze dromerige kunstenaar weer op de grond te houden, zonder dat we hem opnieuw hoeven te leren.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De Dromerige Kunstenaar

Grote AI-modellen (zoals LVLMs) zijn geweldig, maar ze hebben een zwak punt: ze vertrouwen soms meer op wat ze in hun hoofd hebben dan op wat ze echt zien. Als ze een foto van een keuken zien, zeggen ze misschien: "Er staat een gasfornuis," terwijl het eigenlijk een elektrisch fornuis is. Ze "hallucineren" objecten.

2. De Oplossing: CIPHER (De "Reële-Reality-Check")

CIPHER is een methode die werkt tijdens het kijken naar de foto, niet door de AI opnieuw te trainen (wat heel duur en tijdrovend is). Het is alsof je een bril opzet die de dromerige gedachten direct wegneemt.

De methode heeft twee stappen: een voorbereiding en de daadwerkelijke actie.

Stap 1: De Voorbereiding (Het "Wat als?" Spel)

Voordat de AI een echte foto gaat bekijken, doen de onderzoekers een experiment:

Ze nemen een echte foto en een beschrijving ervan.
Ze gebruiken een andere AI (een "diffusiemodel") om de foto te veranderen. Ze laten de AI een foto maken die lijkt op de originele, maar waar ze een paar dingen aan veranderen die er niet horen. Bijvoorbeeld: ze voegen een bos druiven toe aan de fruittafel, terwijl de tekst (de beschrijving) nog steeds zegt: "Geen druiven."
Nu hebben ze twee versies: de echte foto en de verzonnen foto.

Ze laten de AI beide foto's bekijken. Omdat de AI bij de verzonnen foto "droomt" over de druiven die er niet zijn, zie je een specifiek patroon in zijn hersenen (de digitale signalen). Dit patroon is de "Hallucinatie-richting". Het is alsof je een kompas hebt dat altijd naar "dromen" wijst.

Ze maken een database van deze richtingen. Dit noemen ze de OHC-25K dataset.

Stap 2: De Actie (Het "Afbreken" van de Droom)

Nu komt de echte test. De AI krijgt een nieuwe foto te zien en moet erover praten.

Terwijl de AI een zin vormt, kijkt CIPHER naar de "gedachten" (de interne signalen) van de AI.
CIPHER vraagt zich af: "Zit er een stukje in deze gedachte dat lijkt op die 'druiven-droom' die we eerder zagen?"
Zo ja? Dan trekt CIPHER dat stukje weg. Het projecteert de gedachten van de AI in een andere richting, precies de richting tegenover de hallucinatie.

Het is alsof je een radio hebt die een beetje ruis (de dromen) heeft. CIPHER is een knop die die specifieke ruisfrequenties direct wegdempt, zodat je alleen nog maar het schone geluid hoort.

Waarom is dit zo slim?

Geen nieuwe school: Je hoeft de AI niet opnieuw te leren (geen dure training). Het werkt direct op de bestaande AI.
Snel: Het kost geen extra tijd om na te denken. Het gebeurt in één keer, terwijl de AI praat.
Specifiek: Veel andere methoden proberen de "taal" van de AI te corrigeren. CIPHER kijkt specifiek naar de visuele kant. Het zegt: "Je ziet iets dat er niet is, en dat is de oorzaak van je fout."

Een Metafoor: De Gids in de Berg

Stel je voor dat de AI een gids is die je door een berglandschap leidt. Soms wijst hij naar een rots en zegt: "Kijk, daar is een beer!" terwijl het alleen een rots is.

Oude methoden: Ze zeggen tegen de gids: "Leer beter kijken!" (duur en langzaam) of ze laten een tweede gids de tekst van de eerste gids nakijken en corrigeren (traag).
CIPHER: Ze geven de gids een speciaal kompas. Zodra de gids begint te wijzen naar een "droom-beer", trilt het kompas. De gids voelt dit en zegt direct: "Oh, wacht, dat is geen beer, dat is een rots." Hij corrigeert zichzelf direct, terwijl hij nog loopt.

Conclusie

CIPHER is een slimme, snelle en goedkope manier om AI's te helpen om eerlijker te zijn over wat ze werkelijk zien. Het maakt ze minder dromerig en meer betrouwbaar, zonder dat we ze hoeven te "herprogrammeren". Het is een bril die de AI helpt om de wereld te zien zoals hij echt is, niet zoals hij denkt dat hij is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression" (CIPHER), geschreven in het Nederlands.

Probleemstelling

Grote Vision-Language Modellen (LVLM's), zoals LLaVA en MiniGPT-4, presteren uitstekend in multimodale taken, maar lijden vaak aan hallucinaties. Dit zijn ontrouwe outputten die objecten, attributen of scènes beschrijven die niet aanwezig zijn in de inputafbeelding.
Bestaande oplossingen voor het verminderen van hallucinaties vallen voornamelijk in drie categorieën:

Trainingsgebaseerde methoden: Vereisen dure annotaties, herscholing of architecturale wijzigingen.
Post-processing: Gebruikt externe tools om fouten na generatie te detecteren en te corrigeren.
Test-tijd methoden (Inference-time): Interveniëren tijdens het generatieproces zonder het model te herscholen.

De meeste huidige test-tijd methoden richten zich echter op hallucinaties die voortkomen uit de tekstuele component (de taalmodelkant). Hallucinaties die specifiek voortkomen uit de visuele modality (waar het model dingen "ziet" die er niet zijn) blijven onderbelicht. Bestaande visuele methoden zijn vaak inefficiënt (vereisen meerdere forward passes) of richten zich niet specifiek op de onderliggende representaties van visuele hallucinaties.

Methodologie: CIPHER

De auteurs introduceren CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal). Dit is een training-vrije methode die hallucinaties onderdrukt door ingrepen op feature-niveau tijdens de inferentie. De methode werkt in twee fasen:

1. Offline Fase: Constructie van OHC-25K en Subspace Schatting

Het doel is om een "hallucinatie-subspace" te identificeren in de feature-ruimte van het LVLM.

Data Generatie (OHC-25K): De auteurs creëren een dataset van 25.000 tegenstrijdige (counterfactual) afbeeldingen.
- Ze nemen 5.000 originele afbeelding-tekstparen uit MSCOCO.
- Een GPT-model genereert een "gehallucineerde" tekstbeschrijving ( $\tilde{C}$ ) die objecten bevat die niet in de originele afbeelding zitten.
- Een Diffusiemodel (Stable Diffusion) wordt gebruikt om de originele afbeelding ( $I$ ) te bewerken. Eerst wordt er ruis toegevoegd (forward diffusion), waarna het model de afbeelding opnieuw genereert ( $\tilde{I}$ ) onder de voorwaarde van de gehallucineerde tekst $\tilde{C}$ .
- Het resultaat is een afbeelding die visueel plausibel is maar semantisch in strijd is met de originele ground-truth tekst (bijv. druiven toevoegen aan een tafel waar ze niet waren).
Extractie van Hallucinatie Richting:
- Zowel de originele paren $(I, C)$ als de gegenereerde paren $(\tilde{I}, C)$ worden door het LVLM gevoerd.
- De hidden states (verborgen toestanden) worden vergeleken. Het verschil $\delta = \tilde{h} - h$ tussen de representatie van de gehallucineerde afbeelding en de originele afbeelding (beide met dezelfde tekst $C$ ) captureert de richting van de visuele hallucinatie.
- Door Singular Value Decomposition (SVD) toe te passen op deze verschilvectoren, wordt een laag-rang subspace geïdentificeerd die de dominante richtingen van visuele hallucinaties karakteriseert. Deze vectoren vormen de "Hallucination Basis Bank".

2. Inferentie Fase: Projectie en Nullificatie

Tijdens het genereren van tekst voor een nieuwe testafbeelding:

De hidden states van het model worden geanalyseerd op geselecteerde lagen.
De componenten van deze hidden states die overeenkomen met de eerder geïdentificeerde hallucinatie-subspace worden geprojecteerd naar het orthogonale complement (het "nulruimte" van de hallucinatie).
Formeel: $h_{clean} = P \cdot h_{test}$ , waarbij $P$ de projectiematrix is die de hallucinatie-dimensies verwijdert.
Dit gebeurt in één enkele forward pass, zonder het aanpassen van modelgewichten.

Belangrijkste Bijdragen

CIPHER Framework: Een training-vrije, test-tijd methode die specifiek hallucinaties uit de visuele modality aanpakt, in tegenstelling tot eerdere werk dat zich richtte op tekstuele hallucinaties.
Diffusion-Guided Perturbations: Een innovatieve procedure om een dataset van 25.000 tegenstrijdige afbeeldingen (OHC-25K) te genereren. Dit stelt de auteurs in staat om een nauwkeurige hallucinatie-subspace te schatten door visuele perturbaties te combineren met onveranderde tekst.
Efficiënte Projectie: Het verminderen van hallucinaties door projectie op de orthogonale complement van de subspace, wat geen extra inferentie-overhead (zoals meerdere forward passes) vereist.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat de methode hallucinaties significant reduceert zonder de kwaliteit van de generatie (fluency en nauwkeurigheid) te verminderen.

Resultaten

CIPHER werd geëvalueerd op meerdere benchmarks (CHAIR, Offline POPE, MMHal-Bench, LLaVA-Bench) met verschillende LVLM's (LLaVA-1.5, MiniGPT-4, mPLUG-Owl2).

CHAIR Benchmark (Object Hallucinaties):
- CIPHER bereikte de laagste hallucinatiepercentages (CHAIRS) voor alle geteste modellen.
- Voor LLaVA-1.5 daalde CHAIRS van 20,40% (baseline) naar 13,05%, een verbetering ten opzichte van de beste concurrent (Nullu) van 2,15%.
- Voor MiniGPT-4 daalde CHAIRS van 32,40% naar 18,48%.
OPOPE (Offline POPE):
- CIPHER behaalde de hoogste scores voor Accuracy, Precision en F-score, wat aantoont dat het niet alleen hallucinaties verwijdert, maar ook relevante inhoud behoudt.
Efficiëntie:
- CIPHER heeft dezelfde doorvoer (throughput) als standaard greedy decoding (0,70 items/s), terwijl methoden zoals OPERA en HALC aanzienlijke vertraging veroorzaken door meerdere forward passes.
Kwaliteit:
- De BLEU-scores (taalfluency) bleven gelijk of verbeterden licht, wat aangeeft dat de methode de generatierijkdom niet schaadt.
- Kwalitatieve analyses (LLaVA-Bench) tonen dat CIPHER fouten zoals het beschrijven van niet-bestaande objecten (bijv. een handtas of geparkeerde taxi) corrigeert, terwijl de beschrijving van de werkelijke scène behouden blijft.

Betekenis en Conclusie

CIPHER is een doorbraak in het beheersen van visuele hallucinaties in LVLM's. De kerninzicht is dat hallucinaties een gestructureerd, laag-rang patroon in de feature-ruimte van het model vertonen dat specifiek kan worden geïsoleerd door het vergelijken van echte en kunstmatig gegenereerde (diffusie-gebaseerde) tegenstrijdige afbeeldingen.

De belangrijkste implicaties zijn:

Training-vrij: Het elimineert de noodzaak van kostbare herscholing of grote datasets voor fine-tuning.
Efficiënt: Het voegt geen extra rekenkosten toe tijdens de inferentie, wat het zeer geschikt maakt voor real-time toepassingen.
Specifiek voor Visie: Het vult een belangrijke leemte in de literatuur door zich specifiek te richten op visueel geïnduceerde fouten, die vaak moeilijker op te lossen zijn dan tekstuele fouten.

De auteurs concluderen dat het gebruik van counterfactual visual perturbations een krachtige strategie is om de betrouwbaarheid (faithfulness) van multimodale modellen te verbeteren zonder hun generatieve capaciteiten te beperken.