Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Dit paper introduceert CIPHER, een trainingsvrije methode die hallucinaties in Large Vision-Language Models onderdrukt door een subspace voor visueel veroorzaakte hallucinaties te identificeren via een tegenstrijdig dataset en deze vervolgens tijdens de inferentie te projecteren.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige kunstenaar hebt. Deze kunstenaar kan prachtige foto's bekijken en er prachtige verhalen over vertellen. Maar soms, als hij naar een foto van een tafel met fruit kijkt, begint hij te fantaseren en zegt hij: "Oh, en daar ligt ook nog een bos druiven!" terwijl er helemaal geen druiven zijn. In de wereld van kunstmatige intelligentie noemen we dit hallucineren. De AI ziet dingen die er niet zijn.

Deze paper introduceert een slimme nieuwe truc, genaamd CIPHER, om deze dromerige kunstenaar weer op de grond te houden, zonder dat we hem opnieuw hoeven te leren.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De Dromerige Kunstenaar

Grote AI-modellen (zoals LVLMs) zijn geweldig, maar ze hebben een zwak punt: ze vertrouwen soms meer op wat ze in hun hoofd hebben dan op wat ze echt zien. Als ze een foto van een keuken zien, zeggen ze misschien: "Er staat een gasfornuis," terwijl het eigenlijk een elektrisch fornuis is. Ze "hallucineren" objecten.

2. De Oplossing: CIPHER (De "Reële-Reality-Check")

CIPHER is een methode die werkt tijdens het kijken naar de foto, niet door de AI opnieuw te trainen (wat heel duur en tijdrovend is). Het is alsof je een bril opzet die de dromerige gedachten direct wegneemt.

De methode heeft twee stappen: een voorbereiding en de daadwerkelijke actie.

Stap 1: De Voorbereiding (Het "Wat als?" Spel)

Voordat de AI een echte foto gaat bekijken, doen de onderzoekers een experiment:

  • Ze nemen een echte foto en een beschrijving ervan.
  • Ze gebruiken een andere AI (een "diffusiemodel") om de foto te veranderen. Ze laten de AI een foto maken die lijkt op de originele, maar waar ze een paar dingen aan veranderen die er niet horen. Bijvoorbeeld: ze voegen een bos druiven toe aan de fruittafel, terwijl de tekst (de beschrijving) nog steeds zegt: "Geen druiven."
  • Nu hebben ze twee versies: de echte foto en de verzonnen foto.

Ze laten de AI beide foto's bekijken. Omdat de AI bij de verzonnen foto "droomt" over de druiven die er niet zijn, zie je een specifiek patroon in zijn hersenen (de digitale signalen). Dit patroon is de "Hallucinatie-richting". Het is alsof je een kompas hebt dat altijd naar "dromen" wijst.

Ze maken een database van deze richtingen. Dit noemen ze de OHC-25K dataset.

Stap 2: De Actie (Het "Afbreken" van de Droom)

Nu komt de echte test. De AI krijgt een nieuwe foto te zien en moet erover praten.

  • Terwijl de AI een zin vormt, kijkt CIPHER naar de "gedachten" (de interne signalen) van de AI.
  • CIPHER vraagt zich af: "Zit er een stukje in deze gedachte dat lijkt op die 'druiven-droom' die we eerder zagen?"
  • Zo ja? Dan trekt CIPHER dat stukje weg. Het projecteert de gedachten van de AI in een andere richting, precies de richting tegenover de hallucinatie.

Het is alsof je een radio hebt die een beetje ruis (de dromen) heeft. CIPHER is een knop die die specifieke ruisfrequenties direct wegdempt, zodat je alleen nog maar het schone geluid hoort.

Waarom is dit zo slim?

  • Geen nieuwe school: Je hoeft de AI niet opnieuw te leren (geen dure training). Het werkt direct op de bestaande AI.
  • Snel: Het kost geen extra tijd om na te denken. Het gebeurt in één keer, terwijl de AI praat.
  • Specifiek: Veel andere methoden proberen de "taal" van de AI te corrigeren. CIPHER kijkt specifiek naar de visuele kant. Het zegt: "Je ziet iets dat er niet is, en dat is de oorzaak van je fout."

Een Metafoor: De Gids in de Berg

Stel je voor dat de AI een gids is die je door een berglandschap leidt. Soms wijst hij naar een rots en zegt: "Kijk, daar is een beer!" terwijl het alleen een rots is.

  • Oude methoden: Ze zeggen tegen de gids: "Leer beter kijken!" (duur en langzaam) of ze laten een tweede gids de tekst van de eerste gids nakijken en corrigeren (traag).
  • CIPHER: Ze geven de gids een speciaal kompas. Zodra de gids begint te wijzen naar een "droom-beer", trilt het kompas. De gids voelt dit en zegt direct: "Oh, wacht, dat is geen beer, dat is een rots." Hij corrigeert zichzelf direct, terwijl hij nog loopt.

Conclusie

CIPHER is een slimme, snelle en goedkope manier om AI's te helpen om eerlijker te zijn over wat ze werkelijk zien. Het maakt ze minder dromerig en meer betrouwbaar, zonder dat we ze hoeven te "herprogrammeren". Het is een bril die de AI helpt om de wereld te zien zoals hij echt is, niet zoals hij denkt dat hij is.