Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we een 'hallo-cinatieve' AI hebben genezen met een causale bril

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt. Deze assistent kan foto's bekijken en er prachtige verhalen over vertellen. Maar er is een probleem: soms ziet deze assistent dingen die er niet zijn.

Stel, je laat een foto zien van een pizza op een bord met een mes. De assistent begint te vertellen: "Wat een heerlijke pizza, geserveerd met een mes en een vork."
Er is echter geen vork op de foto. De assistent heeft de vork verzonnen. In de wereld van kunstmatige intelligentie noemen we dit een hallucinatie. Het is alsof de assistent zijn eigen verbeelding laat winnen van de werkelijkheid.

Dit is het probleem dat de auteurs van dit nieuwe onderzoek (COAD) hebben opgelost. Hier is hoe ze dat deden, vertaald naar alledaags taalgebruik.

Het Probleem: De "Vervuilde" Gedachtenstroom

Normaal gesproken werkt zo'n AI als een kettenslag.

De AI ziet een foto.
Ze denkt: "O, ik zie een mes."
Ze schrijft: "Er ligt een mes."
Omdat ze net "mes" heeft geschreven, denkt ze nu: "Ah, als er een mes is, moet er ook wel een vork bij horen!" (Zelfs als er geen vork is).

De AI laat zich dus te veel leiden door wat ze net zelf heeft geschreven, in plaats van alleen naar de foto te kijken. Ze raakt in een spiraal van verzonnen details. Het is alsof je een verhaal begint te vertellen en dan, omdat je het woord "zee" hebt gebruikt, automatisch begint te dromen over "zeehonden", terwijl je eigenlijk alleen over een zwembad sprak.

De Oplossing: COAD (Causale Object-Aware Decoding)

De onderzoekers van Rutgers University en Meta hebben een nieuwe methode bedacht, genaamd COAD. Ze gebruiken een slimme truc uit de wiskunde (causale inferentie) om de AI te dwingen om eerlijk te blijven.

Je kunt COAD zien als een dubbelcheck-systeem met twee hoofdonderdelen:

1. De "Scheidsrechter" (De Objectdetector)

Voordat de AI überhaupt begint met schrijven, laten ze een speciale "scheidsrechter" (een objectdetector) naar de foto kijken. Deze scheidsrechter is niet creatief; hij is puur feitelijk. Hij zegt: "Ik zie een pizza, een bord en een mes. Ik zie géén vork."

In plaats van dat de AI zelf moet raden wat er op de foto staat, krijgt ze deze feitelijke lijst als een stevige basisinstructie. Dit is als het geven van een lijst met ingrediënten aan een kok voordat hij begint te koken. Hij mag niet beginnen met het toevoegen van ingrediënten die niet op de lijst staan.

2. De "Tijdmachine" (Causale Interventie)

Dit is het meest creatieve deel. De onderzoekers gebruiken een wiskundige methode om de AI te vragen: "Stel je voor dat je dit verhaal had geschreven, maar dat de vork er nooit in had gestaan. Wat zou je dan hebben gezegd?"

Normaal gesproken kijkt de AI naar haar eigen tekst en zegt: "Vork!"
Met COAD "onderbreekt" de AI haar eigen gedachtenstroom. Ze blokkeert de link tussen wat ze net heeft geschreven en wat ze gaat verzonnen. Ze dwingt de AI om zich puur te richten op de foto en de lijst van de scheidsrechter.

De Analogie van de Twee AI's:
Stel je voor dat je twee schrijvers hebt:

Schrijver A (De Oude AI): Schrijft snel en creatief, maar verzonnt soms dingen.
Schrijver B (De Nieuwe AI): Heeft de lijst van de scheidsrechter en schrijft alleen wat er echt op de foto staat.

COAD combineert deze twee. Hij luistert naar Schrijver A, maar checkt constant tegen Schrijver B. Als Schrijver A zegt "vork", en Schrijver B zegt "geen vork", dan wint Schrijver B. Het resultaat is een verhaal dat creatief is, maar altijd trouw aan de foto.

Wat is het resultaat?

De onderzoekers hebben hun methode getest op verschillende benchmarks (proefopdrachten).

Minder leugens: De AI verzon veel minder dingen die er niet waren (zoals die vork).
Beter verhaal: Het verhaal was nog steeds net zo goed en vloeiend als voorheen. Ze hebben niet de creativiteit opgeofferd voor de waarheid.
Sneller dan alternatieven: Andere methoden om dit probleem op te lossen waren vaak traag of vereisten enorme databases. COAD werkt snel en slim.

Samenvattend

Dit papier introduceert een manier om Multimodale Large Language Models (MLLMs) – dus AI's die foto's en tekst begrijpen – te "genezen" van hun neiging om dingen te verzinnen.

Ze doen dit door:

Een feitelijke "scheidsrechter" in te schakelen om te zien wat er echt op de foto staat.
De AI te dwingen om te stoppen met het laten beïnvloeden van haar eigen verzonnen tekst.
Een slimme wiskundige formule te gebruiken om de beste, eerlijkste tekst te genereren.

Het is alsof je een dromerige kunstenaar een bril geeft die hem dwingt om alleen te schilderen wat hij echt ziet, en niet wat hij in zijn hoofd ziet. Het resultaat is kunst die zowel mooi als waar is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Object-Hallucinatie in MLLM's

Multimodale Large Language Models (MLLM's) zoals LLaVA en MiniGPT presteren indrukwekkend op visuele taken, maar lijden nog steeds aan het fenomeen van object-hallucinatie. Dit is het genereren van objecten in de tekst die niet aanwezig zijn in de invoerafbeelding (bijv. het noemen van een "vork" in een afbeelding van een pizza met een mes).

Bestaande oplossingen vallen in twee categorieën:

Externe kennis: Het toevoegen van extra trainingsdata of het ophalen van kennis uit externe bronnen. Dit is echter data-intensief en afhankelijk van de kwaliteit van externe bronnen.
Interne aanpassingen: Het verfijnen van trainingsprocedures of het aanpassen van decoding-mechanismen (zoals EOS, VCD, DoLa). Deze methoden modelleren echter vaak niet de causale relatie tussen visuele input en de gegenereerde respons. Hierdoor blijven ze vatbaar voor verstorende effecten (confounding): de model-voorspelling wordt beïnvloed door eerder gegenereerde tekst in plaats van puur door de afbeelding, wat leidt tot een kettingreactie van hallucinaties.

Methodologie: COAD (Causal Object-Aware Decoding)

De auteurs stellen COAD voor, een raamwerk dat causale inferentie toepast tijdens het decodeerproces om hallucinaties te onderdrukken zonder externe kennisbronnen.

1. Causaal Model en Confounding
Het paper modelleert het decodeerproces als een causale graaf:

$S$ : De invoerafbeelding.
$x$ : Eerder gegenereerde tekst.
$z$ : De interne "overtuiging" van het model over welke objecten aanwezig zijn (verborgen toestand).
$y$ : De volgende token.

In standaard MLLM's is er een verstorend pad: de eerder gegenereerde tekst ( $x$ ) beïnvloedt de interne overtuiging ( $z$ ), die op zijn beurt de volgende token ( $y$ ) beïnvloedt. Dit leidt tot spuriële correlaties waar het model objecten "hallucineert" op basis van context in plaats van visuele feiten.

2. De COAD-oplossing
COAD onderbreekt deze causale keten door middel van een interventie (do-operator):

Objectdetector: Een gespecialiseerde detector (bijv. RTMDet) analyseert de afbeelding $S$ en genereert een object-probabiliteitsvector $z$ . Dit zorgt ervoor dat $z$ puur afhankelijk is van $S$ en niet van $x$ .
Twee Modellen:
- Een pre-getraind model ( $M_p$ ) dat werkt op basis van $x$ en $S$ .
- Een gefine-tunede model ( $M_f$ ) dat is getraind om ook de object-vector $z$ als input te accepteren.
Causale Fusie: Het doel is om de voorspelling van een hypothetisch "orakel" ( $y^*$ ) te benaderen dat de waarheid respecteert. Door causale inferentie te combineren met Bayesiaanse principes, wordt de uiteindelijke voorspelling berekend als een gecombineerde verdeling die de spuriële afhankelijkheid van $x$ op $z$ elimineert.

De formule voor de interventie is:
$P(y^*|S, do(x)) = (1 + \alpha) \sum_z P(z|S)P(y_f|S, x, z) - \alpha P(y_p|S, x)$
Hierbij zorgt de term met $P(z|S)$ ervoor dat de object-vooruitzichten puur op de afbeelding zijn gebaseerd, terwijl de substractie van het pre-getrainde model ( $P(y_p)$ ) de bias van de tekst corrigeert.

3. Implementatie

Het model wordt gefine-tuned met object-vectoren als extra input.
Tijdens inferentie wordt de verwachting over mogelijke object-combinaties benaderd (via Monte Carlo sampling of probabilistische benadering) om de finale token te genereren.

Belangrijkste Bijdragen

Formulering als Causale Schatting: Het probleem van betrouwbare responsen wordt geformuleerd als het schatten van onbekende orakel-voorspellingen via een nieuw raamwerk genaamd COAD.
Gerichte Interventie: Een strategie die visuele structuur blootlegt en benut, waardoor het model op een meer trouwe manier over beeldinhoud kan redeneren.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat COAD hallucinaties significant reduceert ten opzichte van state-of-the-art methoden, zonder de algehele kwaliteit van de output te degraderen.

Resultaten

COAD werd getest op verschillende benchmarks (MSCOCO, MMHal-Bench, POPE) en presteerde overtuigend beter dan bestaande methoden zoals DoLa, OPERA, VCD en HALC.

CHAIR (Caption Hallucination Assessment): COAD behaalde de beste scores met een CHAIRI van 3.4 (vs. 5.2 bij de beste concurrent HALC) en een CHAIRS van 5.3. Dit betekent een drastische reductie in het aantal hallucinerende zinnen en objecten.
MMHal-Bench: COAD behaalde het hoogste gemiddelde score (2.52) en de laagste hallucinatiegraad (0.52) over 8 dimensies, inclusief attributen, ruimtelijke relaties en tellen.
POPE (Object Probing): Op de "Adversarial" subset (ontworpen om hallucinaties te provoceren) behaalde COAD de hoogste nauwkeurigheid (79.8) en F1-score (81.2).
Efficiëntie: Hoewel COAD twee modellen moet doorlopen (wat de doorvoer halveert ten opzichte van de basis), is het aanzienlijk sneller dan methoden die herhaaldelijke zoektochten vereisen (zoals OPERA). De overhead van de objectdetector is verwaarloosbaar.

Betekenis en Conclusie

Dit paper introduceert een fundamentele verschuiving in het aanpakken van hallucinaties: van heuristische straffen of externe kennis naar causale interventie in het decodeerproces.

Betrouwbaarheid: Door de afhankelijkheid van eerder gegenereerde tekst te doorbreken en de focus te leggen op visueel bewijs, worden MLLM's betrouwbaarder voor hoog-risico toepassingen (zoals medische beeldanalyse).
Generalisatie: De methode werkt zonder extra data-curatie of externe databases, wat het toepasbaar maakt in domeinen waar dergelijke bronnen ontbreken.
Toekomstperspectief: De auteurs wijzen op de potentie om dit raamwerk uit te breiden naar open-vocabulary detectoren en andere vormen van hallucinaties (zoals attributen of ruimtelijke relaties), hoewel de huidige focus ligt op object-hallucinatie.

Kortom, COAD biedt een wiskundig onderbouwde en empirisch gevalideerde oplossing om de "waanzin" van multimodale modellen te beperken door hun interne causale logica te corrigeren.

Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Het Probleem: De "Vervuilde" Gedachtenstroom

De Oplossing: COAD (Causale Object-Aware Decoding)

1. De "Scheidsrechter" (De Objectdetector)

2. De "Tijdmachine" (Causale Interventie)

Wat is het resultaat?

Samenvattend

Probleemstelling: Object-Hallucinatie in MLLM's

Methodologie: COAD (Causal Object-Aware Decoding)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction