Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige kunstenaar hebt. Deze kunstenaar kan prachtige verhalen schrijven over foto's die je hem laat zien. Hij noemt de kleuren, de vormen en de sfeer. Maar soms, als hij even niet goed kijkt, begint hij dingen te verzinnen die er niet zijn. Misschien ziet hij een hond op de foto en zegt hij: "En hier is ook een ijsje!" terwijl er helemaal geen ijsje te zien is. Hij doet dit omdat hij in zijn geheugen heeft opgeslagen dat honden en ijsjes vaak samen voorkomen, of omdat hij gewoon te veel luistert naar wat je hem eerder hebt verteld in het gesprek.

In de wereld van kunstmatige intelligentie noemen we dit hallucineren. De AI "hallucineert" objecten die er niet zijn.

Deze paper introduceert een slimme truc, genaamd GACD, om deze dromerige kunstenaar wakker te schudden en hem weer op de feiten te laten focussen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Dromerige" Kunstenaar

De AI heeft twee grote zwaktes:

Te veel luisteren naar woorden: Als je vraagt "Wat zie je?", luistert de AI vaak meer naar wat hij zelf al heeft gezegd of naar wat hij in zijn training heeft gelezen, dan naar de foto zelf. Het is alsof hij droomt dat er een ijsje is, omdat dat in zijn hoofd zit, niet omdat hij het ziet.
Verkeerde associaties: Als hij een stoel ziet, denkt hij direct: "Aha, dan moet er ook een tafel zijn!" (want stoelen en tafels horen vaak bij elkaar). Zelfs als er geen tafel op de foto staat, "hallucineert" hij er een.

2. De Oplossing: De "Spiegelende" Kunstenaar (GACD)

De auteurs hebben een methode bedacht die de AI laat nadenken over zijn eigen gedachten terwijl hij schrijft. Ze noemen dit "Gradient-based Self-Reflection" (Op basis van gradiënten zelfreflectie).

Stel je voor dat de AI een magneet is. De foto's en de woorden zijn allemaal ijzeren spijkertjes die op die magneet worden getrokken.

Hoe werkt het? De AI kijkt heel nauwkeurig naar elke spijker (elk woord of elk stukje van de foto) en meet: "Hoe sterk trek ik dit nu eigenlijk aan?"
De meting: Ze gebruiken wiskunde (gradiënten) om te zien welke stukjes van de foto echt belangrijk zijn voor het antwoord, en welke stukjes alleen maar "in de weg zitten" of verkeerde suggesties doen.

3. De Twee Slimme Trucs

Deze methode doet twee dingen om de AI te corrigeren:

Truc A: De "Valse Vrienden" weghalen (Co-occurrence Bias)
Stel, de AI ziet een stoel. In zijn hoofd denkt hij direct aan een tafel.

De methode zegt: "Wacht even! Laten we kijken naar de foto. Zie je die tafel? Nee? Dan is die 'tafel-gevoel' in je hoofd waarschijnlijk een leugen."
De AI wordt dan aangezet om die valse associatie (de tafel) te onderdrukken en zich te focussen op de echte dingen die hij ziet (de stoel, de vloer, de muur). Het is alsof je de AI een bril geeft die alleen de echte objecten scherp ziet en de droombeelden vervagt.

Truc B: De "Oren" openen voor de foto (Text-Visual Bias)
Soms luistert de AI te veel naar zijn eigen tekst en te weinig naar de foto.

De methode zegt: "Je bent te veel aan het praten! Luister eens naar de foto!"
Het versterkt het signaal van de foto en maakt het luistervermogen naar de tekst iets zwakker. Hierdoor wordt de AI gedwongen om zijn verhaal te baseren op wat hij echt ziet, in plaats van wat hij denkt dat er zou moeten staan.

4. Waarom is dit zo speciaal?

Geen nieuwe school: Je hoeft de AI niet opnieuw te leren (geen "finetuning"). Het is alsof je een slimme student een nieuwe bril geeft in plaats van hem opnieuw naar school te sturen. Het werkt direct met bestaande modellen.
Geen extra hulpmiddelen: Veel andere methoden hebben extra, dure camera's of andere AI's nodig om te controleren of de AI liegt. Deze methode gebruikt alleen de AI zelf en zijn eigen wiskunde.
Het stopt op tijd: Als de AI begint te dromen en de foto verliest, stopt de methode automatisch met het genereren van tekst. Het is alsof een leraar zegt: "Stop, je raakt de feiten kwijt, we zijn klaar."

Samenvatting in één zin

Deze paper biedt een slimme, ingebouwde "controlemechanisme" dat de AI tijdens het schrijven laat checken: "Zie ik dit echt, of denk ik het alleen maar?", waardoor hij minder leugens vertelt en meer waarheid over de foto's schrijft.

Het is een beetje zoals het geven van een spiegel aan een dromerige kunstenaar, zodat hij zijn eigen dromen kan zien en ze kan vervangen door de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Multimodale Large Language Models (MLLMs) presteren uitstekend op diverse taken, maar zijn vatbaar voor hallucinaties: het genereren van tekst die niet correct is verankerd in de visuele invoer. De auteurs identificeren twee fundamentele oorzaken voor dit probleem:

Tekst-Visuele Bias (Text-Visual Bias): Het model vertrouwt overdreven op de tekstuele prompt en eerder gegenereerde output, waardoor het visuele modale aspecten negeert, vooral bij langere sequenties.
Co-occurrence Bias (Samenvoegingsbias): Het model maakt foutieve voorspellingen op basis van statistische correlaties in de trainingsdata. Bijvoorbeeld: als een 'stoel' wordt gezien, voorspelt het model ten onrechte ook een 'tafel', omdat deze objecten vaak samen voorkomen, zelfs als de tafel niet zichtbaar is.

Bestaande oplossingen zijn vaak duur (vereisen hertraining), afhankelijk van externe modellen (zoals detectie- of segmentatienetwerken), of werken te grof (uniforme weging van alle visuele features) zonder inzicht in de onderliggende bias op token-niveau.

Methodologie: GACD

De auteurs stellen Gradient-based Influence-Aware Constrained Decoding (GACD) voor. Dit is een inferentie-methode die hallucinaties tegengaat zonder extra modellen of finetuning. De kern van de methode bestaat uit drie stappen:

Gradient-based Token Influence Estimation:
- Het model gebruikt een eerste-orde Taylor-expansie om de bijdrage van individuele tokens (zowel visuele features als teksttokens) aan de huidige logit-uitvoer te kwantificeren.
- Door de Manhattan-norm van de gradienten te berekenen, wordt de invloed van elke token op de voorspelling gemeten. Dit maakt het mogelijk om sample-specifieke bias te detecteren.
Object-aware Visual Token Grouping:
- Tijdens het genereren van een substantievoornaamwoord (noun), worden visuele tokens opgesplitst in twee groepen:
  - Object-gerelateerd ( $t_o$ ): Tokens die sterk correleren met eerder genoemde objecten.
  - Niet-gerelateerd ( $t_u$ ): Tokens die geen directe link hebben met de eerder genoemde objecten.
- Dit helpt bij het isoleren van visuele informatie die specifiek relevant is voor de huidige voorspelling versus die welke slechts een statistische correlatie vertegenwoordigt.
Anchor-specific Influence-weighted Decoding:
- De methode past een geconstrueerde decoding toe die de logit-uitvoer aanpast via een gewichtsfactor $\alpha_m$ .
- Voor co-occurrence bias: Het onderdrukt de invloed van visuele tokens die sterk correleren met eerder genoemde objecten (de "anker" objecten) en versterkt juist de tokens die niet gerelateerd zijn ( $t_u$ ). Dit forceert het model om te kijken naar visuele bewijslast in plaats van te vertrouwen op statistische aannames.
- Voor tekst-visuele bias: Het herbekijkt de balans tussen tekst en visie door de invloed van visuele tokens te versterken ten opzichte van teksttokens, zodat de output beter verankerd is in de afbeelding.
- Vroegtijdige stop (Early Stopping): Als de visuele invloed onder een bepaalde drempel zakt (vooral bij lange generaties), wordt de output stopgezet om verdere hallucinaties te voorkomen.

Belangrijkste Bijdragen

Principiële Bias-schatting: Een nieuwe methode om onderliggende bias te meten via gradienten van een Taylor-expansie, wat een granulaire aanpassing van token-invloed mogelijk maakt zonder extra training.
Twee Complementaire Modules:
1. Onderdrukking van spurious (schijnbare) visuele features om co-occurrence bias te verminderen.
2. Herbalancering van cross-modale bijdragen om tekst-visuele bias aan te pakken.
Geen Extra Resources: De methode werkt "plug-and-play" op bestaande MLLMs tijdens de inferentie, zonder extra data, externe modellen of kostbare finetuning.

Resultaten

GACD is geëvalueerd op meerdere benchmarks (AMBER, MSCOCO, POPE, LLaVA-QA90) met verschillende basismodellen (LLaVA, InstructBLIP, mPLUG-Owl2, InternVL2).

Hallucinatiemissie: De methode reduceert hallucinaties tot 33% op zinsniveau en 32% op objectniveau. Co-occurrence hallucinaties worden met tot 57% verminderd.
Prestatieverbetering:
- AMBER: Tot 8% stijging in de totale score.
- POPE: 8% stijging in F1-score.
- LLaVA-QA90: Tot 45% verbetering in detailrijkdom en 92% stijging in nauwkeurigheid.
Behoud van Informatie: In tegenstelling tot andere methoden die vaak ten koste gaan van de informatiewaarde (recall), behoudt GACD de recall en verbetert deze zelfs in sommige gevallen. Het model levert dus nauwkeurigere en informatiever antwoorden.
Efficiëntie: De methode voegt slechts een kleine rekentijd toe (vergelijkbaar met andere decoding-methoden) omdat de visuele encoder slechts één keer wordt uitgevoerd en de gradientenberekening efficiënt is.

Significantie

Dit werk is significant omdat het een fundamentele oplossing biedt voor hallucinaties in MLLMs door in te grijpen op het niveau van de token-invloed, in plaats van te vertrouwen op heuristieken of externe tools.

Vertrouwen: Het verhoogt de betrouwbaarheid van MLLMs voor kritieke toepassingen zoals medische beeldanalyse, assistieve technologie voor slechtzienden en educatieve tools.
Generalisatie: Omdat de methode gebaseerd is op gradienten en niet op specifieke dataset-statistieken, generaliseert deze goed over verschillende modelarchitecturen en domeinen.
Toekomstperspectief: Het biedt een kader voor "zelfreflectie" in AI-systemen, waarbij het model zijn eigen bias kan detecteren en corrigeren tijdens het generatieproces, wat een stap is naar meer robuuste en veilige multimodale systemen.

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

1. Het Probleem: De "Dromerige" Kunstenaar

2. De Oplossing: De "Spiegelende" Kunstenaar (GACD)

3. De Twee Slimme Trucs

4. Waarom is dit zo speciaal?

Samenvatting in één zin

Probleemstelling

Methodologie: GACD

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics