MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige kunstenaar hebt die foto's bekijkt en er verhalen over schrijft. Deze kunstenaar is een LVLM (een groot visueel-taalmodel). Hij is geweldig in het begrijpen van wat hij ziet, maar soms "droomt" hij dingen in die er niet zijn. Dit noemen we hallucinaties.

Bijvoorbeeld: Als je hem een foto van een hond toont, zegt hij misschien: "Wat een prachtige hond met een rode hoed!" Terwijl er op de foto helemaal geen hoed zit. Hij heeft de rode hoed "uit zijn duim gezogen" omdat hij dat vaak ziet bij honden in zijn trainingsdata.

De onderzoekers van dit paper (MAP) hebben een oplossing bedacht om deze dromerige kunstenaar te kalmeren en hem weer op de feiten te laten focussen. Hier is hoe ze dat doen, vertaald naar alledaagse taal:

1. Het oude probleem: Kijken door een smalle sleuf

Voorheen keken andere methoden naar de "gedachten" van de kunstenaar op twee manieren, maar ze waren allemaal een beetje beperkt:

Inter-layer: Ze keken alleen naar wat er gebeurde tussen verschillende lagen van denken (zoals het vergelijken van wat hij dacht in stap 1 versus stap 10).
Intra-layer: Ze keken alleen naar wat er binnen één specifieke stap gebeurde (alleen stap 10 zelf).

Het probleem was dat ze de "feitelijke informatie" (de waarheid over de foto) als verspreid zagen. Ze dachten: "Oh, de waarheid zit vast in stap 10 of in de vergelijking tussen stap 1 en 10." Maar ze zagen niet dat de waarheid eigenlijk overal verspreid ligt.

2. Het nieuwe idee: De "Gedachtenkaart" (De 2D-Map)

De onderzoekers zeggen: "Wacht even, laten we niet alleen naar één lijn of één stap kijken. Laten we kijken naar alles wat de kunstenaar heeft gedacht, tegelijkertijd."

Ze stellen je voor om alle gedachten van de kunstenaar te zien als een groot, tweedimensionaal landkaartje (een 2D-kaart).

De horizontale as is de tijd (welke woorden hij al heeft bedacht).
De verticale as is de diepte (hoe diep hij heeft nagedacht).

Op deze kaart hebben ze ontdekt dat de "waarheid" (bijvoorbeeld dat er een bed op de foto ligt) niet op één plekje zit. Het is verspreid als goudklompjes over het hele kaartje. Soms zit het in een diepe laag, soms in een vroege laag, soms bij woordje 5, soms bij woordje 50.

3. De oplossing: MAP (Kaart-gebaseerde Aandacht)

Om de kunstenaar te helpen al die verspreide goudklompjes (de waarheid) te vinden en de dromen (de hallucinaties) te negeren, hebben ze drie slimme tools bedacht:

A. Het Kruis- en Kruispatroon (Layer-Wise Criss-Cross Attention)

Stel je voor dat de kunstenaar op zijn kaartje staat. In plaats van alleen naar links/rechts of alleen naar boven/onder te kijken, laat je hem een kruis trekken.

Hij kijkt naar alle andere gedachten in dezelfde rij (dezelfde stap in het denkproces).
Hij kijkt naar alle andere gedachten in dezelfde kolom (dezelfde diepte in het denkproces).

Door deze "kruisende" blik te werpen, verzamelt hij alle feitelijke hints die ergens op de kaart liggen. Het is alsof hij een net trekt over het hele kaartje om de waarheid op te vissen, in plaats van alleen naar één hoek te staren.

B. Het Samenvoegen van Lokale en Globale Wijsheid (Global-Local Logit Fusion)

Soms is de kunstenaar heel goed in details (lokaal), maar mist hij het grote plaatje. Soms is hij goed in het grote plaatje (globaal), maar vergeet hij details.

Lokaal: Hij kijkt heel nauwkeurig naar de directe omgeving van het woord dat hij nu gaat schrijven.
Globaal: Hij kijkt naar het hele kaartje om de context te begrijpen.

De MAP-methode neemt de mening van beide versies en mixt ze. Het is alsof je twee experts aan tafel zet: één die de details kent en één die het overzicht heeft. Samen komen ze tot een veel betrouwbaarder antwoord dan alleen.

4. Waarom is dit geweldig?

Geen extra training nodig: Ze hoeven de kunstenaar niet opnieuw te leren (wat duur en langzaam is). Ze passen alleen aan hoe hij zijn antwoorden kiest op het moment dat hij spreekt.
Sneller en slimmer: Omdat ze slimme trucs gebruiken om alleen de laatste woorden te "vragen" in plaats van het hele verhaal opnieuw te berekenen, is het zelfs sneller dan sommige oude methoden.
Werkt overal: Of het nu gaat om het tellen van objecten, het beschrijven van een landschap of het beantwoorden van moeilijke vragen, deze methode helpt de kunstenaar om minder te "dromen" en meer naar de foto te kijken.

Kortom:
De onderzoekers hebben ontdekt dat de waarheid in een AI niet op één plek zit, maar verspreid ligt als een puzzel over een groot kaartje. Met hun nieuwe methode (MAP) leren ze de AI om naar dat hele kaartje te kijken en de stukjes waarheid samen te voegen, zodat hij eindelijk stopt met het verzinnen van rode hoeden voor honden die er niet zijn.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Hallucinaties in LVLM's

Grote Visueel-Taalmodellen (LVLM's) hebben indrukwekkende prestaties geleverd in taken zoals visuele vraagbeantwoording (VQA) en visuele grounding. Een fundamenteel probleem blijft echter de neiging tot hallucinaties: het genereren van tekstuele antwoorden die taalkundig correct zijn maar feitelijk onjuist of inconsistent met de visuele input (bijv. het noemen van niet-bestaande objecten of het verkeerd interpreteren van ruimtelijke relaties).

Bestaande oplossingen richten zich vaak op:

Finetuning: Supervised Fine-Tuning (SFT) of Reinforcement Learning (RLHF), wat rekenkundig duur en niet-schaalbaar is.
Decodestrategieën (Training-vrij): Methodes zoals contrastive decoding of attention-amplificatie. Echter, deze methoden opereren meestal binnen een één-dimensionaal paradigma:
- Inter-layer: Vergelijking van informatie tussen verschillende decoderlagen.
- Intra-layer: Verfijning van token-representaties binnen één enkele laag.
- Gaten: Deze benaderingen negeren waardevolle, betrouwbare informatie die verspreid ligt over het volledige 2D-ruimte van verborgen toestanden (zowel over lagen als posities heen).

Methodologie: MAP (Map-Level Attention Processing)

De auteurs introduceren een nieuw perspectief: het interpreteren van alle verborgen toestanden (hidden states) als een tweedimensionale semantische kaart (2D semantic map), waarbij de assen de laagindex en de tokenpositie voorstellen.

De kern van de MAP-methode bestaat uit drie componenten:

1. 2D Semantische Kaart & Logit-Lens Analyse

Door middel van een "logit-lens" analyse (projectie van verborgen toestanden naar woordkansen) tonen de auteurs aan dat feitelijke informatie (faithful information) niet beperkt is tot de laatste laag of specifieke tokens. In plaats daarvan is deze informatie wijdverspreid over de 2D-kaart. Betrouwbare objecten krijgen consistent hogere kansen in deze verspreide gebieden dan gehallucineerde objecten.

2. Layer-Wise Criss-Cross Attention

Om deze verspreide informatie te benutten, introduceert MAP een module die verborgen toestanden verfijnt door informatie te verzamelen uit een "kruislings" (criss-cross) semantisch buurgedeelte.

Mechanisme: Voor een anker-token op positie $t$ in laag $j$ , worden alle tokens in dezelfde rij (dezelfde laag, andere posities) en dezelfde kolom (dezelfde positie, andere lagen) verzameld.
Berekening: Een aggregatiefunctie $\mathcal{F}(\cdot)$ berekent een gewogen som van deze buren op basis van cosine-ähnelijkheid.
Update: De oorspronkelijke token wordt bijgewerkt met een residu van deze geaggregeerde representatie. Dit gebeurt laag-voor-laag (layer-wise), waardoor het model een globaal receptief veld krijgt met lagere rekenkosten dan volledige self-attention (complexiteit daalt van $O(n^2)$ naar $O(n)$ omdat alleen de laatste token als query wordt gebruikt).

3. Global-Local Logit Fusion

Naast het verfijnen van de token-representaties, fuseert MAP de logits op twee niveaus om de robuustheid te vergroten:

Local Logits: Afgeleid van de verfijnde token $\hat{h}_{t,n}$ (na de criss-cross attention).
Global Logits: Afgeleid van een token $\tilde{h}_{t,n}$ dat is verrijkt met globale attention over de volledige 2D-kaart.
Fusie: De uiteindelijke voorspelling is het gemiddelde van de logits van beide representaties. Experimenten tonen aan dat lokale en globale logits complementaire sterke punten hebben (bijv. lokaal beter voor tellingen, globaal beter voor ruimtelijke relaties).

Belangrijkste Bijdragen

Nieuw Paradigma: Het eerste werk dat hallucinaties aanpakt vanuit een 2D semantische kaart in plaats van beperkte 1D (inter- of intra-layer) perspectieven.
Training-vrije Methode: MAP vereist geen extra training of finetuning; het is een plug-and-play decodestrategie die werkt tijdens de inferentie.
Architectuur: De ontwikkeling van de Layer-Wise Criss-Cross Attention en Global-Local Logit Fusion om verspreide feitelijke signalen te aggregeren.
Generalisatie: De methode is getest en werkt effectief op diverse LVLM-architecturen (LLaVA, mPLUG-Owl, InstructBLIP, Qwen, InternVL).

Resultaten

De methode is uitgebreid geëvalueerd op drie benchmarks: POPE (object-hallucinaties), MME (gedetailleerde evaluatie over 10 categorieën) en MMHal-Bench (open-ended generatie).

MME Benchmark: MAP behaalde de hoogste scores op alle geteste modellen. Bijvoorbeeld, op LLaVA-1.5 steeg de score van 1491.6 (baseline) naar 1529.3, wat een significante verbetering is ten opzichte van state-of-the-art methoden zoals DAMO en DCLA.
POPE Benchmark: MAP presteerde consistent beter dan baselines, met name op uitdagende adversarial subsets (bijv. +4.47% verbetering op LLaVA-1.5 t.o.v. VCD).
Open-ended Generatie (MMHal-Bench): MAP leverde de hoogste algehele score (2.4) en toonde een gebalanceerde prestatie over verschillende sub-taken, terwijl andere methoden vaak instabiel waren per taak.
Efficiëntie: Hoewel MAP extra berekeningen uitvoert, is het decodetijd per token (26.69 ms) lager dan die van DAMO (38.69 ms) en vergelijkbaar met andere methoden, dankzij de efficiënte query-strategie.

Betekenis en Conclusie

Het paper "MAP" biedt een fundamentele verschuiving in hoe we naar de interne werking van LVLM's kijken. Het bewijst dat hallucinaties niet alleen kunnen worden opgelost door de laatste laag te corrigeren of tokens binnen één laag te herschikken, maar door holistisch informatie uit het volledige 2D-ruimte van het model te benutten.

De methode is training-vrij, rekenkundig efficiënt en architectonisch onafhankelijk, wat het een zeer praktische oplossing maakt voor het verbeteren van de betrouwbaarheid van multimodale AI-systemen in kritieke domeinen zoals medische beeldvorming en autonoom rijden, waar feitelijke nauwkeurigheid cruciaal is.