Visual Attention Drifts,but Anchors Hold:Mitigating Hallucination in Multimodal Large Language Models via Cross-Layer Visual Anchors

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom AI soms hallucineert en hoe we het terug naar de werkelijkheid halen

Stel je voor dat een Multimodaal Groot Taalmodel (een slimme AI die zowel plaatjes als tekst begrijpt) als een tourist is die een nieuwe stad bezoekt. De stad is het plaatje, en de tourist moet een verslag schrijven over wat hij ziet.

Helaas maakt deze tourist soms fouten. Hij zegt: "Ik zie een olifant in de tuin," terwijl er alleen maar een hondje is. Dit noemen we hallucineren. De AI verzonnen details die er niet zijn.

De onderzoekers van dit paper hebben ontdekt waarom deze tourist dit doet en hebben een slimme truc bedacht om het op te lossen, zonder dat ze de tourist opnieuw hoeven te leren lopen (geen extra training nodig).

Het Probleem: De "Dronken" Tourist

De onderzoekers keken heel diep in het brein van de AI (de verschillende lagen van het model) en zagen iets vreemds gebeuren:

Het begin (Laag 1): De tourist kijkt naar het plaatje, maar hij is nog een beetje verward. Hij ziet vooral ruis, achtergrondgeluid en onduidelijke vormen. Laten we dit de "Ruis" noemen.
Het midden (Laag 16): De tourist wordt helder! Hij ziet precies waar de hond zit. Hij heeft een vast anker gevonden. Hij weet precies wat hij moet zien.
Het einde (Laag 32): Hier wordt het raar. Terwijl de tourist zijn verslag schrijft, begint hij te afdrijven. Hij vergeet het heldere beeld van het midden en kijkt weer terug naar die verwarde "Ruis" van het begin. Hij denkt: "Oh, die ruis zag eruit als een olifant," en verzonnt die olifant.

De kern van het probleem: De AI begint goed, ziet het juiste beeld in het midden, maar op het moment dat hij het antwoord moet geven, vergeet hij dat en kijkt hij weer naar de verkeerde, vage signalen van het begin.

De Oplossing: CLVA (Cross-Layer Visual Anchors)

De onderzoekers hebben een oplossing bedacht die ze CLVA noemen. Je kunt dit zien als het geven van een twee-delige kompas aan de tourist voordat hij zijn verslag schrijft.

Stel je voor dat de tourist een kaart heeft met twee soorten markeringen:

Het Gouden Anker (Positief): Dit is een heldere stip op de kaart die aangeeft: "Kijk hier! Hier zit de hond." Dit komt uit het midden van het proces, waar de AI het duidelijkst zag.
Het Rode Verbod (Negatief): Dit is een rood kruis op de kaart dat aangeeft: "Kijk hier NIET! Dit is alleen maar ruis en achtergrond." Dit komt uit het begin van het proces, waar de AI nog verward was.

Hoe werkt het?
Wanneer de AI in de laatste lagen (waar hij het antwoord schrijft) begint te afdrijven, grijpt CLVA in:

Het versterkt de blik op het Gouden Anker (de hond).
Het onderdrukt de blik op het Rode Verbod (de ruis).

Het is alsof je de tourist op het laatste moment een hand op zijn schouder legt en zegt: "Kijk niet naar die vage schaduwen, kijk naar die duidelijke hond die je eerder zag!"

Waarom is dit zo cool?

Geen nieuwe school: De meeste methodes om AI slimmer te maken, vereisen dat je de hele AI opnieuw traint met duizenden plaatjes. Dat is duur en tijdrovend. CLVA werkt zonder training. Het is een "plug-and-play" oplossing. Je plakt het erop, en het werkt direct.
Snel en licht: Het kost bijna geen extra rekenkracht. De AI blijft net zo snel als voorheen.
Werkt overal: Het werkt bij verschillende soorten AI-modellen, niet alleen bij één specifiek type.

Samenvatting in één zin

Deze paper laat zien dat AI soms hallucineert omdat ze in de laatste seconde vergeten wat ze echt zagen en terugvallen op verwarde signalen; met CLVA geven we de AI een "anker" om haar blik weer vast te houden op de waarheid, zonder dat we haar opnieuw hoeven te leren.

Het is een slimme manier om de "dronken" tourist weer nuchter te maken, zodat hij eindelijk een eerlijk verslag schrijft van wat hij echt ziet.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Hallucinaties in Multimodale LLM's

Multimodale Large Language Models (MLLM's) zoals LLaVA en Qwen-VL hebben indrukwekkende prestaties geleverd in taken zoals visuele vraag-antwoordsystemen (VQA) en beeldbeschrijving. Een fundamenteel probleem blijft echter bestaan: hallucinaties. Dit is het fenomeen waarbij het model feitelijke details genereert die niet overeenkomen met de inputafbeelding of details verzint die er niet zijn.

Bestaande oplossingen zonder hertraining (training-free) vallen vaak in drie categorieën:

Contrastieve decoding: Verdubbelt de inferentiekosten.
Aandachtsmodificatie: Verhoogt de focus op visuele content, maar riskeert het versterken van hallucinerende elementen.
Laaginjectie: Propageert vroege representaties naar latere lagen, maar mist vaak interpretatie van waarom de nauwkeurigheid daalt.

De auteurs stellen dat de onderliggende oorzaak van hallucinaties in de diepere lagen van het model nog onvoldoende begrepen is.

Methodologie: Cross-Layer Visual Anchors (CLVA)

De kern van het paper is de ontdekking van een specifiek mechanisme dat hallucinaties veroorzaakt, gevolgd door een training-vrije oplossing genaamd CLVA.

1. Analyse van Aandachtsdrift (Attention Drift)

De auteurs onderzochten de evolutie van visuele features door de lagen van een Transformer-model (bijv. LLaVA-1.5-7B). Ze ontdekten twee cruciale patronen:

Visueel Sensitieve vs. Insensitieve Hoofden: Niet alle attention-heads zijn even belangrijk. In intermediere lagen (midden van het model) focussen "visueel sensitieve hoofden" nauwkeurig op relevante semantische gebieden in de afbeelding.
De Drift: In de diepere lagen (nabij de output) verandert dit patroon. De aandacht van de sensitieve hoofden "drijft weg" en convergeert terug naar de verdelingspatronen van de "visueel insensitieve hoofden" uit de eerste lagen.
Conclusie: De hallucinatie ontstaat niet door willekeurige verspreiding, maar door een systematische regressie naar de "ruis" en achtergrondbias van de initiële lagen, waardoor de correcte visuele ankers uit de middenlagen verloren gaan.

2. De CLVA-oplossing

CLVA is een plug-and-play module die deze drift corrigeert zonder het model opnieuw te trainen. Het werkt als volgt:

Identificatie van Ankers:
- Positief Anker ( $M_{pos}$ ): Wordt afgeleid van de concentratie van visueel sensitieve hoofden in een intermediere laag. Dit vertegenwoordigt de "ware" visuele feiten.
- Negatief Anker ( $M_{neg}$ ): Wordt afgeleid van visueel insensitieve hoofden in de eerste laag. Dit vertegenwoordigt de achtergrondruis en bias die hallucinaties veroorzaken.
Maskering en Z-score: De auteurs gebruiken statistische outlier-detectie (Z-scores) om significante gebieden in deze ankers te isoleren en binaire maskers te creëren ( $Z_{pos}$ en $Z_{neg}$ ).
Herverankering van Aandacht (Re-anchoring): Tijdens de inferentie in de diepere lagen wordt de aandachtsmatrix ( $A$ $A$ ) aangepast:
- Aandacht naar gebieden in het positieve masker wordt versterkt.
- Aandacht naar gebieden in het negatieve masker wordt onderdrukt.
- Dit gebeurt via een formule: $\tilde{A}(i, j) = A(i, j) \cdot (1 + \alpha Z_{pos}(j) - \beta Z_{neg}(j))$ , gevolgd door normalisatie.

Belangrijkste Bijdragen

Mechanistische Inzicht: Het paper biedt een diep inzicht in waarom feitelijke nauwkeurigheid afneemt in diepere lagen: door een drift van semantische focus terug naar de ruis van vroege lagen.
CLVA Methode: Een training-vrije, plug-and-play oplossing die visuele ankers uit verschillende lagen combineert om de aandacht te stabiliseren.
Efficiëntie: De methode vereist geen extra inferentie-passen (zoals bij contrastieve decoding) en voegt verwaarloosbare rekentijd en GPU-geheugen toe.
Brede Toepasbaarheid: Werkt effectief op verschillende architecturen (LLaVA, InstructBLIP, Qwen-VL) en met verschillende decodingsstrategieën.

Resultaten

CLVA werd geëvalueerd op meerdere benchmarks en presteerde superieur ten opzichte van state-of-the-art training-vrije methoden (zoals IMCCD, MemVR, ClearSight):

POPE Benchmark (Object Hallucinatie): CLVA boekte significante verbeteringen in zowel nauwkeurigheid (Accuracy) als F1-score. Bijvoorbeeld, bij LLaVA-1.5 steeg de gemiddelde F1-score van 84,30% naar 85,67%.
CHAIR Benchmark (Beeldbeschrijving): Er was een duidelijke daling in hallucinatiepercentages (CHAIRs en CHAIRi). Voor LLaVA-1.5 daalde CHAIRs met 5% en CHAIRi met 2,5%, terwijl de Recall (beschrijvingscapaciteit) bleef stijgen.
MME Benchmark (Algemene Visuele Vaardigheden): CLVA verbeterde de totale scores op hallucinatiesubsets (bestaan, telling, positie, kleur) aanzienlijk zonder de algemene prestaties op andere taken (zoals OCR of redeneren) te schaden.
Efficiëntie: In tegenstelling tot IMCCD, die dubbele inferentie vereist, werkt CLVA met bijna de originele snelheid en vereist het de helft van het video-geheugen.

Significantie

Dit werk is significant omdat het de focus verschuift van het simpelweg "meer aandacht vragen" naar het begrijpen van de tijdsafhankelijke drift van aandacht in Transformer-modellen. Door te erkennen dat diepe lagen terugvallen naar vroege ruis, biedt CLVA een gerichte, mechanistische correctie. Het bewijst dat hallucinaties kunnen worden verminderd door de interne dynamiek van het model te manipuleren tijdens de inferentie, wat leidt tot betrouwbaardere en waarheidsgetrouwere multimodale systemen zonder de kosten van hertraining of zware computereisen.