AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt die foto's beschrijft. Deze assistent is een LVLM (een groot visueel-taalmodel). Hij kan prachtige zinnen maken, maar hij heeft een groot probleem: hij hallucineert.

Dat betekent dat hij dingen ziet die er niet zijn. Bijvoorbeeld: je laat hem een foto van een fiets zien, en hij zegt: "Op de achtergrond zie je drie paarden en een vliegtuig." Hij is zo creatief dat hij de werkelijkheid uit het oog verliest.

De auteurs van dit paper, AdaIAT, hebben een slimme oplossing bedacht om dit op te lossen, zonder dat de assistent saai of repetitief wordt. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Bril" die te strak zit

Vroeger probeerden onderzoekers dit op te lossen door de assistent een bril op te zetten die alleen naar de foto kijkt. Ze versterkten de aandacht voor de afbeelding (de "image tokens").

Het resultaat: De assistent zag de fiets wel goed, maar hij vergat wat hij al had gezegd.
De bijwerking: Omdat hij zo gefocust was op de foto, begon hij als een parrot: "De fiets staat op straat. De fiets staat op straat. De fiets is oud." Hij herhaalde zich eindeloos en verloor zijn natuurlijke taalgebruik. Het was alsof je iemand dwingt om alleen naar een schilderij te staren; hij vergeet dan hoe hij een gesprek moet voeren.

2. De nieuwe ontdekking: Luister naar wat je al hebt gezegd

De onderzoekers keken goed naar hoe de assistent in zijn hoofd werkt. Ze ontdekten iets verrassends:

Als de assistent iets waar zegt (bijv. "dit is een fiets"), kijkt hij in zijn hoofd ook goed naar wat hij al eerder heeft gezegd (de tekst die hij net produceerde).
Als hij iets verzonnen zegt (bijv. "dit is een paard"), kijkt hij juist niet naar zijn eigen tekst, maar raakt hij de context kwijt.

De conclusie: De tekst die de assistent zelf produceert, bevat eigenlijk de juiste aanwijzingen! Het is alsof de assistent tijdens het praten zelf de wegwijzers neerzet. Als hij naar zijn eigen woorden luistert, blijft hij op de goede weg.

3. De oplossing: AdaIAT (De Slimme Regelaar)

In plaats van alleen naar de foto te kijken, geven ze de assistent een nieuwe instructie: "Luister ook goed naar je eigen verhaal."

Ze noemen dit IAT (Increase Attention to Generated Text).

Hoe het werkt: Ze versterken de aandacht voor de tekst die de assistent net heeft gegenereerd.
Het voordeel: De assistent blijft bij de feiten (geen paarden op de foto) én hij blijft een natuurlijk gesprek voeren zonder te herhalen. Hij gebruikt zijn eigen verhaal als anker.

4. De verfijning: AdaIAT (De Automatische Regelaar)

Eerst dachten ze: "Versterk de aandacht voor de tekst altijd." Maar dat werkt niet perfect; soms is de assistent al goed bezig en hoef je niet in te grijpen. Als je te hard ingrijpt, verstoort je zijn natuurlijke denkproces.

Daarom hebben ze AdaIAT bedacht. Dit is als een slimme thermostaat of een autonome cruise control:

Wanneer ingrijpen? De computer kijkt continu: "Is de assistent de weg kwijt?" (Kijkt hij niet genoeg naar zijn eigen tekst?).
- Ja? Dan schakelt de regelaar in en helpt hij de assistent weer op de goede weg.
- Nee? Dan laat hij de assistent gewoon zijn gang gaan.
Hoe hard ingrijpen? Niet elke "denkrichting" (attention head) in het brein van de assistent is even belangrijk. Sommige delen hebben meer hulp nodig dan andere. AdaIAT past de kracht van de hulp per stukje brein aan.

Samenvattend in één beeld

Stel je de assistent voor als een toerist in een nieuwe stad (de foto):

De oude methode: Je geeft hem een vergrootglas en dwingt hem om alleen naar de gebouwen te kijken. Hij vergeet zijn route en loopt in kringetjes (herhaling).
De nieuwe methode (AdaIAT): Je geeft hem een GPS die zijn eigen route (de tekst die hij al heeft gezegd) volgt.
- Als hij een afslag mist (hallucineert), zegt de GPS: "Je bent de weg kwijt, kijk even naar je routeplan."
- Als hij goed gaat, zegt de GPS niets en laat hij hem vrij rondkijken.

Het resultaat: De assistent beschrijft de foto nauwkeurig, zonder dingen te verzinnen, en praat er ook nog eens vloeiend en gevarieerd bij. Hij is niet alleen accurater, maar ook leuker om naar te luisteren.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Hallucinaties in Large Vision-Language Models (LVLMs)

Large Vision-Language Models (zoals LLaVA, Qwen-VL) combineren visuele encoders met Large Language Models (LLMs) om beelden te beschrijven. Een groot obstakel voor hun toepasbaarheid is hallucinatie: het genereren van tekst die niet overeenkomt met de visuele input (bijv. het beschrijven van objecten die niet in het beeld staan).

Bestaande oplossingen, zoals PAI en HGAI, proberen hallucinaties te verminderen door de aandachtsgewichten (attention weights) voor visuele tokens (beeldinformatie) tijdens de inferentie direct te verhogen. Hoewel dit hallucinaties verlaagt, introduceert het een nieuw probleem:

Repetitieve beschrijvingen: Door de aandacht voor het beeld te versterken, wordt de aandacht voor de reeds gegenereerde tekst (context) onderdrukt.
Verlies van linguïstische coherentie: Het model "vergeet" wat het net heeft gezegd, wat leidt tot herhalingen van zinnen of objecten en een afname in de diversiteit van de taal.

2. Methodologie: Van Observatie naar AdaIAT

De auteurs analyseren de interne aandachtspatronen van LVLMs en komen tot een cruciale observatie die de basis vormt voor hun methode.

A. Kernobservatie

Bij het analyseren van de aandachtsgewichten bleek dat:

Bij reële objecten (die wel in het beeld staan), het model een hogere aandacht toewijst aan de reeds gegenereerde teksttokens ( $T_p$ ) dan bij hallucinaties.
De gegenereerde tekst bevat namelijk instructie-gerelateerde visuele informatie en contextuele kennis die het model al heeft samengevat.
Bestaande methoden die alleen naar het beeld kijken, negeren deze waardevolle context in de gegenereerde tekst.

B. Stap 1: IAT (Increase Attention to Generated Text)

In plaats van de aandacht voor het beeld te verhogen, stelt de auteurs voor de aandacht voor de gegenereerde teksttokens ( $T_p$ ) te verhogen.

Doel: Het benutten van de reeds gegenereerde context om hallucinaties te voorkomen en de linguïstische coherentie te behouden.
Mechanisme: Een simpele versterking van de aandachtsgewichten voor tokens in $T_p$ tijdens de inferentie.
Resultaat: Dit verlaagt hallucinaties zonder de repetitieve beschrijvingen te veroorzaken die bij beeld-gerichte interventies optreden.

C. Stap 2: AdaIAT (Adaptive IAT)

Een simpele versterking (IAT) is nog steeds te grof: het past zich niet aan aan de specifieke behoeften van het model en kan de inherente voorspellingscapaciteit verstoren. Daarom introduceren ze AdaIAT, een adaptieve versie met twee componenten:

Adaptieve Interventietiming (Layer-wise Threshold):
- Niet elke generatiestap vereist interventie. Hallucinaties zijn sporadisch.
- Er wordt een drempelwaarde per laag ( $l$ ) ingesteld, gebaseerd op het verschil in aandacht voor $T_p$ tussen reële en hallucinatoire generaties.
- Interventie vindt alleen plaats als de huidige aandacht voor $T_p$ onder deze drempel daalt (wat wijst op een potentieel hallucinatie-risico). Als de aandacht hoog genoeg is, blijft het model normaal werken.
Adaptieve Versterkingsmagnitude:
- Niet alle "attention heads" (aandachtskoppen) in het model gedragen zich hetzelfde. Sommige koppen zijn gevoeliger voor hallucinaties dan anderen.
- AdaIAT berekent een versterkingsmatrix ( $M$ ) die de verhouding aangeeft tussen de aandacht voor $T_p$ bij reële versus hallucinatoire objecten per kop.
- Koppen met een groot verschil (sterke indicatie van hallucinatie) krijgen een sterkere versterking; koppen met een klein verschil krijgen een mildere versterking. Dit minimaliseert verstoring van het normale redeneerproces.

3. Belangrijkste Bijdragen

Nieuwe Inzicht: Het onthullen dat realistische objectgeneratie correleert met een hogere aandacht voor gegenereerde tekst (en niet alleen voor het beeld), wat suggereert dat contextuele kennis cruciaal is voor het verminderen van hallucinaties.
IAT Methode: Een nieuwe strategie om hallucinaties te verminderen door de aandacht voor de gegenereerde tekst te verhogen, wat leidt tot minder herhalingen.
AdaIAT Framework: Een geavanceerde, adaptieve implementatie die de timing en de sterkte van de interventie dynamisch aanpast per laag en per attention head, waardoor de balans tussen hallucinatie-reductie en linguïstische kwaliteit optimaal wordt.
Uitgebreide Validatie: Demonstratie van superioriteit op meerdere modellen (LLaVA-1.5, Janus-Pro, Qwen2.5-VL) en diverse benchmarks.

4. Resultaten

De methoden zijn getest op verschillende Large Vision-Language Models met de volgende resultaten:

Vermindering van Hallucinaties:
- Op LLaVA-1.5 reduceerde AdaIAT de hallucinatie-ratio (CHAIR-S) met 35,8% en (CHAIR-I) met 37,1% ten opzichte van de standaard Greedy decoding.
- Het presteerde beter dan of gelijk aan state-of-the-art methoden zoals PAI en HGAI.
Behoud van Linguïstische Kwaliteit:
- In tegenstelling tot PAI en HGAI (die de tekstdiversiteit met ~15% verlaagden door herhalingen), behield AdaIAT de Distinct-1 (D1) score (een maat voor woorddiversiteit) op het niveau van de originele Greedy decoding.
- AdaIAT vermijdt repetitieve zinnen en behoudt de rijkdom van de taal.
Voorspellingscapaciteit:
- AdaIAT behaalde de hoogste F1-scores (accuraatheid van beschreven objecten) in vergelijking met andere interventiemethoden, wat aantoont dat het model niet "verkeerd" wordt geleid, maar juist preciezer wordt.
Robuustheid:
- De methode werkt effectief op verschillende decoding-strategieën (Greedy en Sample decoding) en op verschillende modelgroottes (7B en 13B).

5. Betekenis en Impact

Dit paper biedt een paradigmaverschuiving in de aanpak van hallucinaties in multimodale modellen. In plaats van te proberen het model "meer naar het beeld te laten kijken" (wat vaak leidt tot contextverlies), leert het model beter gebruik te maken van zijn eigen gegenereerde context.

De AdaIAT-methode is significant omdat:

Het een efficiënte oplossing biedt zonder extra training of grote rekenkosten tijdens de inferentie.
Het het fundamentele compromis tussen hallucinatie-reductie en taaldiversiteit doorbreekt.
Het een adaptieve, fijngeschaalde aanpak introduceert die respectvol omgaat met de interne dynamiek van het LLM, waardoor het de inherente redeneercapaciteiten behoudt.

Kortom, AdaIAT stelt LVLMs in staat om betrouwbaarder en menselijker te communiceren over beelden, wat essentieel is voor praktische toepassingen zoals medische beeldanalyse, robotica en assistente systemen.