Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

De "Zelf-Correctie" van AI: Hoe een slimme AI haar eigen dromen leert onderscheiden van de werkelijkheid

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt. Deze assistent kan foto's bekijken en er verhalen over vertellen. Soms is hij echter zo creatief dat hij dingen ziet die er niet zijn. Hij ziet een hond op een foto en zegt: "Kijk, daar zit een gouden retriever," terwijl het eigenlijk een kat is. In de wereld van kunstmatige intelligentie noemen we dit hallucineren.

Deze paper (onderzoek) gaat over een nieuw trucje om deze dromerige assistent te helpen zijn ogen open te houden.

Het Probleem: De "Oude" Trucjes Werken Niet Meer

Vroeger wisten onderzoekers precies waarom deze AI's droomden. Ze dachten: "Ah, de AI leest te veel naar zijn eigen woordenboek en kijkt niet goed genoeg naar de foto." Of: "De AI begint goed, maar in de diepere lagen van zijn hersenen wordt hij verward en vergeet hij wat hij zag."

Op basis daarvan maakten ze speciale "remmen" om dit te voorkomen. Maar nu zijn de AI's (zoals de nieuwe Qwen2.5-VL) zo slim en goed getraind geworden, dat deze oude patronen verdwenen zijn. De AI droomt niet meer op de oude, voorspelbare manieren. Als je die oude remmen nu probeert te gebruiken, werkt het反而 slecht: de AI wordt verward en maakt meer fouten. Het is alsof je probeert een Formule 1-auto te remmen met de remmen van een oude fiets; het werkt niet en kan zelfs gevaarlijk zijn.

De Oplossing: ICLA (De "Interne Spiegel")

De schrijvers van dit paper hebben een nieuwe oplossing bedacht, genaamd ICLA.

Stel je voor dat de AI een lange trein is met veel wagons (lagen). In een normale trein kijkt elke wagon alleen naar de wagon die er direct voor zit. Maar bij ICLA krijgt elke wagon een telefoon waarmee hij direct kan bellen met alle wagons die er eerder in de trein hebben gezeten.

De Telefoon (Layer Attention): Terwijl de AI een zin schrijft, vraagt elke stap (wagon) aan de vorige stappen: "Heb jij hier iets belangrijks gezien dat ik nu misschien ben vergeten?"
De Diagonale Regel: Om te voorkomen dat de AI in de war raakt door te veel informatie door elkaar te halen, is er een strenge regel: "Je mag alleen bellen met de zelfde persoon in de vorige wagons." Als wagon 5 naar de 10e persoon in de trein kijkt, mag hij alleen kijken naar de 10e persoon in wagon 4, 3, 2, etc. Hij mag niet kijken naar de 11e persoon. Dit houdt de boel geordend.
Zelf-Correctie: Als de AI halverwege een zin denkt: "Oh, ik denk dat het een hond is," maar de "telefoon" roept vanuit een eerdere wagon: "Wacht, ik zag duidelijk een kat," dan past de AI zijn antwoord direct aan. Het is een continue, interne check-up.

Waarom is dit zo slim?

Geen nieuwe hersenen nodig: Ze hoeven de hele AI niet opnieuw te trainen. Ze voegen slechts een heel klein beetje extra "software" toe (zoals een klein extra geheugenblok). Het is alsof je een slimme bril opzet in plaats van een nieuwe hersenoperatie te ondergaan.
Werkt voor iedereen: Of het nu een oudere AI is (LLaVA) of een supermoderne AI (Qwen), dit trucje werkt. Het is flexibel genoeg om zich aan te passen aan hoe de AI op dat moment denkt.
Resultaat: De AI kijkt veel beter naar de foto. In tests zag de AI bijvoorbeeld een foto van Elon Musk met een hond, maar de hond had een raar lichaam. De oude AI dacht: "Dat is een Shiba Inu." De nieuwe AI met ICLA dacht: "Nee, dat is Elon Musk, en hij houdt iets raars vast."

Conclusie

Kortom: AI's worden steeds slimmer, maar ze dromen ook op steeds vreemdere manieren. De oude manieren om ze te corrigeren werken niet meer. Deze nieuwe methode (ICLA) geeft de AI een manier om zichzelf continu te controleren door terug te kijken naar wat hij eerder heeft gezien, zonder dat hij daarvoor een nieuwe "hersenen" nodig heeft. Het is een slimme manier om te zorgen dat de AI blijft kijken naar wat er echt op de foto staat, in plaats van te dromen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: De Evolutie van Hallucinaties in LVLM's

Hoewel Large Vision-Language Models (LVLM's) aanzienlijke vooruitgang hebben geboekt, blijft hallucinatie (het genereren van tekst die niet gebaseerd is op de visuele input) een hardnekkig probleem. Eerdere studies identificeerden specifieke patronen die tot hallucinaties leidden, zoals:

Modale onbalans: Een te grote afhankelijkheid van taalkundige priors ten koste van visuele bewijslast.
"Overthinking": Het fenomeen waarbij een model correcte informatie in vroege lagen vangt, maar deze in diepere lagen onderdrukt of overschrijft, wat leidt tot hallucinaties tijdens de tekstgeneratie.

De auteurs stellen echter vast dat deze patronen en de bijbehorende mitigatiemethoden (zoals contrastive decoding of accumulative decoding) niet langer effectief zijn voor de nieuwste, geavanceerde LVLM's (zoals Qwen2.5-VL-7B). Bij deze modellen zijn de eerdere hallucinatie-trends niet meer consistent waarneembaar, en leiden bestaande methoden vaak tot een significante prestatiedaling in plaats van verbetering. Er is dus behoefte aan een adaptieve oplossing die niet afhankelijk is van specifieke, vooraf bekende hallucinatiepatronen.

Methodologie: ICLA (Internal self-Correction via Layer Attention)

Het paper introduceert ICLA, een mechanisme voor interne zelfcorrectie dat direct werkt op de verborgen staten (hidden states) tijdens de generatie. Het doel is om het model in staat te stellen zichzelf iteratief te verfijnen zonder externe correctiesignalen.

Kerncomponenten van ICLA:

Cross-Layer Attention (CLA):
- In plaats van alleen binnen een laag te kijken, kan elke laag $l$ informatie ophalen uit alle voorgaande lagen ( $k_0$ tot $l$ ).
- De verborgen staat van de huidige laag fungeert als query, terwijl de verborgen staten van alle voorgaande lagen dienen als keys en values.
- Dit stelt het model in staat om contextueel relevante informatie uit eerdere verwerkingsstappen te "terughalen" en de huidige representatie te corrigeren.
Diagonale Maskering (Diagonal Attention Mask):
- Om informatielekken en kruisvervuiling tussen verschillende token-posities te voorkomen, wordt een diagonaal masker toegepast.
- Een token op positie $i$ in laag $l$ kan alleen kijken naar de verborgen staten van positie $i$ in alle voorgaande lagen. Dit behoudt de sequentiële integriteit.
Efficiëntie en Implementatie:
- De CLA-module deelt parameters over het hele netwerk om het aantal extra parameters minimaal te houden.
- De berekening vindt plaats in een latente ruimte (via een bottleneck met verhouding $r$ ), wat de rekentijd verlaagt.
- De output van de attention wordt genormaliseerd (RMSNorm) en als een residual toegevoegd aan de huidige verborgen staat om deze te verfijnen.

Belangrijkste Bijdragen

Inzicht in de staat van de techniek: De auteurs tonen aan dat eerdere hallucinatiepatronen en mitigatiestrategieën niet meer generaliseren naar geavanceerde LVLM's, wat leidt tot prestatieverlies bij toepassing op modellen zoals Qwen2.5-VL-7B.
Ontwikkeling van ICLA: Een nieuw, schaalbaar mechanisme dat gebruikmaakt van laag-attention voor adaptieve zelfcorrectie, onafhankelijk van specifieke hallucinatiepatronen.
Efficiëntie: Het mechanisme vereist slechts een zeer klein aantal extra parameters (0,2M voor LLaVA1.5-7B en 0,1M voor Qwen2.5-VL-7B) en heeft een verwaarloosbare impact op de inferentiële rekentijd (<1%).

Resultaten

De methode werd getest op twee modellen: LLaVA1.5-7B en het geavanceerdere Qwen2.5-VL-7B, met benchmarks zoals MME, LLaVA-Bench, MMMU en POPE.

Prestaties op LLaVA1.5-7B: ICLA overtreft consistent alle bestaande baselines (zoals DoLA, VCD, DeCo, DAMO) op alle benchmarks. Bijvoorbeeld, op de MME-benchmark behaalde het een score van 1499 (tegenover 1484 voor het basismodel).
Prestaties op Qwen2.5-VL-7B: Dit is het meest opvallende resultaat. Waar de meeste bestaande methoden de prestaties van dit geavanceerde model verslechterden, verbeterde ICLA de prestaties aanzienlijk:
- MME: +22 punten ten opzichte van het basismodel.
- LLaVA-Bench: 90,2% nauwkeurigheid (tegenover 87,0% voor het basismodel).
- MMMU: 69,2% nauwkeurigheid (tegenover 67,5%).
Case Study: In een visueel misleidend voorbeeld (een afbeelding van Elon Musk met een hond, waarbij het lichaam vervangen is door dat van een dier) identificeerde het basismodel de persoon ten onrechte als een "Shiba Inu". ICLA corrigeerde dit en identificeerde correct "Elon Musk", wat de kracht van de zelfcorrectie aantoont.

Betekenis en Conclusie

De betekenis van dit werk ligt in de verschuiving van het paradigma voor hallucinatiemitigatie. In plaats van te proberen specifieke foutpatronen te corrigeren (wat werkt voor oudere modellen), biedt ICLA een generieke, adaptieve architectuur die het model in staat stelt zijn eigen interne representaties te evalueren en te verfijnen.

De analyse van de attention-weights toont aan dat ICLA dynamisch belangrijke lagen selecteert voor correctie (bijv. tussenlagen en diepere lagen), terwijl het onbelangrijke lagen negeert. Dit maakt ICLA niet alleen een effectieve remedie voor hallucinaties, maar ook een krachtig hulpmiddel om te begrijpen hoe geavanceerde modellen redeneren. De methode is lichtgewicht, schaalbaar en bewijst dat interne zelfcorrectie via cross-layer attention essentieel is voor de betrouwbaarheid van de volgende generatie multimodale modellen.

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Het Probleem: De "Oude" Trucjes Werken Niet Meer

De Oplossing: ICLA (De "Interne Spiegel")

Waarom is dit zo slim?

Conclusie

Probleemstelling: De Evolutie van Hallucinaties in LVLM's

Methodologie: ICLA (Internal self-Correction via Layer Attention)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration