NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Each language version is independently generated for its own context, not a direct translation.

NoLan: De "Taal-Blindheid" van AI-Beeldherkenning

Stel je voor dat je een kunstgalerij binnenloopt met een gids die een enorme kennis van kunstgeschiedenis heeft, maar die zijn ogen heeft dichtgeknepen. Als je hem vraagt wat hij ziet, begint hij te vertellen over "een prachtige olifant" of "een zeehond", puur omdat die woorden vaak in zijn hoofd opkomen als hij over dieren hoort. Hij ziet de olifant niet, maar zijn taal zegt hem dat er een olifant moet zijn.

Dit is precies wat er gebeurt bij moderne Large Vision-Language Models (LVLMs). Dit zijn slimme AI's die beelden kunnen "zien" en erover kunnen praten. Maar ze hebben een groot probleem: ze hallucineren. Ze vertellen je dat er een olifant in de foto staat, terwijl er alleen maar een koe is.

De onderzoekers van dit paper (NoLan) hebben een vraag gesteld: Wie is er nu eigenlijk schuldig? De camera (het beeld) of de gids (de taal)?

1. Het Grote Geheim: Het is de Taalgids, niet de Camera

De onderzoekers deden een experiment. Ze keken eerst of de "camera" van de AI wel degelijk de objecten zag. Het bleek dat de camera het perfect deed! Hij zag de koe. Het probleem zat hem in de taal-gids (de taaldecoder).

De taal-gids is zo gewend aan bepaalde woordencombinaties (bijvoorbeeld: "in de jungle zijn er vaak olifanten"), dat hij zijn eigen fantasie laat winnen van wat hij daadwerkelijk ziet. Hij is als een voorspeller die te veel vertrouwen heeft in zijn eigen voorgevoelens en de realiteit negeert.

2. De Oplossing: NoLan (De "Taal-Rem")

De oplossing die ze bedachten heet NoLan. Het is een slimme truc die je niet hoeft te trainen, maar die je gewoon tijdens het gesprek kunt toepassen.

De Analogie van de Twee Stemmen:
Stel je voor dat de AI twee stemmen heeft:

De Beeld-Stem: "Ik zie een koe."
De Taal-Stem: "Oh, als je over dieren praat, denk ik aan een olifant."

Normaal gesproken luistert de AI naar beide, maar de Taal-Stem schreeuwt vaak harder. NoLan werkt als een geluidsmixer.

De AI vraagt eerst: "Wat zou je zeggen als ik je alleen de tekst geef?" (De Taal-Stem).
Dan vraagt hij: "Wat zeg je als ik je beide geef?" (Beeld + Taal).
NoLan vergelijkt deze twee antwoorden. Als de Taal-Stem zegt "olifant" en de Beeld-Stem zegt "koe", dan ziet NoLan dat de Taal-Stem te dominant is.
De Magie: NoLan drukt de Taal-Stem zachtjes naar beneden (supprimeert de "taal-prioriteiten") en laat de Beeld-Stem harder klinken.

Het is alsof je een luie gids die te veel fantaseert, een zachte duw geeft en zegt: "Kijk eens goed naar het plaatje, vergeet wat je dacht dat er zou zijn."

3. Waarom is dit zo goed?

Geen extra training: Je hoeft de AI niet opnieuw te leren (wat duur en tijdrovend is). Je past alleen de manier aan waarop hij zijn antwoord kiest.
Werkt overal: Het werkt op verschillende soorten AI's, van kleine tot grote modellen.
Resultaat: De AI begint veel minder dingen te verzinnen. Als je vraagt "Hoeveel dwergen zijn er bij Sneeuwwitje?", en er zijn er zes, dan zegt de AI "zes" in plaats van "zeven" (een veelgemaakte fout omdat zeven een bekend getal is in sprookjes).

Samenvatting in één zin

NoLan is een slimme "rem" die de overmoedige taal van de AI afremt, zodat hij eindelijk weer echt naar de foto kijkt in plaats van te gissen op basis van wat hij in zijn hoofd heeft.

Het is een beetje als het geven van een spiegel aan iemand die in de war is: "Kijk eens goed, wat zie je echt, niet wat je denkt dat je ziet."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Object Hallucinaties in LVLM's

Grote Visueel-Taalmodellen (LVLM's) hebben de afgelopen jaren enorme vooruitgang geboekt, maar ze kampen met een kritiek probleem: object hallucinaties. Dit is het fenomeen waarbij het model objecten beschrijft die niet in de invoerafbeelding aanwezig zijn. Hoewel er veel onderzoek is gedaan naar het verminderen van deze hallucinaties, blijft de vraag onbeantwoord welke component van de LVLM-pijplijn hier primair voor verantwoordelijk is: de visuele encoder (die de afbeelding waarneemt) of de taaldecoder (die de tekst genereert). Bestaande oplossingen vereisen vaak zware herscholing, extra datasets of externe hulpmiddelen, wat ze computatierijk en minder schaalbaar maakt.

Methodologie: Analyse en NoLan Framework

1. Analyse van de Oorzaak
De auteurs voeren eerst een systematische analyse uit om de bron van hallucinaties te lokaliseren:

Visuele Encoder: Experimenten tonen aan dat de visuele encoder (bijv. CLIP) objecten in afbeeldingen waar hallucinaties optreden, nog steeds met hoge nauwkeurigheid kan detecteren. De visuele waarneming is dus niet het primaire probleem.
Taaldecoder (Language Priors): De analyse toont aan dat hallucinaties ontstaan wanneer de output-distributie van het model wordt gedomineerd door de taalkundige priors van de onderliggende Large Language Model (LLM). Wanneer een model hallucineert, is de kansverdeling voor tokens bij multimodale invoer (afbeelding + tekst) zeer vergelijkbaar met die bij alleen tekst-invoer. Dit betekent dat het model meer vertrouwt op wat het "verwacht" te zien op basis van tekstuele patronen dan op wat het daadwerkelijk ziet.

2. Het NoLan Framework (No-Language-Hallucination Decoding)
Op basis van deze bevindingen introduceren de auteurs NoLan, een trainingsvrij (training-free) framework dat hallucinaties bestrijdt door de invloed van taal-priors dynamisch te onderdrukken.

Kernprincipe: NoLan vergelijkt de output-logits (kansverdelingen) van twee scenario's:
1. Multimodaal ( $l_m$ ): De standaard invoer van afbeelding + tekst.
2. Unimodaal ( $l_u$ ): Alleen de tekst-invoer (zonder afbeelding).
Modulatie: Het verschil tussen deze twee distributies wordt gebruikt om de output te corrigeren. De formule voor de gemoduleerde logits ( $l_{\Delta}$ ) is:
$l_{\Delta} = \alpha \times (l_m - l_u)$
De uiteindelijke output-distributie wordt dan:
$p_{\text{nolan}} = \text{softmax}(l_m + l_{\Delta})$
Hierdoor worden tokens die sterk worden aanbevolen door de taal-prior (hoge kans in $l_u$ ) maar niet ondersteund door de visuele input (lage kans in $l_m$ ), onderdrukt.

3. Varianties van NoLan

NoLan-Base: Gebruikt een vaste modulatiefactor $\alpha$ (standaard 1). Dit is een simpele, plug-and-play oplossing.
NoLan-Plus: Introduceert een dynamisch aanpassend mechanisme. Het berekent de symmetrische Kullback-Leibler (KL) divergentie tussen $l_m$ en $l_u$ . Als de divergentie klein is (wat wijst op een hoge kans op hallucinatie), wordt de modulatiefactor $\alpha$ automatisch verhoogd om de taal-prior sterker te onderdrukken. Dit maakt de methode adaptiever en effectiever.

Belangrijkste Bijdragen

Oorzaakanalyse: Het aantonen dat object hallucinaties voornamelijk worden veroorzaakt door de sterke priors van de taaldecoder en niet door een falende visuele encoder.
NoLan Framework: De ontwikkeling van een eenvoudige, trainingsvrije methode die hallucinaties reduceert door het contrast tussen multimodale en unimodale output-distributies te benutten.
Dynamische Suppressie: De introductie van NoLan-Plus, dat de onderdrukking van taal-priors dynamisch aanpast op basis van de onzekerheid (KL-divergentie) van het model, wat leidt tot betere prestaties dan statische methoden.
Schaalbaarheid: De methode vereist geen extra training, geen externe modellen en werkt naadloos met bestaande autoregressieve LVLM's.

Resultaten

De auteurs evalueren NoLan op diverse benchmarks (POPE, MME, LLaVA-Bench, MM-Vet, etc.) met verschillende state-of-the-art modellen (LLaVA-1.5, InstructBLIP, Qwen-VL).

POPE Benchmark: NoLan toont aanzienlijke verbeteringen. Op de POPE-benchmark (MSCOCO dataset) verbetert NoLan-Plus de nauwkeurigheid van LLaVA-1.5 7B met 6,45 punten en Qwen-VL 7B met 7,21 punten ten opzichte van reguliere decoding.
Vergelijking met SOTA: NoLan overtreft bestaande trainingsvrije methoden zoals Visual Contrastive Decoding (VCD) en Visual Debias Decoding (VDD) consistent. Bijvoorbeeld, NoLan-Plus verbetert de F1-score met tot 8,78 punten ten opzichte van de reguliere baseline.
Generalisatie: De methode werkt effectief op zowel 7B als 13B modellen en op verschillende architecturen (Qwen, LLaVA, InstructBLIP).
Efficiëntie: NoLan is computatie-efficiënter dan VCD en VDD omdat het geen vervormde afbeeldingen vereist en minder post-processing nodig heeft.

Significantie

NoLan biedt een fundamenteel nieuwe kijk op het probleem van hallucinaties in LVLM's. In plaats van te proberen de visuele waarneming te verbeteren of het model opnieuw te trainen, richt het zich op het corrigeren van de decodestrategie tijdens de inferentie.

De belangrijkste implicaties zijn:

Kosteneffectiviteit: Het elimineert de noodzaak voor dure herscholing of grote datasets.
Betrouwbaarheid: Het maakt LVLM's veiliger en betrouwbaarder voor kritieke toepassingen zoals robotica, autonome systemen en gezondheidszorg, waar fouten door hallucinaties ernstige gevolgen kunnen hebben.
Simpelheid: Het bewijst dat complexe hallucinatieproblemen vaak kunnen worden opgelost met elegante, wiskundige correcties op de output-distributie in plaats van complexe modelarchitectuurveranderingen.

Kortom, NoLan is een krachtige, plug-and-play oplossing die de grondslagen van visueel-taalmodellen versterkt door de overmatige afhankelijkheid van tekstuele aannames te verminderen en de focus terug te brengen op de visuele werkelijkheid.

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

1. Het Grote Geheim: Het is de Taalgids, niet de Camera

2. De Oplossing: NoLan (De "Taal-Rem")

3. Waarom is dit zo goed?

Samenvatting in één zin

Probleemstelling: Object Hallucinaties in LVLM's

Methodologie: Analyse en NoLan Framework

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora