NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem intelligenten, aber manchmal etwas eingebildeten Kunstexperten. Dieser Experte kann Bilder sehen und darüber sprechen. Das ist im Grunde ein Large Vision-Language Model (LVLM) – eine KI, die Bilder versteht und dazu Texte schreibt.

Das Problem? Dieser Experte ist manchmal so sehr davon überzeugt, wie die Welt sein sollte, dass er Dinge sieht, die gar nicht da sind. Das nennt man Halluzination.

Zum Beispiel: Du zeigst ihm ein Bild von einem Hund. Aber weil er in seinem riesigen Gedächtnis (seinen "Sprach-Priors") oft gelesen hat, dass Hunde mit Bällen spielen, sagt er: "Ah, ein toller Hund mit einem roten Ball!" – obwohl auf dem Bild kein Ball zu sehen ist. Er erfindet den Ball einfach, weil es in seiner Welt "passend" klingt.

Die Forscher in diesem Papier haben sich gefragt: Wer ist schuld an diesem Erfinden?

Ist es das Auge (der Bild-Scanner), das das Bild falsch sieht?
Oder ist es der Mund (die Sprach-KI), der einfach zu viel aus dem Kopf redet?

Die Entdeckung: Das Auge sieht gut, der Mund redet zu viel

Die Forscher haben einen cleveren Test gemacht. Sie haben das "Auge" isoliert und festgestellt: Nein, das Auge sieht den Hund perfekt! Es weiß genau, dass da kein Ball ist.

Das Problem liegt also beim Mund. Der Sprachteil der KI ist so stark gewohnt, bestimmte Dinge zu sagen, dass er die Bilder ignoriert, wenn sie nicht mit seinen Erwartungen übereinstimmen. Er ist wie ein Dichter, der lieber einen schönen Reim macht, als die Wahrheit zu sagen.

Die Lösung: NoLan (Der "Realitäts-Check")

Um das zu beheben, haben sie NoLan erfunden. Das ist wie ein zweiter, nüchterner Berater, der neben dem Dichter sitzt.

Hier ist die Analogie, wie NoLan funktioniert:

Der Dichter (Die KI mit Bild): Der Experte schaut auf das Bild und sagt: "Ich sehe einen Hund." Aber er fügt vielleicht hinzu: "...und einen Ball", weil er das erwartet.
Der Skeptiker (Die KI ohne Bild): Jetzt nehmen wir dem Experten das Bild weg und geben ihm nur die Frage: "Was siehst du?" Ohne das Bild antwortet er rein aus seinem Gedächtnis: "Ich würde wahrscheinlich einen Hund und einen Ball sagen, weil das oft vorkommt."
Der Vergleich (NoLan): NoLan vergleicht nun die beiden Antworten.
- Wenn beide (mit Bild und ohne Bild) sagen "Ball", dann ist das wahrscheinlich nur eine Gewohnheit des Dichters.
- Wenn der Dichter mit Bild sagt "Hund", aber der Skeptiker ohne Bild auch nur "Hund" sagt, dann ist das eine echte Übereinstimmung.

Der Trick: NoLan nimmt die Antwort des Dichters und strafft sie. Er sagt im Grunde: "Hey, wenn du das ohne Bild auch gesagt hättest, dann ist das nur dein Vorurteil. Wir streichen das!" Er unterdrückt also die Wörter, die nur aus dem Kopf kommen, und hebt die Wörter hervor, die wirklich vom Bild kommen.

Warum ist das genial?

Kein neues Training nötig: Man muss den Experten nicht neu zur Schule schicken. Man gibt ihm einfach eine neue Art zu antworten, während er arbeitet. Das ist wie ein "Plug-and-Play"-Filter für seine Gedanken.
Dynamisch: NoLan ist nicht starr. Er merkt sofort, wann die KI besonders stark in ihren Vorurteilen steckt, und dämpft diese dann stärker.
Bessere Ergebnisse: In Tests hat sich gezeigt, dass KI-Modelle mit NoLan viel seltener Dinge erfinden. Sie bleiben bei der Wahrheit, ohne dabei langweilig zu werden.

Zusammenfassung

Stell dir NoLan wie einen Korrektor vor, der neben dem KI-Experten sitzt. Wenn der Experte anfängt, Dinge zu erfinden, weil es "schön klingt", greift der Korrektor ein, schaut auf das Bild und sagt: "Nein, das steht da nicht. Lass uns das wegmachen."

Das Ergebnis: Eine KI, die nicht nur gut redet, sondern auch ehrlich sieht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Language-Modelle (LVLMs) leiden unter dem Phänomen der Objekt-Halluzination. Dabei generieren die Modelle Textantworten, die Objekte beschreiben, die im Eingabebild gar nicht vorhanden sind. Dies führt zu Fehlinformationen und stellt ein erhebliches Risiko für Anwendungen in kritischen Bereichen wie Robotik, autonomen Systemen und Gesundheitswesen dar.

Die zentrale Forschungsfrage des Papers lautet: Welche Komponente des LVLM-Pipelines ist primär für diese Halluzinationen verantwortlich? Ist es der Vision-Encoder (der visuelle Informationen wahrnimmt) oder der Language-Decoder (der den Text generiert)?

Bisherige Ansätze zur Bekämpfung dieses Problems erforderten oft aufwendiges Fine-Tuning, zusätzliche Datensätze, externe Werkzeuge (wie andere vortrainierte Modelle) oder komplexe Reinforcement-Learning-Strategien (RLHF), was rechenintensiv und ressourcenaufwendig ist.

2. Methodik und Kernanalyse

A. Analytische Experimente (Ursachenforschung)

Die Autoren führten systematische Experimente durch, um die Ursachen der Halluzinationen zu isolieren:

Vision-Encoder-Analyse: Sie testeten, ob der Vision-Encoder (z. B. CLIP in LLaVA) in Fällen, in denen das Gesamtsystem halluziniert, das Fehlen eines Objekts korrekt erkennt. Die Ergebnisse zeigten, dass der Vision-Encoder Objekte mit hoher Genauigkeit (ca. 83%) korrekt detektieren kann. Das Problem liegt also nicht primär in der visuellen Wahrnehmung.
Language-Decoder-Analyse: Sie verglichen die Ausgabeverteilungen des LVLMs (Bild + Text) mit denen des reinen Sprachmodells (nur Text).
- Ergebnis: In Fällen von Halluzinationen ähneln sich die Wahrscheinlichkeitsverteilungen des multimodalen Inputs und des reinen Text-Inputs stark. Dies deutet darauf hin, dass der Language-Decoder seine starken sprachlichen Priors (Vorwissen aus dem Trainingskorpus) über die visuellen Signale stellt. Das Modell ignoriert das Bild und verlässt sich auf statistische Wahrscheinlichkeiten des Textes.

B. Der NoLan-Ansatz (No-Language-Hallucination Decoding)

Basierend auf der Erkenntnis, dass Halluzinationen durch zu starke sprachliche Priors verursacht werden, schlagen die Autoren NoLan vor. Dies ist ein training-freies (training-free) Framework, das während der Inferenz (Decoding) angewendet wird.

Funktionsweise:

Zwei Forward-Passes: Für einen gegebenen Prompt wird das Modell zweimal durchlaufen:
- $l_m$ : Logits (Ausgabeverteilung) basierend auf Bild und Text (Multimodal).
- $l_u$ : Logits basierend auf Text allein (Unimodal / Sprachprior).
Kontrastives Decoding: Die Methode berechnet die Differenz zwischen diesen Verteilungen, um die sprachlichen Priors zu unterdrücken.
- Die modulierte Ausgabe $p_{\text{nolan}}$ wird berechnet durch:
  $p_{\text{nolan}} \propto \text{softmax}(l_m + \alpha \cdot (l_m - l_u))$
- Hierbei ist $\alpha$ ein Modulationsfaktor. Wenn $l_m$ und $l_u$ sehr ähnlich sind (hohe Wahrscheinlichkeit für Halluzination), wird der Unterschied genutzt, um den Einfluss des Sprachmodells zu dämpfen.

Varianten:

NoLan-Base: Verwendet einen festen Hyperparameter $\alpha = 1$ . Dies ist eine einfache, aber effektive Formel: $2 \cdot l_m - l_u$ .
NoLan-Plus: Führt eine dynamische Anpassung von $\alpha$ $α$ ein.
- Es berechnet die symmetrische Kullback-Leibler-Divergenz (KL-Divergenz) zwischen $l_m$ und $l_u$ .
- Eine geringe Divergenz (hohe Ähnlichkeit) deutet auf eine starke Dominanz des Sprachpriors hin.
- Basierend auf dieser Divergenz wird $\alpha$ dynamisch angepasst (mittels einer $\tanh$ -Funktion), um die Unterdrückung der Priors genau dann zu verstärken, wenn sie am nötigsten ist.

3. Wichtige Beiträge

Ursachenidentifikation: Der Nachweis, dass Objekt-Halluzinationen in LVLMs primär durch die Priors des Language-Decoders und nicht durch das Versagen des Vision-Encoders verursacht werden.
Einfaches, training-freies Framework: Entwicklung von NoLan, das keine zusätzlichen Trainingsdaten, kein Fine-Tuning und keine externen Modelle erfordert. Es ist ein „Plug-and-Play"-Ansatz für jede autoregressive LVLM-Architektur.
Dynamische Prior-Unterdrückung: Die Einführung von NoLan-Plus, das die Unterdrückung sprachlicher Priors token-spezifisch und dynamisch basierend auf der Verteilungsdifferenz anpasst, was eine feinere Kontrolle als statische Methoden bietet.

4. Ergebnisse

Die Autoren evaluierten NoLan auf mehreren Benchmarks (POPE, MME, LLaVA-Bench, MM-Vet, MMHal-Bench, HallusionBench) mit verschiedenen State-of-the-Art-Modellen (LLaVA-1.5, InstructBLIP, Qwen-VL).

POPE (Object Hallucination Benchmark): NoLan erzielte konsistente Verbesserungen gegenüber regulärem Decoding und anderen training-freien Methoden wie VCD (Visual Contrastive Decoding) und VDD.
- Beispiel: Bei LLaVA-1.5 7B auf dem POPE-Benchmark erhöhte NoLan-Plus die Genauigkeit um bis zu 8,38 Punkte und den F1-Score um 8,78 Punkte.
- NoLan-Plus übertraf VCD in 88,9 % der getesteten Fälle.
MME & MM-Vet: Die Methode verbesserte nicht nur die Objekterkennung, sondern auch die Attribut-Halluzinationen und die Leistung in offenen Generierungsaufgaben.
Vergleich mit SOTA: NoLan-Plus übertraf auch neuere Methoden wie ICD (Instruction Contrastive Decoding) und attention-basierte Ansätze (OPERA, PAI) in den meisten Metriken.
Effizienz: Im Vergleich zu Methoden wie VCD, die zwei Forward-Passes über verzerrte Bilder benötigen, ist NoLan effizienter, da es nur Text und das Originalbild benötigt und keine aufwendige Nachverarbeitung erfordert. Die Inferenzzeit pro Token ist geringer als bei VCD/VDD.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen theoretischen und praktischen Durchbruch im Verständnis von Halluzinationen in multimodalen Modellen.

Paradigmenwechsel: Es widerlegt die Annahme, dass Halluzinationen primär durch schwache visuelle Signale entstehen, und lenkt den Fokus stattdessen auf die Übermacht der sprachlichen Priors im Decoder.
Praktische Anwendbarkeit: Da NoLan training-frei ist und keine zusätzlichen Ressourcen benötigt, kann es sofort in bestehenden LVLMs eingesetzt werden, um deren Zuverlässigkeit und Faktenhaltigkeit zu erhöhen.
Skalierbarkeit: Die Methode funktioniert robust über verschiedene Modellgrößen (7B bis 13B+) und Architekturen hinweg.

Zusammenfassend bietet NoLan eine elegante und effektive Lösung, um die Diskrepanz zwischen visueller Realität und sprachlicher Generierung zu schließen, indem es die inhärenten Verzerrungen des Sprachmodells während des Decoding-Prozesses dynamisch ausgleicht.

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Die Entdeckung: Das Auge sieht gut, der Mund redet zu viel

Die Lösung: NoLan (Der "Realitäts-Check")

Warum ist das genial?

Zusammenfassung

1. Problemstellung

2. Methodik und Kernanalyse

A. Analytische Experimente (Ursachenforschung)

B. Der NoLan-Ansatz (No-Language-Hallucination Decoding)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora