MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Large Vision-Language Model (LVLM) ist wie ein sehr kluger, aber manchmal etwas träumerischer Künstler. Wenn du ihm ein Foto zeigst und sagst: „Beschreibe das Bild!", malt er nicht nur, was er sieht, sondern fügt manchmal Dinge hinzu, die gar nicht da sind – wie einen Hund auf einem Bild, auf dem nur eine Katze sitzt. Das nennt man eine Halluzination.

Bisher haben Forscher versucht, diesen Künstler zu korrigieren, indem sie ihm nur auf eine einzige Art und Weise zugehört haben: Entweder haben sie sich nur auf die vertikalen Schichten (die verschiedenen Stufen seines Denkprozesses) konzentriert oder nur auf die horizontalen Reihen (die einzelnen Wörter, die er gerade denkt).

Die Autoren dieses Papers sagen jedoch: „Moment mal! Wir schauen uns das Problem falsch an!"

Die große Entdeckung: Der 2D-Semantische Karten-Plan

Stell dir die Gedanken des Künstlers nicht als eine lange Schlange von Wörtern vor, sondern als eine riesige, zweidimensionale Landkarte.

Die Höhe der Karte sind die verschiedenen Denk-Schichten (Layer).
Die Breite der Karte sind die verschiedenen Positionen im Bild (Token).

Die Forscher haben entdeckt, dass die wahren Informationen (was wirklich auf dem Bild zu sehen ist) nicht nur an einem einzigen Punkt auf dieser Karte versteckt sind. Sie sind wie kleine Schätze, die über die gesamte Landkarte verteilt sind. Wenn man nur eine Zeile oder eine Spalte betrachtet, übersieht man viele dieser Schätze.

Die Lösung: MAP (Map-Level Attention Processing)

Um diesem Künstler zu helfen, die Schätze auf der ganzen Karte zu finden, haben die Autoren eine neue Methode namens MAP entwickelt. Man kann sich das wie einen genialen Detektiv vorstellen, der drei Werkzeuge nutzt:

1. Der „Kreuz-und-Quer"-Spürhund (Layer-Wise Criss-Cross Attention)

Stell dir vor, der Künstler steht auf einem bestimmten Punkt seiner Landkarte. Normaler Weise schaut er nur geradeaus oder nur nach oben/unten.
Der MAP-Detektiv sagt: „Nein, schau auch nach links, rechts, oben und unten!"
Er lässt den Künstler einen Kreuz-und-Quer-Blick werfen. Er sammelt Informationen von allen Punkten, die auf derselben Höhe (Layer) oder in derselben Spalte (Position) liegen. So findet er die verstreuten Hinweise („Da ist ein Bett!", „Nein, das ist ein Sofa!"), die er sonst übersehen hätte. Er kombiniert diese Hinweise, um sein Bild klarer zu sehen.

2. Der „Globaler-und-Lokaler"-Chef (Global-Local Logit Fusion)

Am Ende des Denkprozesses hat der Künstler zwei Meinungen:

Die lokale Meinung: Was sagt das letzte Wort, das er gerade denkt? (Sehr detailliert, aber vielleicht zu engstirnig).
Die globale Meinung: Was sagt die gesamte Landkarte insgesamt? (Sehr breit gefächert, aber vielleicht etwas ungenau).

MAP ist wie ein kluger Chef, der beide Meinungen zusammenbringt. Er sagt: „Nimm das Detailwissen des letzten Wortes, aber mische es mit dem großen Überblick der ganzen Karte." So entsteht eine Antwort, die sowohl präzise als auch im Kontext richtig ist.

Warum ist das so cool?

Kein neues Training nötig: Die Forscher müssen den Künstler nicht neu ausbilden (was Jahre dauern und Millionen kosten würde). Sie geben ihm einfach einen neuen „Blickwinkel" (die Landkarte), während er arbeitet.
Schneller und effizient: Da sie nur das letzte Wort als „Frage" nehmen und den Rest der Karte als „Antwort" nutzen, ist das Berechnen viel schneller als bei alten Methoden.
Funktioniert überall: Ob der Künstler ein kleines oder ein riesiges Gehirn hat – diese Methode hilft ihm, weniger zu halluzinieren.

Zusammenfassung in einem Satz

Statt den KI-Modellen nur zu sagen, sie sollen „enger" oder „höher" denken, zeigt ihnen MAP, wie sie ihre gesamte Denk-Landkarte nutzen können, um die Wahrheit aus dem Bild zu finden und Fantasie-Fehler zu vermeiden.

Es ist, als würde man einem Träumer sagen: „Schau nicht nur auf deine Füße oder nur auf den Himmel, sondern nimm dir eine Landkarte und such nach den Schätzen, die überall verstreut sind!"

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Language-Modelle (LVLMs) leiden unter dem Phänomen der Halluzination, bei dem das Modell Antworten generiert, die linguistisch korrekt, aber faktisch inkonsistent mit dem visuellen Eingabebild sind (z. B. Erwähnung nicht vorhandener Objekte oder falscher räumlicher Beziehungen). Dies untergräbt die Zuverlässigkeit in kritischen Anwendungen wie der medizinischen Bildgebung oder dem autonomen Fahren.

Bisherige Ansätze zur Minderung von Halluzinationen konzentrieren sich entweder auf:

Inter-Layer-Methoden: Vergleich und Ausrichtung von Informationen zwischen verschiedenen Decoder-Schichten (z. B. Contrastive Decoding).
Intra-Layer-Methoden: Verfeinerung von Token-Repräsentationen innerhalb einer einzelnen Schicht (z. B. Umverteilung von Attention-Gewichten).

Die Autoren argumentieren, dass diese eindimensionalen Paradigmen potenziell vertrauenswürdige Informationen ignorieren, die sich über den gesamten Raum der versteckten Zustände (Hidden States) verteilen, aber nicht in einer einzigen Schicht oder Position lokalisiert sind.

2. Methodik: MAP (Map-Level Attention Processing)

Das Kernkonzept von MAP ist die Uminterpretation aller versteckten Zustände eines LVLMs als eine zweidimensionale semantische Karte (2D Semantic Map), wobei die Achsen durch die Schichttiefe (Layer-Dimension) und die Token-Position (Position-Dimension) definiert sind.

Die Methode besteht aus drei Hauptkomponenten und ist training-frei (wird nur während der Inferenz angewendet):

A. Layer-Wise Criss-Cross Attention (Schichtweise Kreuz-Aufmerksamkeit)

Anstatt nur benachbarte Schichten oder Positionen zu betrachten, nutzt MAP die 2D-Karte, um Informationen aus einem „kreuzförmigen" Nachbarschaftsbereich zu aggregieren.

Für einen Anker-Token $h_{t,j}$ (Position $t$ , Schicht $j$ ) wird eine Nachbarschaft definiert, die alle Token derselben Schicht (gleiche Zeile) und derselben Position (gleiche Spalte) umfasst.
Eine Aggregationsfunktion $\mathcal{F}(\cdot)$ sammelt vertrauenswürdige Informationen aus dieser Nachbarschaft basierend auf der kosinussähnlichkeit.
Die ursprünglichen Token-Repräsentationen werden durch eine residuelle Verbindung mit diesen aggregierten Informationen aktualisiert. Dies geschieht schichtweise, beginnend ab einer bestimmten Schicht ( $\ell_{start}$ ), um den Informationsfluss schrittweise zu verfeinern.

B. Global-Local Logit Fusion (Globale-Lokale Logit-Fusion)

Um die Robustheit der Ausgabe weiter zu erhöhen, wird eine Fusion auf Logit-Ebene durchgeführt:

Lokaler Logit: Basierend auf dem verfeinerten Token $\hat{h}_{t,n}$ der letzten Schicht.
Globaler Logit: Basierend auf einem global angereicherten Token $\tilde{h}_{t,n}$ , der durch eine globale Aufmerksamkeit über die gesamte semantische Karte der letzten Schicht berechnet wird.
Die endgültigen Logits sind das Durchschnittsmaß beider Quellen. Dies kombiniert feingranulare lokale Beweise mit breiteren kontextuellen Informationen.

C. Effizienz

Im Gegensatz zur herkömmlichen Self-Attention, die die gesamte Sequenz als Query behandelt (Komplexität $O(n^2)$ ), verwendet MAP nur den letzten Token als Query. Dies reduziert die rechnerische Komplexität auf $O(n)$ und macht die Methode effizienter als viele vergleichbare Ansätze.

3. Schlüsselbeiträge

Neues Paradigma: Einführung der 2D-semantischen Karten-Perspektive, die zeigt, dass faktische Signale nicht nur in spezifischen Schichten oder Positionen, sondern weitläufig über die gesamte Karte verteilt sind.
Training-freie Lösung: Entwicklung von MAP als Inferenz-Intervention, die keine Nachtrainierung (Fine-Tuning) oder zusätzliche Daten erfordert.
Architektur-agnostisch: Die Methode ist auf verschiedene LVLM-Architekturen (z. B. LLaVA, mPLUG-Owl, InstructBLIP) anwendbar und zeigt dort konsistente Verbesserungen.
Umfassende Evaluation: Validierung sowohl bei geschlossenen (Multiple Choice) als auch bei offenen Generierungsaufgaben.

4. Ergebnisse

Die Methode wurde auf drei etablierten Benchmarks evaluiert: POPE (Objekt-Halluzinationen), MME (umfassende Fähigkeiten) und MMHal-Bench (offene Generierung).

MME Benchmark: MAP erreichte auf dem LLaVA-1.5-7B-Modell einen Gesamtscore von 1529,3 (im Vergleich zu 1491,6 beim Baseline-Modell). Dies übertrifft sowohl Inter-Layer-Methoden (wie DAMO, DCLA) als auch Intra-Layer-Methoden (wie SPIN, VCD) deutlich.
POPE Benchmark: MAP zeigte robuste Ergebnisse über verschiedene Szenarien (Random, Popular, Adversarial) hinweg. Auf dem schwierigen GQA-Adversarial-Subset verbesserte sich die Genauigkeit gegenüber VCD um ca. 4,5 %.
Offene Generierung (MMHal-Bench): MAP erzielte den höchsten Gesamtscore (2,4) und zeigte eine ausgewogene Leistung über verschiedene Teilaufgaben hinweg, während andere Methoden bei bestimmten Aufgaben instabil waren.
Generalisierung: Die Methode funktionierte erfolgreich auch auf fortschrittlicheren Modellen wie Qwen2.5-VL und InternVL3, was ihre Skalierbarkeit unterstreicht.
Effizienz: MAP weist eine niedrigere Decodierungs-Latenz auf als DAMO und DCLA und ist rechnerisch effizienter als die naive Self-Attention.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Beschränkung auf eindimensionale Analysen (nur Schichten oder nur Positionen) für die Bekämpfung von Halluzinationen unzureichend ist. Durch die Betrachtung des gesamten Zustandsraums als 2D-Karte und die gezielte Aggregation von Informationen über diese Struktur hinweg (Criss-Cross Attention) kann MAP faktische Konsistenz signifikant verbessern, ohne das Modell neu trainieren zu müssen.

Dies ist ein wichtiger Schritt hin zu zuverlässigeren LVLMs für reale Anwendungen, da die Methode rechenintensives Fine-Tuning vermeidet und dennoch state-of-the-art Ergebnisse liefert. Die Arbeit legt nahe, dass zukünftige Forschungsrichtungen die multidimensionale Struktur von Hidden States stärker nutzen sollten, um die Zuverlässigkeit multimodaler Modelle zu erhöhen.