MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Diese Arbeit stellt MAP vor, eine trainingsfreie Decodierungsmethode, die durch die Interpretation der versteckten Zustände als 2D-Semantikkarte und die Anwendung von schichtweiser kreuzweise Aufmerksamkeitsverarbeitung sowie einer global-lokalen Logit-Fusion Halluzinationen in großen visuell-sprachlichen Modellen effektiv reduziert.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Large Vision-Language Model (LVLM) ist wie ein sehr kluger, aber manchmal etwas träumerischer Künstler. Wenn du ihm ein Foto zeigst und sagst: „Beschreibe das Bild!", malt er nicht nur, was er sieht, sondern fügt manchmal Dinge hinzu, die gar nicht da sind – wie einen Hund auf einem Bild, auf dem nur eine Katze sitzt. Das nennt man eine Halluzination.

Bisher haben Forscher versucht, diesen Künstler zu korrigieren, indem sie ihm nur auf eine einzige Art und Weise zugehört haben: Entweder haben sie sich nur auf die vertikalen Schichten (die verschiedenen Stufen seines Denkprozesses) konzentriert oder nur auf die horizontalen Reihen (die einzelnen Wörter, die er gerade denkt).

Die Autoren dieses Papers sagen jedoch: „Moment mal! Wir schauen uns das Problem falsch an!"

Die große Entdeckung: Der 2D-Semantische Karten-Plan

Stell dir die Gedanken des Künstlers nicht als eine lange Schlange von Wörtern vor, sondern als eine riesige, zweidimensionale Landkarte.

  • Die Höhe der Karte sind die verschiedenen Denk-Schichten (Layer).
  • Die Breite der Karte sind die verschiedenen Positionen im Bild (Token).

Die Forscher haben entdeckt, dass die wahren Informationen (was wirklich auf dem Bild zu sehen ist) nicht nur an einem einzigen Punkt auf dieser Karte versteckt sind. Sie sind wie kleine Schätze, die über die gesamte Landkarte verteilt sind. Wenn man nur eine Zeile oder eine Spalte betrachtet, übersieht man viele dieser Schätze.

Die Lösung: MAP (Map-Level Attention Processing)

Um diesem Künstler zu helfen, die Schätze auf der ganzen Karte zu finden, haben die Autoren eine neue Methode namens MAP entwickelt. Man kann sich das wie einen genialen Detektiv vorstellen, der drei Werkzeuge nutzt:

1. Der „Kreuz-und-Quer"-Spürhund (Layer-Wise Criss-Cross Attention)

Stell dir vor, der Künstler steht auf einem bestimmten Punkt seiner Landkarte. Normaler Weise schaut er nur geradeaus oder nur nach oben/unten.
Der MAP-Detektiv sagt: „Nein, schau auch nach links, rechts, oben und unten!"
Er lässt den Künstler einen Kreuz-und-Quer-Blick werfen. Er sammelt Informationen von allen Punkten, die auf derselben Höhe (Layer) oder in derselben Spalte (Position) liegen. So findet er die verstreuten Hinweise („Da ist ein Bett!", „Nein, das ist ein Sofa!"), die er sonst übersehen hätte. Er kombiniert diese Hinweise, um sein Bild klarer zu sehen.

2. Der „Globaler-und-Lokaler"-Chef (Global-Local Logit Fusion)

Am Ende des Denkprozesses hat der Künstler zwei Meinungen:

  • Die lokale Meinung: Was sagt das letzte Wort, das er gerade denkt? (Sehr detailliert, aber vielleicht zu engstirnig).
  • Die globale Meinung: Was sagt die gesamte Landkarte insgesamt? (Sehr breit gefächert, aber vielleicht etwas ungenau).

MAP ist wie ein kluger Chef, der beide Meinungen zusammenbringt. Er sagt: „Nimm das Detailwissen des letzten Wortes, aber mische es mit dem großen Überblick der ganzen Karte." So entsteht eine Antwort, die sowohl präzise als auch im Kontext richtig ist.

Warum ist das so cool?

  • Kein neues Training nötig: Die Forscher müssen den Künstler nicht neu ausbilden (was Jahre dauern und Millionen kosten würde). Sie geben ihm einfach einen neuen „Blickwinkel" (die Landkarte), während er arbeitet.
  • Schneller und effizient: Da sie nur das letzte Wort als „Frage" nehmen und den Rest der Karte als „Antwort" nutzen, ist das Berechnen viel schneller als bei alten Methoden.
  • Funktioniert überall: Ob der Künstler ein kleines oder ein riesiges Gehirn hat – diese Methode hilft ihm, weniger zu halluzinieren.

Zusammenfassung in einem Satz

Statt den KI-Modellen nur zu sagen, sie sollen „enger" oder „höher" denken, zeigt ihnen MAP, wie sie ihre gesamte Denk-Landkarte nutzen können, um die Wahrheit aus dem Bild zu finden und Fantasie-Fehler zu vermeiden.

Es ist, als würde man einem Träumer sagen: „Schau nicht nur auf deine Füße oder nur auf den Himmel, sondern nimm dir eine Landkarte und such nach den Schätzen, die überall verstreut sind!"