ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Sehende, aber Nicht-Verstehende" Roboter

Stell dir vor, du hast einen sehr klugen Roboter, der Bilder sehen und darüber reden kann (ein sogenanntes LVLM). Dieser Roboter ist super darin, Dinge zu erkennen: „Das ist ein Hund", „Das ist ein Ball". Aber er hat ein großes Problem: Er halluziniert Beziehungen.

Das ist wie bei einem Menschen, der eine Zeichnung sieht, auf der ein Hund einen Ball jagt. Der Roboter sagt aber: „Nein, der Hund schläft auf dem Ball." Er sieht die Objekte (Hund, Ball) perfekt, aber er verwechselt die Handlung oder die Beziehung dazwischen. In der Forschung nennen wir das „Relations-Halluzination". Bisherige Methoden haben versucht, dem Roboter einfach nur bessere Anweisungen zu geben, aber das half nicht immer, weil der Roboter zu sehr auf sein „Gefühl" (seine Sprachmuster) und zu wenig auf das Bild selbst hörte.

Die Lösung: ChainMPQ – Der Detektiv mit einem Notizbuch

Die Forscher haben eine neue Methode namens ChainMPQ entwickelt. Stell dir das nicht als einen einzelnen Sprung vor, sondern als einen Detektiv, der einen Fall Schritt für Schritt löst, anstatt alles auf einmal zu erraten.

Hier ist, wie ChainMPQ funktioniert, mit ein paar lustigen Vergleichen:

1. Der Vergrößerungsglas-Effekt (Text-gesteuerte Aufmerksamkeit)

Wenn der Roboter eine Frage bekommt (z. B. „Jagt der Hund den Ball?"), schaut er sich das Bild oft zu oberflächlich an.
ChainMPQ sagt dem Roboter: „Halt! Schau dir erst mal genau den Hund und den Ball an."

Die Analogie: Es ist, als würde ein Lehrer dem Schüler sagen: „Bevor du die ganze Geschichte zusammenfasst, markiere mit einem gelben Stift genau die Namen der Personen, um die es geht." Der Roboter zoomt also digital auf die relevanten Stellen im Bild, bevor er überhaupt zu denken beginnt.

2. Die 5-Fragen-Methode (Multi-Perspektiven-Fragen)

Anstatt die große Frage sofort zu beantworten, zerlegt ChainMPQ das Rätsel in fünf kleine, einfache Fragen.

Frage 1 & 2: „Wo ist der Hund?" und „Wo ist der Ball?" (Ort feststellen).
Frage 3 & 4: „Was macht der Hund?" und „Was passiert mit dem Ball?" (Handlung prüfen).
Frage 5: „Wie hängen Hund und Ball zusammen?" (Die eigentliche Beziehung).
Die Analogie: Stell dir vor, du versuchst, ein kompliziertes Puzzle zu lösen. Anstatt sofort das fertige Bild zu erraten, legst du erst alle Ecken hin, dann die Ränder, und erst dann füllst du die Mitte aus. ChainMPQ zwingt den Roboter, erst die Ecken (die Objekte) zu finden, bevor er das Gesamtbild (die Beziehung) zusammensetzt.

3. Das Gedächtnis-Notizbuch (Interleaved Chain)

Das ist der wichtigste Trick. Wenn der Roboter Frage 1 beantwortet („Der Hund ist links"), merkt er sich das. Wenn er dann Frage 2 beantwortet, nutzt er diese Information. Wenn er zu Frage 5 kommt, hat er ein komplettes „Gedächtnis" aus allen vorherigen Schritten.

Die Analogie: Stell dir vor, du bist in einem Labyrinth. Wenn du an einer Kreuzung falsch abbiegst, merkst du dir das. Wenn du weitergehst, nutzt du diese Erinnerung, um nicht wieder denselben Fehler zu machen. ChainMPQ gibt dem Roboter ein Notizbuch, in dem er notiert: „Aha, der Hund ist links, also kann er den Ball nicht rechts jagen." Er nutzt also das, was er in Schritt 1 gelernt hat, um Schritt 5 besser zu lösen.

Warum ist das so toll?

Bisherige Roboter versuchten, die Antwort sofort zu „raten" (wie ein Schüler, der die Matheaufgabe im Kopf lösen will, ohne zu rechnen). ChainMPQ zwingt den Roboter, laut zu denken und jeden Schritt zu überprüfen.

Ergebnis: Der Roboter macht viel weniger Fehler. Wenn er sieht, dass ein Mann auf einem Surfbrett reitet, sagt er nicht mehr „Er steht darauf", weil er durch die kleinen Fragen genau geprüft hat, wie die Beine positioniert sind.
Vorteil: Man muss den Roboter nicht neu trainieren (was teuer und schwer ist). Man gibt ihm einfach eine bessere „Denk-Strategie".

Zusammenfassung in einem Satz

ChainMPQ ist wie ein geduldiger Lehrer, der einem Roboter beibringt, ein Bild nicht auf einen Blick zu beurteilen, sondern es wie ein Detektiv zu untersuchen: erst die Objekte lokalisieren, dann die Handlungen prüfen und sich dabei Notizen machen, um am Ende die wahre Geschichte des Bildes zu erzählen.

Das Ergebnis ist ein Roboter, der nicht nur „sieht", sondern wirklich „versteht", was auf dem Bild passiert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Sprach-Modelle (LVLMs) haben zwar beeindruckende Fortschritte in multimodalen Aufgaben wie Bildbeschreibung und visueller Fragebeantwortung (VQA) erzielt, leiden jedoch weiterhin unter Halluzinationen. Diese werden in drei Kategorien unterteilt: Objekte, Attribute und Relationen.

Das spezifische Problem: Relationale Halluzinationen treten auf, wenn ein Modell Objekte korrekt erkennt, aber die Beziehung zwischen ihnen falsch interpretiert (z. B. „ein Mann steht auf einem Surfbrett" statt „ein Mann reitet auf einem Surfbrett").
Aktuelle Lage: Obwohl Objekte und Attribute durch verschiedene Methoden verbessert wurden, machen relationale Halluzinationen fast 40 % aller Halluzinationen aus und erhalten bisher weniger Aufmerksamkeit.
Herausforderung: Bestehende Ansätze behandeln relationales Schlussfolgern oft als einen einzigen Inferenzschritt, der stark auf sprachliche Vorurteile (Language Priors) statt auf systematische visuelle Analyse angewiesen ist. Dies führt zu Fehlern, da die Modelle nicht schrittweise vorgehen, wie es beim menschlichen Denken üblich ist (Objekte lokalisieren -> Interaktion prüfen -> Schlussfolgern).

2. Methodik: ChainMPQ

Die Autoren stellen ChainMPQ (Multi-Perspective Questions guided Interleaved Text-image Reasoning Chain) vor. Es handelt sich um ein training-freies Framework, das relationale Inferenz durch einen schrittweisen, interleaved (verflochtenen) Prozess von Text und Bild verbessert. Der Ansatz besteht aus drei Hauptmodulen:

A. Text-gesteuerte Aufmerksamkeitsverstärkung (Text-Guided Attention Enhancement)

Aus der Eingabe-Frage werden Schlüsselwörter für das Subjekt und das Objekt extrahiert (z. B. mittels spaCy).
Diese Keywords werden kodiert und mittels Cross-Attention verwendet, um die entsprechenden Regionen im Bildmerkmalraum zu verstärken.
Das Ziel ist es, die visuellen Token für die relevanten Entitäten hervorzuheben, bevor die eigentliche Inferenz beginnt.

B. Konstruktion von Multi-Perspektiven-Fragen (Construction of Multi-Perspective Aware Text Prompts)

Die ursprüngliche Frage wird in fünf komplementäre Teilfragen zerlegt, die verschiedene Aspekte der Beziehung abdecken:
1. Lokalisierung des Subjekts („Wo ist das Subjekt?").
2. Lokalisierung des Objekts („Wo ist das Objekt?").
3. Maskierung des Objekts (Was interagiert das Subjekt mit?).
4. Maskierung des Subjekts (Womit interagiert das Objekt?).
5. Maskierung der Relation (Was ist die allgemeine Beziehung?).
Diese Zerlegung zwingt das Modell, einzelne Komponenten zu analysieren, bevor es eine finale Urteilsbildung trifft, und reduziert die Abhängigkeit von sprachlichen Vorurteilen.

C. Interleaved Text-Bild-Schlussfolgerungskette (Interleaved Text-Image Reasoning Chain)

Die fünf Fragen werden sequenziell dem Modell zugeführt.
Kontext-Transfer: Die Antworten der vorherigen Schritte ( $A_i$ ) werden als textueller Kontext für die nächsten Schritte verwendet.
Visuelles Gedächtnis: Aus den Attention-Maps der vorherigen Schritte werden die Top- $k$ visuellen Token (basierend auf Entropie und Aufmerksamkeitsscores) extrahiert. Diese bilden eine Bias-Maske ( $M_i$ ), die die Aufmerksamkeit des Modells in den folgenden Schritten auf die relevanten Bildregionen lenkt.
Dieser Mechanismus ermöglicht es dem Modell, visuelles und textuelles Gedächtnis über mehrere Schritte hinweg zu akkumulieren und die Beziehung schrittweise zu lösen.

3. Wichtige Beiträge

Zerlegung in Subjekt-Objekt-Relation: Einführung einer Dekompositionsstrategie, die Multi-Perspektiven-Fragen generiert, um das Modell dazu zu bringen, sich auf jedes Kernelement einer Beziehung zu konzentrieren.
Interleaved-Ketten-Mechanismus: Design eines Mechanismus, der textuelle Antworten und visuelle Aufmerksamkeitskarten aus früheren Schritten nutzt, um das nachfolgende Schlussfolgern zu verfeinern und eine progressive relationale Inferenz zu ermöglichen.
Training-frei und Generalisierbar: Die Methode erfordert kein Fine-Tuning und wurde erfolgreich auf vier verschiedene LVLM-Architekturen (LLaVA-1.5, InstructBLIP, Qwen2.5-VL, InternVL3.5) angewendet.

4. Ergebnisse

Die Methode wurde auf den Benchmarks MMRel und R-Bench evaluiert, die speziell für relationale Aufgaben entwickelt wurden.

Leistung: ChainMPQ übertrifft konsistent alle Baselines (einschließlich Standard-CoT, Prompting und Kalibrierungsmethoden) über alle getesteten Modelle hinweg.
- Auf MMRel mit LLaVA-1.5 stieg die Genauigkeit von 59,02 % (Vanilla) auf 65,20 %.
- Auf R-Bench mit InternVL3.5 wurde eine Genauigkeit von 85,05 % erreicht (vs. 82,33 % bei der Basis).
Präzision: Es wurden signifikante Verbesserungen bei der Präzision beobachtet, was auf eine Reduzierung von falsch-positiven relationalen Vorhersagen hindeutet, ohne die Recall-Rate zu opfern.
Effizienz-Optimierung: Durch Varianten wie „Light1" (nur Fragen 1, 2 und 5) konnte ein guter Kompromiss zwischen Genauigkeit und Latenzzeit erreicht werden.
Ablationsstudien: Die Studie bestätigte, dass alle drei Module (Attention Enhancement, Multi-Perspective Questions, Interleaved Chain) essenziell sind. Das Entfernen der Multi-Perspektiven-Fragen führte zu dem größten Leistungsabfall (-3,68 % Genauigkeit).

5. Bedeutung und Fazit

ChainMPQ adressiert eine kritische Lücke in der Zuverlässigkeit von LVLMs, indem es relationale Halluzinationen durch systematische, schrittweise visuelle Analyse reduziert.

Innovation: Der Ansatz imitiert menschliches Denken, indem er die komplexe Aufgabe der Beziehungserkennung in handhabbare Teilschritte zerlegt und dabei sowohl textuelle als auch visuelle Erinnerungen nutzt.
Visuelle Fokussierung: Case Studies zeigen, dass ChainMPQ die Aufmerksamkeit des Modells präziser auf die Interaktion zwischen Subjekt und Objekt lenkt und irrelevante Hintergrundbereiche unterdrückt.
Zukunft: Die Autoren sehen Potenzial in der Integration kausaler Attributionen und der Verbesserung der räumlichen Granularität visueller Token, um die Genauigkeit bei räumlichen Beziehungen weiter zu steigern.

Zusammenfassend bietet ChainMPQ einen robusten, training-freien Rahmen, der die Faktizität und Zuverlässigkeit von LVLMs in relationalen Aufgaben signifikant verbessert.