Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas träumerischen Assistenten. Dieser Assistent kann Bilder sehen und darüber sprechen, aber er hat eine Angewohnheit: Er erzählt dir Dinge über das Bild, die gar nicht da sind. Vielleicht sieht er auf einem Foto einen Teller und fängt plötzlich an, dir von einem Bier zu erzählen, nur weil Teller und Bier in seinem Gedächtnis oft zusammen vorkommen. Oder er ignoriert das Bild komplett und erzählt eine Geschichte, die nur auf dem passt, was du ihm gerade gesagt hast.

Das ist das Problem, das diese Forscher mit ihrer neuen Methode namens GACD lösen wollen. Sie nennen es „Gradient-basierte Selbstreflexion". Klingt kompliziert? Ist es aber nicht, wenn man es sich wie einen intelligenten Korrekturleser vorstellt, der während des Schreibens mitliest.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der „Halluzinations"-Assistent

Unsere aktuellen KI-Modelle (die Multimodalen Sprachmodelle) sind wie Schüler, die viel gelernt haben, aber manchmal zu viel auf ihre eigenen Vorurteile hören. Es gibt zwei Hauptfehlerquellen:

Der Text-Blindheit: Der Assistent ignoriert das Bild und vertraut nur dem, was du geschrieben hast oder was er vorher schon gesagt hat.
Der „Zusammengehörigkeits"-Trugschluss: Der Assistent denkt: „Ah, ich sehe einen Stuhl! Da muss auch ein Tisch sein!", auch wenn kein Tisch zu sehen ist. Er vermischt Dinge, die oft zusammen vorkommen, mit dem, was wirklich da ist.

2. Die Lösung: Der „Kraft-Messer" (Gradienten)

Statt den Assistenten neu zu trainieren (was teuer und langsam wäre), schauen die Forscher genau hin, wie der Assistent gerade denkt.

Stell dir vor, jedes Wort im Bild (ein Pixel-Cluster) und jedes Wort in deinem Text hat eine unsichtbare Kraft, die den nächsten Satz des Assistenten beeinflusst.

Die neue Methode misst diese Kraft mit einem mathematischen Werkzeug (einem „Gradienten").
Sie fragt sich: „Wie stark hat dieses Bild-Teilchen den Gedanken 'Bier' beeinflusst?"

3. Der Trick: Die „Zwischenprüfung"

Sobald die KI merkt, dass sie gerade ein Wort sagen will (z. B. „Bier"), führt sie eine schnelle Selbstreflexion durch:

Schritt A: Die „Anker"-Prüfung (gegen den Trugschluss)
Die KI schaut: „Habe ich gerade 'Stuhl' gesagt? Wenn ja, welche Bild-Teile haben mich dazu gebracht, jetzt 'Tisch' zu sagen?"
Wenn sie merkt, dass ein bestimmter Bild-Teil (der eigentlich gar keinen Tisch zeigt) den Gedanken „Tisch" zu stark beeinflusst, dämpft sie diesen Einfluss. Es ist, als würde sie einem lauten, aber falschen Freund sagen: „Leise, du hast hier nichts zu melden!"
Schritt B: Die „Bild-Power"-Steigerung (gegen die Blindheit)
Oft ist der Text (deine Frage) lauter als das Bild. Die KI sagt: „Okay, ich muss dem Bild mehr Gehör schenken." Sie verstärkt die Signale von den Bild-Teilen, die nicht mit dem vorherigen Text verknüpft sind. Sie sorgt dafür, dass das Bild wieder „lauter" spricht als die eigenen Vorurteile der KI.

4. Der „Not-Aus"-Schalter

Manchmal, wenn die KI merkt, dass sie sich so sehr in ihre eigene Geschichte verliert, dass das Bild gar keine Rolle mehr spielt, drückt sie auf einen Not-Aus. Sie hört einfach auf zu reden, bevor sie noch mehr Unsinn erzählt. Das verhindert, dass sie lange Texte produziert, die nichts mit dem Bild zu tun haben.

Warum ist das cool?

Kein neues Training: Du musst den Assistenten nicht umschulen. Du gibst ihm einfach einen neuen „Gedankenprozess" für den Moment, in dem er spricht.
Schnell und flexibel: Es funktioniert bei fast allen bestehenden KIs sofort.
Fairer Kompromiss: Früher haben Methoden, die Halluzinationen stoppten, oft auch wichtige Details weggelassen (der Assistent wurde zu vorsichtig). Diese Methode ist wie ein präziser Chirurg: Sie entfernt nur den Unsinn, lässt aber die wichtigen Details stehen.

Zusammenfassend:
Die Forscher haben eine Methode entwickelt, die einem KI-Assistenten beibringt, während des Sprechens kurz innezuhalten und zu prüfen: „Habe ich das wirklich im Bild gesehen, oder erfinde ich das nur, weil es oft zusammen vorkommt?" Durch dieses kleine „Gewissen" werden die Antworten viel ehrlicher und genauer, ohne dass man den Assistenten neu erziehen muss.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) zeigen zwar starke Leistungen in verschiedenen Aufgaben, neigen jedoch häufig zu Halluzinationen. Dabei generieren die Modelle Textinhalte, die nicht durch die visuellen Eingaben (Bilder) gedeckt sind. Das Paper identifiziert zwei Hauptursachen (Bias) für dieses Phänomen:

Text-Visual Bias (Text-Visuelle Verzerrung): Das Modell verlässt sich übermäßig auf den Text-Prompt und zuvor generierte Ausgaben, vernachlässigt dabei aber die visuellen Merkmale. Dies ist besonders bei längeren Sequenzen ausgeprägt, wo das Modell zunehmend visuelle Hinweise ignoriert.
Co-occurrence Bias (Koinzidenz-Bias): Das Modell lernt falsche statistische Korrelationen aus den Trainingsdaten. Es sagt fälschlicherweise die Existenz von Objekten voraus, nur weil diese häufig zusammen mit tatsächlich sichtbaren Objekten auftreten (z. B. die Vorhersage eines „Tisches", wenn nur ein „Stuhl" zu sehen ist).

Bestehende Lösungsansätze haben oft Nachteile: Entweder erfordern sie teures Fine-Tuning, nutzen zusätzliche Hilfsmodelle (wie Segmentierungsnetze), die eigene Fehlerquellen einführen, oder sie arbeiten auf grober Ebene (Bildniveau) ohne die Möglichkeit, einzelne visuelle Merkmale selektiv zu korrigieren.

2. Methodik: GACD (Gradient-based Influence-Aware Constrained Decoding)

Die Autoren schlagen GACD vor, eine Inferenz-basierte Methode, die ohne Fine-Tuning oder externe Modelle auskommt. Der Kernansatz besteht darin, den Einfluss einzelner Token (sowohl visuelle Features als auch Text-Token) auf die Ausgabe mittels Gradienten zu quantifizieren und das Decodieren entsprechend anzupassen.

A. Schätzung des Token-Einflusses (Gradient-Based Token Influence Estimation)

Anstatt nur auf Wahrscheinlichkeiten zu schauen, nutzt GACD eine Taylor-Entwicklung erster Ordnung, um zu verstehen, wie kleine Störungen in den Eingabe-Embeddings die Logits (Ausgabewahrscheinlichkeiten) beeinflussen.

Es werden die Jacobischen (Gradienten) der Logits bezüglich der visuellen Token ( $t_v$ ), Prompt-Token ( $t_p$ ) und vorherigen Ausgaben ( $y_{<m}$ ) berechnet.
Die Bedeutung (Influence) eines Token wird durch die Manhattan-Norm (L1-Norm) seines Gradienten approximiert. Dies erlaubt eine granulare Analyse, wie stark jedes einzelne visuelle Merkmal zur aktuellen Vorhersage beiträgt.

B. Einflussbewusste eingeschränkte Decodierung (Influence-Aware Constrained Decoding)

Basierend auf dieser Schätzung werden zwei Module angewendet:

Objektbewusste Gruppierung visueller Token:
- Für jeden Decodierschritt werden Substantive in der bisherigen Ausgabe erkannt.
- Visuelle Token werden in zwei Gruppen unterteilt:
  - $t_o$ : Mit bereits erwähnten Objekten verknüpfte Token.
  - $t_u$ : Mit Objekten nicht verknüpfte Token (unabhängige visuelle Merkmale).
- Dies geschieht durch Maskierung basierend auf dem maximalen Einfluss der Token auf die vorherigen Substantiv-Vorhersagen.
Ankerspezifische gewichtete Decodierung (Anchor-specific Influence-weighted Decoding):
- Das Ziel ist es, die Logits so anzupassen, dass der Einfluss der unabhängigen visuellen Token ( $t_u$ ) gestärkt wird, um sowohl den Text-Visual-Bias als auch den Co-occurrence-Bias zu bekämpfen.
- Es wird ein negativer Leit-Logit ( $z^o_m$ ) berechnet, der nur auf den mit Objekten verknüpften Token ( $t_o$ ) und Text basiert.
- Die ursprünglichen Logits ( $z^*_m$ ) werden mit einem Gewichtsfaktor $\alpha_m$ angepasst:
  $\hat{z}_m = (1 + \alpha_m) z^*_m - \alpha_m z^o_m$
- Der Faktor $\alpha_m$ wird dynamisch so gewählt, dass der Einfluss der visuellen Token ( $t_u$ ) mit dem dominanten Text-Einfluss (Prompt oder vorherige Ausgabe) übereinstimmt. Dies erhöht die Divergenz (KL-Divergenz) zwischen der Verteilung mit und ohne die spezifischen Objekt-Features, wodurch das Modell gezwungen wird, auf relevante visuelle Details zu achten.
Sample-abhängiges Early Stopping:
- Um Halluzinationen in langen Sequenzen zu verhindern, wird ein Abbruchkriterium eingeführt. Wenn der Anteil des visuellen Einflusses ( $r_v$ ) am Ende einer Sequenz unter einen Schwellenwert fällt, wird die Generierung gestoppt, da weitere Token wahrscheinlich nicht mehr visuell fundiert sind.

3. Hauptbeiträge

Prinzipielle Bias-Schätzung: Einführung einer Methode zur quantitativen Schätzung von Bias auf Token-Ebene mittels Gradienten, ohne zusätzliche Modelle oder Daten.
Zwei komplementäre Module:
1. Unterdrückung von visuellen Features, die stark mit bereits erwähnten Objekten korrelieren (Bekämpfung von Co-occurrence-Bias).
2. Neuabwägung der multimodalen Beiträge durch Stärkung visueller Token gegenüber Text-Token (Bekämpfung von Text-Visual-Bias).
Effizienz: Die Methode ist ein „Plug-and-Play"-Ansatz für die Inferenzzeit, der keine Retraining-Kosten verursacht.

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks (AMBER, MSCOCO, POPE, LLaVA-QA90) mit verschiedenen State-of-the-Art-Modellen (LLaVA, InstructBLIP, mPLUG-Owl2, InternVL2) evaluiert.

Reduktion von Halluzinationen:
- Bis zu 33% Reduktion auf Satzebene und 32% auf Instanzebene (gemessen an CHAIR-Scores).
- Bis zu 57% Reduktion bei Co-occurrence-Halluzinationen.
- Auf dem POPE-Dataset (Diskriminative Aufgabe) wurde eine F1-Score-Steigerung von 8% erreicht.
Verbesserung der Genauigkeit:
- Auf LLaVA-QA90 wurde eine Genauigkeitssteigerung von bis zu 92% und eine Verbesserung der Detailgenauigkeit um 45% erzielt.
- Auf AMBER wurde der Gesamtscore um 8% erhöht.
Erhaltung von Informationen: Im Gegensatz zu vielen anderen Methoden, die Halluzinationen durch Kürzung der Ausgabe reduzieren (was den Recall senkt), behält GACD den Recall (Objekt-Erkennung) weitgehend bei (nur ca. 1,1% Rückgang im Durchschnitt, während andere Methoden ca. 3,2% verlieren).
Robustheit: Die Methode funktioniert konsistent über verschiedene Modellarchitekturen hinweg und verbessert insbesondere Modelle mit einem ursprünglich niedrigen visuellen Einfluss.

5. Bedeutung und Fazit

Das Paper stellt einen bedeutenden Fortschritt in der Behandlung von Multimodal-Halluzinationen dar. Der entscheidende Vorteil von GACD liegt in der Granularität und der Selbstreflexion des Modells:

Anstatt pauschal alle visuellen Features zu behandeln, analysiert GACD den Einfluss jedes einzelnen Tokens.
Es ermöglicht eine dynamische Korrektur während der Inferenz, die spezifisch auf die statistischen Verzerrungen des aktuellen Eingabebeispiels reagiert.
Die Methode beweist, dass man die Zuverlässigkeit von MLLMs signifikant steigern kann, ohne auf teures Training oder externe, fehleranfällige Hilfsmodelle angewiesen zu sein. Dies ist besonders wichtig für Anwendungen, die hohe Faktenzuverlässigkeit erfordern, wie z. B. medizinische Bildanalyse oder assistive Technologien für Sehbehinderte.

Zusammenfassend bietet GACD einen effizienten, theoretisch fundierten Ansatz, um die Lücke zwischen Textgenerierung und visueller Realität in großen Sprachmodellen zu schließen.

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

1. Das Problem: Der „Halluzinations"-Assistent

2. Die Lösung: Der „Kraft-Messer" (Gradienten)

3. Der Trick: Die „Zwischenprüfung"

4. Der „Not-Aus"-Schalter

Warum ist das cool?

1. Problemstellung

2. Methodik: GACD (Gradient-based Influence-Aware Constrained Decoding)

A. Schätzung des Token-Einflusses (Gradient-Based Token Influence Estimation)

B. Einflussbewusste eingeschränkte Decodierung (Influence-Aware Constrained Decoding)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics