Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Vision-Language-Modell (ein KI-System, das Bilder sieht und darüber spricht) ist wie ein sehr gut ausgebildeter, aber manchmal etwas überängstlicher Übersetzer.

Wenn du ihm ein Bild zeigst, versucht er, alles zu beschreiben. Das Problem: Manchmal erfindet er Dinge, die gar nicht da sind. Das nennt man „Halluzination". Zum Beispiel sagt er: „Hier ist ein Apfel", obwohl auf dem Bild nur eine Banane liegt.

Bisher haben Forscher versucht, diese Lügen zu entlarven, indem sie sich nur das Ende des Satzes angesehen haben. Sie haben gedacht: „Wenn der Übersetzer am Ende unsicher klingt, dann lügt er wahrscheinlich." Oder sie haben geguckt, wie stark er auf bestimmte Bildteile „geachtet" hat.

Aber diese neue Studie sagt: „Nein, schaut nicht nur auf das Ergebnis, schaut euch den Denkprozess an!"

Hier ist die einfache Erklärung der neuen Entdeckung:

1. Das Problem: Der „Überdenker" (Overthinking)

Stell dir vor, du bist in einer Küche und siehst einen Spülbecken-Hahn und eine Seife.

Der normale Denkprozess: Du siehst Hahn und Seife $\rightarrow$ Du denkst sofort „Spülbecken" $\rightarrow$ Du sagst „Spülbecken". Das ist stabil.
Der „Überdenker"-Prozess: Du siehst Hahn und Seife. Dein Gehirn fängt an zu zappeln: „Ist das ein Spülbecken? Oder vielleicht ein Waschbecken? Oder ein Eimer? Warte, Seife passt auch zu einer Schüssel... vielleicht ist da eine Schüssel?"
- In diesem Moment denkt die KI über zu viele Möglichkeiten nach. Sie springt von einer Idee zur nächsten (Hahn $\rightarrow$ Seife $\rightarrow$ Schüssel $\rightarrow$ Teller).
- Am Ende entscheidet sie sich fest für etwas, das gar nicht da ist (z. B. „Teller"), nur weil ihre Gedanken in der Zwischenzeit so durcheinandergeraten sind.

Die Forscher nennen dieses Phänomen „Confounder Propagation" (Verbreitung von verwirrenden Faktoren). Es ist, als würde die KI von einem falschen Gedanken infiziert werden, der sich durch alle Schichten ihres Gehirns hindurchschlängelt, bis sie am Ende fest davon überzeugt ist, dass der „Teller" da ist.

2. Warum die alten Methoden versagen

Frühere Methoden waren wie ein Polizist, der nur das Endergebnis eines Verhörs liest.

Wenn die KI am Ende sehr selbstbewusst sagt: „Da ist ein Teller!", dachten die alten Methoden: „Okay, sie ist sicher, also ist es wahr."
Oder sie sagten: „Sie hat stark auf den Hahn geschaut, also muss sie den Teller gesehen haben."

Die Studie zeigt aber: Die KI kann am Ende sehr selbstbewusst sein, auch wenn sie lügt! Sie ist nur so fest in ihrer falschen Überzeugung gefangen, weil sie im „Zwischendurch" (in den mittleren Schichten des Modells) zu viele falsche Ideen gesammelt hat.

3. Die neue Lösung: Der „Überdenker-Score" (Overthinking Score)

Die Forscher haben eine neue Messlatte erfunden, die sie „Overthinking Score" nennen.

Stell dir das wie einen Seismographen für Gedanken vor.

Anstatt nur auf das Ende zu schauen, messen sie, wie oft die KI ihre Meinung ändert, während sie den Satz schreibt.
Wenig Score: Die KI denkt ruhig: „Hahn, Seife... ja, Spülbecken." (Stabil, keine Halluzination).
Hoher Score: Die KI denkt: „Hahn... Seife... Schüssel? Teller? Tasse? Teller? Tasse? Teller!" (Viele wechselnde Ideen, hohe Unsicherheit im Prozess).

Wenn der Score hoch ist, weiß die KI: „Achtung, hier überdenke ich zu viel und springe zwischen zu vielen Ideen hin und her. Die Wahrscheinlichkeit, dass ich jetzt etwas Erfindes, ist riesig."

4. Das Ergebnis

Mit diesem neuen „Seismographen" können die Forscher die Lügen der KI viel besser erkennen als mit den alten Methoden.

Sie haben gezeigt, dass KI-Modelle, die „überdenken", viel häufiger Dinge erfinden, die nicht da sind.
Der neue Score funktioniert auch dann, wenn die KI sehr selbstbewusst klingt (was die alten Methoden täuschte).

Zusammenfassung in einem Satz

Früher haben wir geglaubt, eine lügende KI erkennt man daran, dass sie am Ende unsicher ist oder nicht gut hinschaut. Die neue Studie zeigt: Eine lügende KI ist oft jemand, der im Kopf zu viel überlegt, zu viele falsche Ideen durchspielt und sich dann in einer falschen Überzeugung festfährt. Wenn man diesen „Gedanken-Chaos"-Prozess misst, kann man die Lügen sofort entlarven.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) neigen dazu, Objekte zu beschreiben, die in den Eingabebildern nicht vorhanden sind (Halluzinationen). Bisherige Detektionsmethoden leiden unter zwei Hauptproblemen:

Fokus auf die Endausgabe: Die meisten bestehenden Ansätze stützen sich ausschließlich auf Signale der letzten Schicht (z. B. Entropie oder Unsicherheit des finalen Tokens). Die Autoren zeigen jedoch, dass Modelle oft bereits in früheren Schichten eine falsche Hypothese festigen und diese dann mit hoher Sicherheit (niedriger Entropie) ausgeben.
Fehlerhafte Annahmen über Aufmerksamkeit: Methoden, die auf Aufmerksamkeitsmagnituden basieren (z. B. SVAR), gehen fälschlicherweise davon aus, dass real existierende Objekte eine höhere visuelle Aufmerksamkeit erhalten als halluzinierte. Die Analyse zeigt jedoch, dass bei starken kontextuellen Vorannahmen (z. B. „Küche" impliziert „Spüle") auch halluzinierte Objekte hohe Aufmerksamkeit erhalten können.

Das Kernproblem ist die Propagation von Konfoundern: Modelle entwickeln in den mittleren Schichten plausible, aber falsche Objekt-Hypothesen (Konfounder), die durch die Schichten hindurch propagieren und die finale, falsche Vorhersage verzerren.

2. Methodik

Die Autoren schlagen einen neuen Ansatz vor, der den internen Denkprozess des Modells über alle Schichten hinweg analysiert, anstatt nur das Endergebnis zu betrachten.

A. Analyse des „Overthinking"-Phänomens

Durch die Verwendung von LogitLens (eine Technik zur Dekodierung von Hidden States in den Vokabularraum) untersuchen die Autoren die Top-1-Tokens in jeder Decoder-Schicht. Sie identifizieren zwei kritische Phänomene:

Konfounder-Propagation: In den mittleren Schichten tauchen semantisch verwandte, aber falsche Objekte auf (z. B. „Spüle" und „Seife" in einer Küche), die das Modell dazu verleiten, ein nicht vorhandenes Objekt (z. B. „Teller") vorherzusagen.
Overthinking: Das Modell wechselt häufig zwischen verschiedenen Objekt-Hypothesen über die Schichten hinweg, bevor es sich für eine falsche Antwort festlegt. Hohe Unsicherheit (Entropie) und eine große Vielfalt an Hypothesen in den Zwischenschichten korrelieren stark mit Halluzinationen.

B. Der Overthinking Score (S-OT)

Um dieses Verhalten zu quantifizieren, führen die Autoren den Overthinking Score ein. Er kombiniert zwei Metriken:

Vielfalt der Hypothesen: Die Anzahl der einzigartigen Top-1-Tokens über alle $L$ Schichten hinweg.
Unsicherheit: Die durchschnittliche Entropie über alle Schichten.

Die Formel lautet:
$S_{OT} = \frac{|\{x_\ell | \ell \in [1, L]\}|}{L} \cdot \frac{\sum_{\ell=1}^{L} H_\ell}{L}$
Wobei $x_\ell$ der Top-1-Token und $H_\ell$ die Entropie in Schicht $\ell$ ist. Ein hoher Score deutet darauf hin, dass das Modell „überdenkt" (zu viele konkurrierende Hypothesen und hohe Unsicherheit), was die Wahrscheinlichkeit einer Halluzination erhöht.

C. Detektions-Pipeline

Prefix-Prompting: Das Modell erhält ein Bild und einen Teil des Textes, um das nächste Objekt-Token vorherzusagen.
Feature-Extraktion: Für jedes generierte Token werden extrahiert:
- Der Overthinking Score ( $S_{OT}$ ).
- Schichtweise Entropie ( $H$ ).
- Bild-Aufmerksamkeit (wie stark das Token auf Bild-Patches achtet).
- Text-Aufmerksamkeit (wie stark das Token auf den vorherigen Textkontext achtet).
Klassifikation: Diese Features werden zu einem Vektor zusammengefasst und von einem leichten Klassifikator (z. B. Gradient Boosting oder MLP) genutzt, um zu bestimmen, ob das Token real oder halluziniert ist.

3. Wichtige Beiträge

Entdeckung der Konfounder-Propagation: Die Arbeit zeigt erstmals, dass Halluzinationen oft durch die Akkumulation und Propagation falscher, aber kontextuell plausibler Hypothesen in den mittleren Schichten entstehen, die von Endschicht-Analysen übersehen werden.
Überwindung von Limitationen bestehender Methoden: Der Ansatz funktioniert auch bei starken kontextuellen Vorannahmen, wo Aufmerksamkeits-basierte Methoden versagen, da er den semantischen Wandel über die Schichten hinweg verfolgt.
Overthinking Score: Einführung einer neuen Metrik, die die Instabilität und Vielfalt der internen Denkprozesse quantifiziert und sich als starker Prädiktor für Halluzinationen erweist.

4. Ergebnisse

Die Methode wurde auf drei gängigen VLMs (LLaVA-1.5, Gemma-3, Qwen3-VL) und zwei Datensätzen (MSCOCO, AMBER) evaluiert:

Leistung auf MSCOCO: Der Ansatz erreicht im Durchschnitt eine F1-Score von 75,97% (mit Gradient Boosting) und einen AUC von 87,30%. Dies übertrifft die aktuellen State-of-the-Art-Methoden wie SVAR, HalLoc und MetaToken signifikant.
Out-of-Distribution (OOD) Generalisierung: Auf dem AMBER-Datensatz erzielt die Methode einen F1-Score von 71,58%, was deutlich höher ist als bei den Baselines (z. B. SVAR: 56,87%).
Robustheit bei starken Priors: In Szenarien mit starken kontextuellen Vorannahmen, in denen SVAR versagt (da es falsche Objekte fälschlicherweise als real klassifiziert), bleibt die Overthinking-Methode robust.
Ablationsstudie: Der Overthinking Score allein trägt den größten Teil zur Leistungssteigerung bei. Die Nutzung aller Schichten (nicht nur der mittleren oder letzten) ist entscheidend für die beste Performance.

5. Bedeutung und Fazit

Dieses Paper verschiebt den Fokus der Halluzinationsdetektion von der reinen Analyse des Endoutputs hin zur Interpretierbarkeit des Inferenzprozesses. Es zeigt, dass das „Überdenken" (Overthinking) – also das Hin- und Herwechseln zwischen Hypothesen und die Akkumulation von Unsicherheit in den Zwischenschichten – eine direkte Ursache für Halluzinationen ist.

Die vorgestellte Methode ist rechnerisch effizient (nur ca. 36% mehr Inferenzzeit als eine Standard-Suche) und bietet einen neuen, robusten Weg, um VLMs zu überwachen, ohne auf externe, teure Judge-Modelle angewiesen zu sein. Sie legt den Grundstein für zukünftige Arbeiten zur Reduzierung von Halluzinationen durch die Steuerung der Konfounder-Dynamik innerhalb des Modells.