HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „halluzinierende" Bild-Beschreiber

Stellen Sie sich vor, Sie haben einen sehr intelligenten Roboter, der Bilder sieht und dazu Geschichten erzählt. Dieser Roboter ist super schlau, hat aber einen seltsamen Fehler: Er erfindet Dinge.

Wenn er ein Bild von einem Hund auf einem Bett sieht, sagt er vielleicht: „Hier ist ein Hund auf einem Bett, und daneben steht ein roter Stuhl."
Aber schauen Sie genau hin: Es gibt keinen Stuhl. Der Roboter hat den Stuhl einfach erfunden, weil er in seiner Datenbank gelernt hat, dass Hunde, Betten und Stühle oft zusammen vorkommen. Er verwechselt seine „Wahrscheinlichkeiten" mit der „Wirklichkeit".

Das nennt man Halluzination. Das ist gefährlich, wenn der Roboter in der echten Welt eingesetzt wird (z. B. in der Medizin oder beim Autofahren), denn dann vertraut er auf Dinge, die gar nicht da sind.

Die alten Lösungen: Der „Kleber" und der „Hammer"

Bisher gab es zwei Wege, das zu beheben:

Neulernen (Fine-Tuning): Man bringt dem Roboter bei, die Fehler nicht zu machen. Das ist wie ein Schüler, der jahrelang Nachhilfe bekommt. Es funktioniert gut, ist aber extrem teuer und langsam.
Stumpfes Editieren (Model Editing): Man nimmt den Roboter auseinander und versucht, die „falschen" Gedanken im Gehirn zu löschen. Ein früherer Versuch (genannt Nullu) war wie ein grober Hammer: Man hat einfach alle Schichten des Gehirns gleich stark bearbeitet.
- Das Problem: Wenn man den Hammer zu fest schwingt, zerstört man nicht nur den Stuhl (die Halluzination), sondern man beschädigt auch das Bett (die echte Information). Der Roboter vergisst dann vielleicht, dass es überhaupt ein Bett gibt.

Die neue Lösung: HIME (Der „chirurgische Skalpell")

Die Forscher haben eine neue Methode namens HIME entwickelt. Das steht für Hallucination Insensitivity Model Editing.

Stellen Sie sich das Gehirn des Roboters nicht als einen einzigen Block vor, sondern als einen Turm aus vielen Etagen (Schichten).

In den unteren Etagen wird das Bild gescannt.
In den mittleren Etagen werden die Details verarbeitet.
In den oberen Etagen werden die Sätze gebildet.

Die Forscher haben entdeckt: Nicht jede Etage ist gleich anfällig für Lügen.

Manche Etagen sind sehr „stark" und halten sich strikt an das Bild.
Andere Etagen sind „labile" und beginnen, Dinge zu erfinden, die gar nicht da sind.

Der Trick: Der „Lügen-Radar" (HIS)

Bevor sie etwas reparieren, bauen sie einen Lügen-Radar (den Hallucination Insensitivity Score oder HIS).

Dieser Radar prüft jede Etage des Turms einzeln.
Er fragt: „Wie sehr verwechselt diese Etage die Wahrheit mit Lügen?"
Wenn eine Etage sehr anfällig ist, zeigt der Radar rot an. Ist sie stabil, zeigt er grün an.

Die Reparatur: Das „adaptive Skalpell"

Anstatt den ganzen Turm mit dem Hammer zu bearbeiten, nutzt HIME ein chirurgisches Skalpell:

Es schaut auf den Radar.
Es greift nur die Etagen an, die rot anzeigen (die labilen).
Es passt die „Gewichte" (die Verbindungen) in diesen Etagen ganz vorsichtig an.
Die stabilen Etagen (die das echte Bild kennen) bleiben unberührt.

Die Analogie:
Stellen Sie sich vor, Sie haben ein Orchester. Einige Musiker spielen falsch (halluzinieren), andere spielen perfekt.

Die alte Methode (Hammer) hätte alle Musiker zum Schweigen gebracht, damit niemand mehr falsch spielt. Aber dann ist die Musik auch weg.
Die neue Methode (HIME) ist wie ein Dirigent, der genau weiß, welche Geiger falsch spielen. Er sagt nur diesen Geigern: „Leiser spielen!" Die anderen Geiger dürfen weiter laut und perfekt spielen. Das Ergebnis ist eine saubere Musik ohne die falschen Töne.

Das Ergebnis

Durch diese Methode passiert Folgendes:

Weniger Lügen: Der Roboter erfindet viel weniger Dinge (im Durchschnitt 61,8 % weniger Halluzinationen!).
Kein Gedächtnisverlust: Er vergisst nicht, was er eigentlich gesehen hat (das Bett bleibt ein Bett).
Kein Extra-Aufwand: Der Roboter wird nicht langsamer und braucht keinen mehr Speicherplatz. Es ist eine einmalige Reparatur, und danach läuft er einfach schneller und genauer.

Zusammenfassend: HIME ist wie ein kluger Arzt für KI-Modelle. Statt das ganze Gehirn zu operieren, findet er genau die Stelle, wo der Tumor (die Halluzination) sitzt, entfernt ihn vorsichtig und schont dabei das gesunde Gewebe (das echte Wissen).

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Large Vision-Language Models (LVLMs) haben beeindruckende multimodale Fähigkeiten entwickelt, leiden jedoch unter dem Phänomen der Objekt-Halluzination. Dabei beschreiben Modelle nicht existente Objekte oder weisen falsche Attribute zu, die nicht im visuellen Input begründet sind. Dies gefährdet die Zuverlässigkeit von LVLMs in sicherheitskritischen Anwendungen.

Bisherige Lösungsansätze lassen sich in zwei Kategorien einteilen:

Fine-Tuning: Erfasst oft kuratierte Supervision und hohe Rechenkosten, was schnelle Updates erschwert.
Training-freie Methoden: Dazu gehören Decoding-Zeit-Interventionen (z. B. kontrastives Decoding), die jedoch zusätzliche Latenz und Inferenzkosten verursachen, sowie Gewicht-Editing-Methoden.

Ein zentrales Problem bestehender Editing-Methoden (wie Nullu) ist die indiskriminierende, einheitliche Bearbeitung aller Schichten des Modells. Dies führt oft zu einer Verzerrung des vorab trainierten Wissens (Knowledge Distortion), bei dem zwar Halluzinationen reduziert, aber gleichzeitig korrekte visuelle Informationen (z. B. ein tatsächlich vorhandenes Bett) unterdrückt werden. Die Frage ist: Wie viel Eingriff ist in welcher Schicht notwendig, um Halluzinationen zu unterdrücken, ohne das vorab trainierte Wissen zu zerstören?

2. Methodik: HIME (Hallucination Insensitivity Model Editing)

HIME ist ein training-freier Ansatz, der auf einer systematischen Analyse der Schicht-spezifischen Anfälligkeit für Halluzinationen basiert. Der Workflow gliedert sich in folgende Schritte:

A. Schichtweise Analyse und HIS (Hallucination Insensitivity Score)

Die Autoren analysierten LVLMs auf Basis verschiedener Backbones (Qwen, LLaMA, Vicuna). Sie stellten fest, dass die Anfälligkeit für Halluzinationen nicht uniform über alle Schichten verteilt ist, sondern starke Tiefenabhängigkeiten aufweist.
Um dies zu quantifizieren, wurde der Hallucination Insensitivity Score (HIS) eingeführt:

Prinzip: Der HIS misst die Divergenz der Aufmerksamkeitsverteilungen (Attention Distributions) zwischen einem wahrheitsgemäßen (ground-truth) und einem halluzinierten Text-Input über die Schichten hinweg.
Berechnung: Für jede Schicht $\ell$ werden die Aufmerksamkeitsmatrizen für wahre ( $x^+$ ) und halluzinierte ( $x^-$ ) Samples verglichen. Die Divergenz wird mittels Kullback-Leibler-Divergenz (KL-Divergenz) berechnet:
$HIS_\ell = D_{KL}(p_\ell \parallel q_\ell)$
Interpretation: Ein niedriger HIS-Wert deutet auf eine hohe Anfälligkeit (geringe Unterscheidbarkeit zwischen Wahrheit und Halluzination) hin und markiert diese Schichten als primäre Ziele für Intervention. Ein hoher HIS-Wert zeigt robuste Schichten, die weniger bearbeitet werden sollten.

B. Layer-adaptives Gewicht-Editing

Anstatt alle Schichten gleich zu bearbeiten, nutzt HIME den HIS, um eine gewichtete Projektion durchzuführen:

Feature-Extraktion: Es werden kontextuelle Embeddings für wahre und halluzinierte Samples extrahiert und mit der Aufmerksamkeitsverteilung gewichtet, um „attention-guided features" zu erhalten.
Subraum-Erkennung: Durch Differenzbildung ( $Z_\ell = Z^+_\ell - Z^-_\ell$ ) und Singulärwertzerlegung (SVD) wird ein niedrig-rangiger Subraum identifiziert, der die Diskrepanz zwischen wahrer und halluzinierter Darstellung beschreibt (der „Halluzinations-Subraum").
Gewichtete Korrektur: Die MLP-Gewichte werden nicht vollständig in den Nullraum projiziert (was zu abrupten Änderungen führt), sondern mittels eines gewichteten Operators angepasst:
$N_\ell = I - HIS^c_\ell \cdot P_\ell$
Hierbei ist $P_\ell$ der Projektionsoperator auf den Halluzinations-Subraum und $HIS^c_\ell$ der komplementäre Score (1 - HIS), der die Stärke der Korrektur steuert. Schichten mit hoher Anfälligkeit (niedriger HIS) erhalten eine stärkere Korrektur, während robuste Schichten weitgehend intakt bleiben.

3. Hauptbeiträge

Systematische Analyse: Nachweis, dass Objekt-Halluzinationen in LVLMs tiefenabhängige Muster aufweisen und nicht uniform über den Decoder verteilt sind.
HIS-Metrik: Einführung eines prinzipiellen Metrik-Systems (HIS), das die Anfälligkeit jeder Schicht quantifiziert und gezielte Eingriffe ermöglicht.
HIME-Algorithmus: Entwicklung einer training-freien, layer-adaptiven Editing-Methode, die Halluzinationen unterdrückt, ohne zusätzliche Parameter, Latenz oder Rechenkosten bei der Inferenz einzuführen.

4. Ergebnisse

Die Methode wurde auf drei LVLM-Backbones (LLaVA-1.5, MiniGPT-4, mPLUG-Owl2) sowie fortschrittlichen Modellen (Qwen2/3-VL) und mehreren Benchmarks evaluiert:

Reduktion von Halluzinationen: HIME reduzierte Objekt-Halluzinationen im Durchschnitt um 61,8% auf Open-Ended-Generation-Benchmarks (gemessen an CHAIR).
- Auf dem CHAIR-Datensatz (Sentence-Level) erzielte HIME bei LLaVA-1.5 einen Wert von 13,80 (vs. 20,40 beim Baseline), was eine signifikante Verbesserung darstellt.
Erhaltung des Wissens: Im Gegensatz zu uniformen Editing-Methoden (wie Nullu) behielt HIME die Fähigkeit des Modells, existierende Objekte korrekt zu beschreiben, bei und verbesserte sogar die BLEU-Scores.
MME Benchmark: Auf dem MME-Benchmark (Multimodal Evaluation) zeigte HIME konsistente Verbesserungen in Wahrnehmungsaufgaben (z. B. Zählen, Positionierung, Erkennung von Prominenten) ohne Verschlechterung der kognitiven Fähigkeiten.
GPT-4V Evaluation: In einer durch GPT-4V unterstützten Bewertung zeigte HIME eine höhere Genauigkeit und Detailtiefe als der Baseline und andere State-of-the-Art-Methoden.
Effizienz: Da die Gewichte offline editiert werden, entstehen keine zusätzlichen Parameter, keine Latenz und kein Rechenaufwand während der Inferenz.

5. Bedeutung und Fazit

HIME adressiert das fundamentale Dilemma zwischen der Unterdrückung von Halluzinationen und der Bewahrung des vorab trainierten Wissens. Durch die Erkenntnis, dass Halluzinationen schichtenspezifisch auftreten, ermöglicht HIME eine präzise, adaptive Intervention.

Die Methode stellt einen wichtigen Schritt hin zu zuverlässigen LVLMs dar, da sie:

Training-frei ist und somit schnell auf neue Modelle anwendbar ist.
Keine Inferenz-Overhead verursacht, was für den realen Einsatz entscheidend ist.
Die Qualität der Generierung (Genauigkeit und Detailreichtum) signifikant steigert, ohne das Modell zu „verwässern".

Zusammenfassend bietet HIME einen robusten Rahmen, um die Zuverlässigkeit multimodaler Systeme durch datengetriebene, schichtspezifische Modell-Editing-Techniken zu erhöhen.