MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber etwas verwirrten Freund, der alles sehen und hören kann. Er ist ein „All-in-One"-Künstlicher Intelligenz-Assistent (ein sogenannter „Omni-LLM"). Wenn du ihm ein Video zeigst, in dem ein Hund bellt, antwortet er sofort: „Ja, ich höre das Bellen!" – auch wenn im Video eigentlich nur eine Katze sitzt und der Ton stummgeschaltet ist.

Warum macht er das? Weil er zu sehr auf seine eigene „Sprach-Erfahrung" vertraut. Er hat so viele Texte gelesen, dass er denkt: „Hund + Video = Bellen". Er ignoriert das, was er wirklich sieht oder hört, und halluziniert stattdessen Dinge, die logisch klingen, aber falsch sind.

Die Forscher aus diesem Papier haben eine Lösung namens MoD-DPO entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der „Lautsprecher im Kopf"

Stell dir vor, dein KI-Freund hat einen lauten Lautsprecher im Kopf, der nur Text spricht. Wenn du ihm ein Video zeigst, schreit dieser Lautsprecher: „Ich weiß, was da passiert!" – basierend auf dem, was er in Büchern gelesen hat, nicht auf dem, was auf dem Bildschirm passiert.

Beispiel: Du zeigst ein Video von einem stummen Fluss. Der Lautsprecher schreit: „Ich höre das Rauschen des Wassers!", weil er in Geschichten oft über fließende Wasser liest. Das ist eine Halluzination.

2. Die Lösung: MoD-DPO (Der „Modus-Entkoppel-Trainer")

Die Forscher sagen: „Halt! Wir müssen dem KI-Freund beibringen, zwischen den Sinnesorganen zu unterscheiden." Sie nutzen eine Trainingsmethode namens MoD-DPO.

Stell dir MoD-DPO wie einen strengen, aber fairen Trainer vor, der zwei spezielle Übungen mit dem KI-Freund macht:

Übung A: „Der Taubheits-Test" (Invarianz)

Der Trainer nimmt das Video und spielt stattdessen einen völlig anderen, lauten Lärm ab (z. B. ein Kochen oder ein Auto).

Die Frage: „Was siehst du im Video?"
Die richtige Antwort: „Ich sehe einen Fluss." (Der Lärm im Hintergrund sollte nichts ändern).
Der Fehler: Wenn der KI-Freund sagt: „Ich sehe einen Fluss, weil ich das Kochen höre", dann hat er versagt.
Die Strafe: Der Trainer sagt: „Nein! Das Kochen ist irrelevant. Deine Antwort darf sich nicht ändern, nur weil der Ton verrückt spielt." Das zwingt die KI, sich auf das Bild zu konzentrieren und den Ton zu ignorieren, wenn er nicht dazu passt.

Übung B: „Der Blindheits-Test" (Sensitivität)

Jetzt macht der Trainer das Gegenteil. Er löscht das Bild des Flusses komplett (macht es schwarz) und lässt nur den Ton des Wassers laufen.

Die Frage: „Was siehst du?"
Die richtige Antwort: „Ich sehe nichts!" (Weil das Bild weg ist).
Der Fehler: Wenn die KI trotzdem sagt: „Ich sehe einen Fluss, weil ich das Wasser höre", dann ist sie blind für die Realität.
Die Belohnung/Strafe: Der Trainer sagt: „Genau! Wenn das Bild weg ist, musst du auch die Antwort ändern. Du darfst nicht einfach raten."

3. Der „Text-Dämpfer" (Sprach-Vorurteile entfernen)

Es gibt noch ein drittes Problem: Der KI-Freund ist so schlau im Reden, dass er manchmal denkt, er müsse die Antwort immer aus dem Text ableiten, selbst wenn er die Augen schließen könnte.

Die Forscher fügen eine spezielle „Gegengift"-Dosis hinzu:

Sie sagen der KI: „Wenn du eine Antwort nur mit deinen Text-Kenntnissen (ohne Bild oder Ton) gibst, bekommst du eine Strafpunkte."
Das zwingt die KI, aktiv nachzudenken: „Muss ich wirklich nur raten, oder habe ich wirklich gesehen/gehört?"

Das Ergebnis: Ein besserer Beobachter

Durch dieses Training lernt die KI:

Ignorieren: Wenn eine Information (z. B. der Ton) nicht zur Frage (z. B. „Was siehst du?") passt, ignoriere sie einfach.
Reagieren: Wenn die wichtige Information (z. B. das Bild) fehlt oder verändert wird, ändere deine Antwort sofort.
Nicht raten: Verlasse dich nicht nur auf das, was du in Büchern gelesen hast.

Zusammenfassend:
MoD-DPO ist wie ein Training für einen Sportler, der lernt, sich auf eine Sache zu konzentrieren, anstatt von allem abgelenkt zu werden. Statt blindlings zu glauben, was er „gehört" hat, wenn er eigentlich „sehen" soll, wird er gezwungen, die Realität genau zu prüfen. Das Ergebnis ist eine KI, die weniger lügt, weniger halluziniert und uns Menschen viel zuverlässiger bei der Analyse von Videos und Tönen hilft.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Omni-Modale Large Language Models (Omni LLMs), die Audio, Video und Text verarbeiten, haben zwar beeindruckende Fortschritte erzielt, leiden jedoch stark unter Cross-Modal-Halluzinationen. Diese entstehen durch zwei Hauptursachen:

Spurious Inter-Modality Correlations (Irreführende intermodale Korrelationen): Das Modell lernt während des Trainings falsche Zusammenhänge zwischen Modalitäten (z. B. hört es ein Geräusch und „sieht" fälschlicherweise ein Objekt, das nicht im Video ist, oder umgekehrt).
Übermäßige Abhängigkeit von Sprach-Priors (Language Priors): Da die Backbones dieser Modelle oft auf großen Textkorpora vortrainiert wurden, neigen sie dazu, Antworten basierend auf rein textlichen Wahrscheinlichkeiten zu generieren, anstatt die tatsächlichen audiovisuellen Eingaben zu berücksichtigen.

Bestehende Ansätze wie Direct Preference Optimization (DPO) oder Decoding-Time-Methoden (z. B. Visual Contrastive Decoding) lösen diese Probleme oft nur unzureichend, da sie die Modalitäten während der Optimierung nicht explizit entkoppeln oder keine spezifischen Strafterme für rein textbasierte Halluzinationen enthalten.

2. Methodik: MoD-DPO

Die Autoren schlagen MoD-DPO (Modality-Decoupled Direct Preference Optimization) vor, ein Framework, das die Standard-DPO-Zielfunktion erweitert, um die Modalitäten während des Trainings explizit zu entkoppeln.

A. Entkopplung der Modalitätseingaben (Modality Decoupling)

Das Kernkonzept basiert auf zwei komplementären Eigenschaften, die durch Regularisierungsterme erzwungen werden:

Invarianz (Invariance): Die Ausgabe des Modells soll stabil bleiben, wenn die für die Frage irrelevante Modalität korruptiert wird (z. B. Rauschen im Audio bei einer visuellen Frage). Dies verhindert, dass das Modell auf irrelevante Eingaben reagiert.
Sensitivität (Sensitivity): Die Ausgabe soll sich signifikant ändern, wenn die relevante Modalität korruptiert wird. Dies zwingt das Modell, sich auf die korrekte Informationsquelle zu stützen.

Mathematisch wird dies durch zusätzliche KL-Divergenz-Terme in der DPO-Loss-Funktion umgesetzt. Für eine visuelle Frage ( $x_v$ ) wird die Zielfunktion modifiziert, um die Stabilität gegenüber korruptem Audio ( $a'$ ) und die Empfindlichkeit gegenüber korruptem Video ( $v'$ ) zu gewährleisten.

B. Debiasing von Sprach-Priors (Language-Prior Debiasing - LPD)

Um die Überdominanz des Textmodells zu bekämpfen, wird ein Sprach-Prior-Debiasing-Strafterm eingeführt. Dieser bestraft die Wahrscheinlichkeit von Antworten, die nur auf Texteingaben basieren, wenn audiovisuelle Daten vorhanden sind.

Die Strafe wird berechnet, indem die Log-Wahrscheinlichkeit der gewählten Antwort unter Verwendung eines reinen Textmodells ( $\pi_{text}$ ) minimiert wird.
Dies zwingt das Omni-Modell, audiovisuelle Beweise aktiv zu nutzen, anstatt sich auf Text-Statistiken zu verlassen.

C. Datengenerierung

Da manuelle Daten teuer sind, wurde ein automatischer Pipeline entwickelt, um einen Präferenzdatensatz mit über 18.100 Samples (basierend auf 10.800 Videos) zu erstellen:

Entkopplung: Audio und Video werden getrennt verarbeitet, um separate Beschreibungen (Captions) und Tags zu generieren.
QA-Generierung: GPT-4o generiert Fragen und Antworten basierend auf den getrennten Modalitäten.
Hard-Negative-Erstellung: Für abgelehnte Antworten ( $y_l$ ) werden Informationen aus der irrelevanten Modalität verwendet (z. B. eine falsche Antwort auf eine Video-Frage, die auf Audio-Informationen basiert), um das Modell zu zwingen, die richtige Modalität zu unterscheiden.

3. Wichtige Beiträge

MoD-DPO Framework: Ein neues Optimierungsverfahren, das Invarianz gegenüber irrelevanter Modalitätskorruption und Sensitivität gegenüber relevanter Korruption erzwingt.
Sprach-Prior-Debiasing: Eine innovative Straffunktion, die die Überanpassung an Text-Priors in multimodalen Modellen reduziert.
Automatisierter Datensatz: Erstellung eines großen, automatisch generierten Präferenzdatensatzes mit „Hard Negatives", der spezifisch auf Cross-Modal-Halluzinationen abzielt.
Theoretische Herleitung: Die Autoren leiten eine geschlossene Lösung für das modifizierte DPO-Objektiv her und zeigen, wie sich dies in die Standard-Bradley-Terry-Loss-Funktion integrieren lässt.

4. Ergebnisse

Die Methode wurde auf den Benchmarks AVHBench und Curse of Multi-Modalities (CMM) evaluiert und mit State-of-the-Art-Modellen (Qwen 2.5 Omni, MiniCPM-O 2.6) sowie Baselines wie Vanilla DPO und OmniDPO verglichen.

Überlegene Leistung: MoD-DPO und die erweiterte Version MoD-DPO++ übertreffen alle Baselines konsistent in Bezug auf Genauigkeit, Präzision, Recall und F1-Score.
- Auf AVHBench zeigte MoD-DPO++ Verbesserungen von bis zu 27 % in der audiovisuellen Zuordnungsaufgabe im Vergleich zum Referenzmodell.
- Auf CMM wurden die Halluzinationsresistenz und die Wahrnehmungsgenauigkeit signifikant gesteigert.
Ablationsstudien: Die Studie bestätigt, dass sowohl die Invarianz/Sensitivitäts-Terme als auch der LPD-Strafterm essenziell sind. Der LPD-Term allein führte zu einer drastischen Verbesserung der Halluzinationsresistenz.
Robustheit: Das Modell zeigt eine höhere Robustheit gegenüber adversarialen Eingaben (z. B. Rauschen in der irrelevanten Modalität), behält aber die Sensitivität für die relevante Modalität bei.
Aufmerksamkeitsverteilung: Analysen der Aufmerksamkeitsmechanismen zeigen, dass MoD-DPO++ die Aufmerksamkeit des Modells signifikant stärker auf audiovisuelle Tokens lenkt, anstatt sich auf Text zu verlassen.
Effizienz: Trotz zusätzlicher Forward-Passes für korrupte Eingaben ist der Trainingsaufwand gering, da keine Gradienten für diese zusätzlichen Passes berechnet werden müssen. Das Modell konvergiert schneller als vergleichbare Methoden.

5. Bedeutung und Fazit

MoD-DPO stellt einen wichtigen Schritt hin zu zuverlässigeren und widerstandsfähigeren multimodalen Foundation-Modellen dar.

Paradigmenwechsel: Statt Halluzinationen nur durch Nachbearbeitung (Decoding-Time) zu bekämpfen, adressiert MoD-DPO die Wurzel des Problems durch strukturierte Präferenzoptimierung während des Trainings.
Skalierbarkeit: Der Ansatz ist skalierbar, da der benötigte Präferenzdatensatz automatisch generiert werden kann.
Zukunft: Die Arbeit unterstreicht die Notwendigkeit einer „modalitäts-treuen Ausrichtung" (modality-faithful alignment), bei der Modelle lernen, die richtige Informationsquelle für eine gegebene Frage zu identifizieren und zu nutzen, anstatt sich auf statistische Korrelationen oder Textpriors zu verlassen.

Zusammenfassend bietet MoD-DPO einen effektiven und effizienten Weg, um die Zuverlässigkeit von Omni-LLMs in komplexen audiovisuellen Szenarien zu erhöhen, indem es die Modellarchitektur zwingt, die Grenzen zwischen den Modalitäten klar zu respektieren.