MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Les "Hallucinations" des Super-Intelligences

Imaginez un super-robot (un modèle d'IA "Omni") qui a des yeux pour voir des vidéos et des oreilles pour entendre des sons. Il est très intelligent et parle couramment.

Le problème, c'est qu'il a tendance à rêver éveillé.

Si vous lui montrez une vidéo d'une rue calme et que vous lui demandez : "Entends-tu un chien aboyer ?", il pourrait répondre "Oui" simplement parce que dans son entraînement, les vidéos de rues sont souvent associées à des sons de chiens.
Ou inversement, s'il entend un bruit de pluie, il pourrait "voir" une inondation dans une vidéo qui montre juste un ciel gris, même si l'eau ne coule pas.

C'est ce qu'on appelle une hallucination inter-modale : le robot mélange ce qu'il voit et ce qu'il entend, ou il se fie trop à ce qu'il sait déjà (sa "mémoire" textuelle) plutôt qu'à ce qu'il observe réellement.

🛠️ La Solution : MoD-DPO (Le "Détective de la Réalité")

Les chercheurs de l'USC ont créé une nouvelle méthode appelée MoD-DPO. Pour faire simple, c'est comme un entraînement spécial pour apprendre au robot à distinguer ce qui vient de ses yeux, de ses oreilles et de sa mémoire.

Voici comment cela fonctionne, avec deux analogies clés :

1. L'Analogie du "Test de Confusion" (Découplage des modalités)

Imaginez que vous entraînez un détective. Pour qu'il soit bon, vous devez lui apprendre deux règles :

La Règle de l'Insensibilité (Invariance) : Si vous lui montrez une photo d'un chat mais que vous lui jouez le son d'un moteur de voiture (qui n'a rien à voir), il ne doit pas changer son histoire. Il doit dire : "Je vois un chat, le bruit de la voiture ne change pas ça."
- En langage technique : Le modèle devient "invariant" aux bruits parasites qui ne concernent pas la question.
La Règle de la Sensibilité : Si vous lui montrez la photo d'un chat, mais que vous enlevez le chat de l'image (ou que vous le remplacez par un chien), il doit changer radicalement son histoire. Il doit dire : "Attends, le chat a disparu !"
- En langage technique : Le modèle devient "sensible" aux changements dans l'information importante.

MoD-DPO force l'IA à apprendre ces deux règles en même temps. Il lui dit : "Si tu réponds en fonction du bruit alors que la question portait sur l'image, tu as tort. Si tu ignores le changement d'image, tu as aussi tort."

2. L'Analogie du "Miroir de Vérité" (Débiaisage des priorités linguistiques)

Souvent, le robot est trop confiant dans ses connaissances textuelles. Si on lui demande "Est-ce qu'il y a de l'eau ?", il va souvent répondre "Oui" parce que dans ses livres, l'eau est partout.

Pour corriger cela, les chercheurs ajoutent un miroir de vérité :

Ils demandent au robot : "Si je te donnais seulement le texte de la question, sans aucune image ni son, que répondrais-tu ?"
Si le robot répond la même chose avec ou sans les images/sons, c'est qu'il ne regarde pas vraiment les preuves !
MoD-DPO lui donne une "réprimande" (une pénalité) s'il répond de la même façon sans avoir regardé les preuves visuelles ou sonores. Cela l'oblige à regarder ce qui est devant lui avant de parler.

🏆 Les Résultats : Un Robot plus Fiable

Grâce à cette méthode, les chercheurs ont testé leur IA sur des benchmarks difficiles (des tests où l'on mélange volontairement des sons et des images pour piéger l'IA).

Avant : Le robot se trompait souvent, inventant des sons ou des objets qui n'existaient pas.
Après MoD-DPO : Le robot devient beaucoup plus précis. Il ne se laisse plus piéger par les associations fausses. Il dit "Non, je ne vois pas d'eau" même si le texte suggère le contraire, car il a vraiment regardé la vidéo.

🌟 En Résumé

MoD-DPO, c'est comme donner à un élève très doué en théorie (l'IA) un entraînement pratique intensif pour qu'il arrête de deviner et commence à observer.

On lui apprend à ignorer les distractions (le bruit quand on parle d'image).
On lui apprend à réagir quand les faits changent (l'image change).
On l'oblige à vérifier ses preuves avant de répondre, au lieu de se fier à ses souvenirs.

C'est une étape importante pour créer des intelligences artificielles qui ne nous mentent pas et qui comprennent vraiment le monde qui les entoure, que ce soit par la vue ou par l'ouïe.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : Les Hallucinations Inter-Modales dans les LLM Omni

Les modèles de langage large (LLM) "omni-modaux" récents, capables de traiter simultanément l'audio, la vidéo et le texte, ont montré des performances impressionnantes. Cependant, ils souffrent encore de hallucinations inter-modales (cross-modal hallucinations). Ces erreurs se manifestent lorsque le modèle génère des réponses basées sur des corrélations spurious (fausses) entre les modalités ou sur des priors linguistiques dominants, plutôt que sur les preuves factuelles de la modalité pertinente.

Deux causes principales sont identifiées :

Dépendances spurious inter-modales : Le modèle associe incorrectement des éléments visuels à des sons inexistants (ou vice-versa) en raison de corrélations apprises lors de l'entraînement.
Sur-reliance sur les priors linguistiques : Le modèle ignore les entrées audiovisuelles pour répondre uniquement en se basant sur sa connaissance textuelle pré-entraînée (ex: répondre "Oui, j'entends un chien" même en silence car le texte suggère un contexte de chien).

Les méthodes existantes, comme l'optimisation directe des préférences (DPO) multimodale standard ou les défenses au moment du décodage (comme le Visual Contrastive Decoding), ne parviennent pas à découpler complètement les chemins de traitement des modalités ni à pénaliser explicitement les raccourcis purement textuels.

2. Méthodologie : MoD-DPO (Modality-Decoupled DPO)

Les auteurs proposent MoD-DPO, un cadre d'optimisation des préférences qui introduit des termes de régularisation explicites pour forcer le modèle à être fidèle à la modalité (modality-faithful).

A. Découplage des Modalités (Modality Decoupling)

L'objectif principal est d'enseigner au modèle deux propriétés complémentaires via des termes de régularisation KL (Kullback-Leibler) :

Invariance (Invariance) : La distribution de sortie doit rester stable lorsque la modalité irrélevante (par rapport à la question) est corrompue. Cela empêche le modèle de réagir à des bruits ou des artefacts dans la modalité non pertinente.
Sensibilité (Sensitivity) : La distribution de sortie doit changer significativement lorsque la modalité pertinente est corrompue. Cela force le modèle à être sensible aux changements dans les données d'entrée essentielles.

Mathématiquement, pour une question visuelle $x_v$ , l'objectif modifie la fonction de perte DPO standard en ajoutant :

Un terme pénalisant la divergence si l'audio est corrompu (invariance à l'audio).
Un terme amplifiant la divergence si la vidéo est corrompue (sensibilité à la vidéo).

B. Débiaisage des Priors Linguistiques (Language-Prior Debiasing - LPD)

Pour contrer la tendance du modèle à ignorer les entrées multimodales, les auteurs ajoutent une pénalité de débiaisage. Cette pénalité réduit la probabilité de log-likelihood des réponses choisies si elles peuvent être générées uniquement à partir du texte (sans utiliser l'audio ou la vidéo). Cela force le modèle à s'appuyer sur les preuves audiovisuelles plutôt que sur ses biais textuels internes.

C. Génération de Données de Préférence

Pour entraîner ce modèle, les auteurs ont construit un jeu de données de préférence unique contenant 18 112 échantillons générés automatiquement à partir de 10 854 vidéos uniques.

Pipeline en 3 étapes :
1. Découplage : Séparation automatique des légendes audio et vidéo (via AudioFlamingo 3, GPT-4o, RAM++).
2. Génération de QA : Création de questions sur la présence d'objets/événements ou le descriptif des modalités.
3. Création de Paires de Préférence : La réponse "choisie" ( $y_w$ ) est basée sur la modalité pertinente. La réponse "rejetée" ( $y_l$ ) est une "hard negative" générée en utilisant les informations de la modalité irrélevante (ex: répondre à une question visuelle en utilisant des détails de l'audio), forçant ainsi le modèle à apprendre à rejeter ces corrélations erronées.

3. Contributions Clés

Framework MoD-DPO : Une nouvelle méthode d'optimisation des préférences qui découple explicitement les modalités pendant l'entraînement pour réduire les interactions non désirées.
Pénalité de Débiaisage (LPD) : Une technique innovante pour supprimer la sur-reliance sur les priors textuels, améliorant ainsi la robustesse face aux hallucinations linguistiques.
Jeu de Données Automatique : Construction d'un vaste ensemble de données de préférence avec des paires "choisie/rejetée" difficiles, spécifiquement conçues pour tester la résistance aux hallucinations inter-modales.
Solution en Forme Close : Dérivation d'une solution analytique pour l'objectif MoD-DPO, permettant une optimisation efficace sans nécessiter de modèle de récompense séparé.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks majeurs : AVHBench (hallucinations audio-visuelles) et CMM (Curse of Multi-Modalities).

Performance Supérieure : MoD-DPO et sa version améliorée (MoD-DPO++) surpassent systématiquement les modèles de base (Qwen 2.5 Omni, MiniCPM-O) et les méthodes de référence (DPO standard, OmniDPO).
- Sur AVHBench, MoD-DPO++ atteint une précision de 88,19 % (contre 84,15 % pour le modèle de base) et un score F1 de 88,15 %.
- Sur CMM, le modèle montre une amélioration de 3 à 4 % en précision globale et une résistance aux hallucinations significativement accrue.
Analyse d'Ablation :
- L'ajout de la pénalité LPD améliore considérablement la résistance aux hallucinations (Hallucination Resistance), prouvant son efficacité contre les biais linguistiques.
- L'utilisation de contextes audio-visuels mismatched (audio et vidéo provenant de fichiers différents) dans l'entraînement est cruciale pour forcer le modèle à ne pas apprendre de corrélations spurious.
Analyse de l'Attention : Les visualisations montrent que MoD-DPO++ augmente significativement l'attention portée aux tokens audio-visuels, confirmant que le modèle se concentre davantage sur les preuves multimodales.
Efficacité : Malgré des passes avant supplémentaires pour les entrées corrompues, la méthode converge plus rapidement (environ 2x plus vite qu'OmniDPO) grâce à l'absence de calcul de gradient sur les distributions cibles fixes.

5. Signification et Conclusion

Ce travail démontre que la simple application de l'optimisation des préférences (DPO) n'est pas suffisante pour résoudre les hallucinations dans les modèles omni-modaux. Il est nécessaire d'introduire une contrainte structurelle qui force le modèle à respecter l'indépendance des modalités non pertinentes et la sensibilité aux modalités pertinentes.

MoD-DPO offre une voie évolutive et efficace pour construire des fondations multimodales plus fiables et résilientes. En garantissant que les prédictions sont ancrées dans les preuves appropriées (visuelles ou auditives) plutôt que dans des raccourcis textuels, cette méthode ouvre la voie à des agents IA capables de "voir et entendre" avant de "penser", réduisant ainsi les risques d'erreurs critiques dans des applications réelles.