Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🍕 Le Problème : Le "Rêveur" qui voit des choses qui n'existent pas

Imaginez que vous avez un ami très intelligent, un Grand Modèle de Langage Multimodal (MLLM). C'est un expert en images et en texte. Vous lui montrez une photo d'une pizza sur une table, et il vous décrit la scène.

Le problème, c'est que cet ami a parfois un petit défaut : il hallucine.
Si vous lui dites : "Voici une pizza avec un couteau...", son cerveau (le modèle) commence à penser : "Ah, une pizza avec un couteau... et bien sûr, il doit y avoir une fourchette aussi !".

Même si la fourchette n'est pas sur la photo, il l'ajoute à sa description. C'est comme un conteur qui, en racontant une histoire, commence à inventer des personnages qui ne sont pas dans la pièce. Cela rend le modèle peu fiable, surtout dans des situations importantes (comme la médecine ou le droit).

Les anciennes méthodes pour corriger cela étaient un peu comme dire à l'ami : "Arrête d'inventer !" ou "Regarde mieux la photo". Mais souvent, il continuait d'inventer parce que son imagination était trop influencée par ce qu'il venait de dire lui-même.

🕵️‍♂️ La Solution : COAD (Le Détective Causal)

Les auteurs de cet article, de l'Université Rutgers et de Meta, ont créé une nouvelle méthode appelée COAD (Causal Object-Aware Decoding).

Pour comprendre COAD, imaginons que notre ami le modèle a deux cerveaux qui travaillent ensemble, et un détective externe.

1. Le Détective (Le Détecteur d'Objets)

Avant même que le modèle ne commence à parler, un détective spécial (un détecteur d'objets) regarde la photo. Il ne se fie pas à l'imagination du modèle. Il dit simplement :

"Je vois une pizza. Je vois un couteau. Je ne vois aucune fourchette."

C'est une vérité factuelle, basée uniquement sur l'image, sans aucune influence du texte.

2. Les Deux Cerveaux (Le Modèle Pré-entraîné et le Modèle "Finetuné")

COAD utilise deux versions du modèle :

Le Cerveau A (Pré-entraîné) : C'est le modèle original. Il est très créatif, mais il a tendance à halluciner (il imagine la fourchette).
Le Cerveau B (Finetuné) : C'est une version du modèle qui a appris à écouter le Détective. Si le détective dit "Pas de fourchette", ce cerveau essaie de s'en souvenir.

3. La Magie : L'Intervention Causale (Le "Do-It-Yourself" de la réalité)

C'est ici que la science devient poétique. Le problème habituel, c'est que le Cerveau A influence le Cerveau B. Si le Cerveau A dit "Fourchette", le Cerveau B pense aussi "Fourchette".

COAD utilise un outil mathématique appelé intervention causale (le fameux "do" de la théorie de la causalité).
Imaginez que vous prenez le Cerveau A et que vous lui mettez un bandeau sur les yeux pour qu'il ne puisse plus influencer le Cerveau B. Vous forcez le Cerveau B à regarder uniquement la photo et le rapport du Détective.

En langage simple : COAD dit au modèle : "Oublie ce que tu viens de dire. Regarde uniquement la photo et le rapport du détective. Que vois-tu vraiment ?"

🎭 L'Analogie du Chef et du Critique

Pour résumer avec une métaphore culinaire :

Le Modèle classique est comme un Chef qui cuisine en écoutant ses souvenirs. S'il a déjà cuisiné une pizza avec des champignons, il risque d'ajouter des champignons à la prochaine pizza, même si vous ne lui avez donné que des tomates. Il confond ses souvenirs avec la réalité présente.
COAD est comme un Chef qui a un Inspecteur de la Santé (le détecteur) debout à côté de lui.
- Le Chef commence à cuisiner (générer du texte).
- L'Inspecteur regarde le plat réel (l'image) et crie : "Il n'y a pas de champignons ici !".
- Grâce à COAD, le Chef est capable d'ignorer ses propres souvenirs erronés et de se fier uniquement à ce que l'Inspecteur voit. Il corrige son plat en temps réel.

🏆 Les Résultats : Moins d'illusions, plus de vérité

Les tests montrent que cette méthode fonctionne incroyablement bien :

Moins d'erreurs : Le modèle hallucine beaucoup moins d'objets (comme la fourchette fantôme).
Plus de précision : Il décrit ce qui est réellement là, sans inventer d'histoires.
Rapidité : Bien qu'il utilise deux cerveaux, c'est assez rapide pour être utilisé en temps réel.

En résumé

COAD est une méthode intelligente qui apprend aux modèles d'IA à ne pas se fier à leurs propres inventions. En forçant le modèle à vérifier constamment ses dires contre une "vérité objective" (détectée par un outil externe), on obtient un assistant visuel beaucoup plus fiable, qui ne vous racontera pas d'histoires à dormir debout, mais qui vous dira exactement ce qu'il voit.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Hallucination d'Objets dans les MLLM

Les Grands Modèles de Langage Multimodaux (MLLM), tels que LLaVA, excellent dans les tâches vision-langage mais souffrent d'un problème critique : l'hallucination d'objets. Cela se produit lorsque le modèle génère des descriptions contenant des objets qui ne sont pas présents dans l'image d'entrée (par exemple, décrire une fourchette alors qu'il n'y a qu'un couteau).

Limites des approches existantes :
- Méthodes externes : L'ajout de connaissances externes ou de bases de données nécessite des efforts de collecte de données massifs et n'est pas toujours fiable.
- Méthodes internes (déjà existantes) : Les techniques actuelles (comme DoLa, OPERA, VCD) tentent de corriger les hallucinations via des pénalités heuristiques, des ajustements de l'attention ou des corrections post-hoc. Cependant, elles ne traitent pas la cause racine : la dépendance spurious (fausse) entre le texte généré précédemment et les états cachés du modèle. Le modèle a tendance à générer de nouveaux objets hallucinés basés sur des objets déjà hallucinés dans le texte précédent, créant un effet de propagation.

2. Méthodologie : COAD (Causal Object-Aware Decoding)

Les auteurs proposent COAD, un cadre de décodage qui intègre l'inférence causale pour briser les dépendances spurious et forcer le modèle à se baser uniquement sur le contenu visuel réel.

A. Modélisation Causale

Le problème est formulé comme un problème d'inférence causale où :

$S$ : L'image d'entrée.
$x$ : Le texte généré précédemment.
$y$ : Le token suivant à prédire.
$z$ : La croyance du modèle sur les objets présents (variable latente).

Dans un MLLM standard, la variable $z$ (croyance sur les objets) est influencée à la fois par l'image $S$ et par le texte précédent $x$ . Cela crée un facteur de confusion : le modèle prédit $y$ en fonction de $x$ et $z$ , mais $z$ est contaminé par $x$ . Cela mène à des boucles d'hallucination.

B. Stratégie d'Intervention Causale

COAD vise à estimer la distribution interventielle $P(y | do(x), z)$, c'est-à-dire la probabilité de prédire le token $y$ en forçant $x$ à être fixe et en s'assurant que $z$ ne dépend que de $S$ .

La méthode repose sur trois piliers :

Détection d'objets externe : Utilisation d'un détecteur d'objets (ex: RTMDet) pour obtenir une distribution de probabilité sur les objets présents dans l'image. Cela fournit une estimation "propre" de $z$ (notée $\hat{z}$ ) indépendante du texte généré.
Deux modèles MLLM :
- Un modèle pré-entraîné ( $M_p$ ) qui fonctionne normalement.
- Un modèle affiné ( $M_f$ ) entraîné pour conditionner ses prédictions non seulement sur l'image et le texte, mais aussi sur les vecteurs d'objets détectés ( $\hat{z}$ ).
Fusion Causale et Estimation de l'Oracle :
- Les auteurs postulent que $M_f$ est un mélange probabiliste entre le modèle pré-entraîné ( $M_p$ ) et un "oracle" hypothétique ( $M^*$ ) qui connaît la vérité terrain.
- En utilisant le calcul de do-calculus et des règles de Bayes, ils dérivent une formule pour estimer la prédiction de l'oracle (la prédiction idéale sans hallucination) en combinant les sorties de $M_p$ et $M_f$ .
- La formule finale (Équation 4) permet de calculer la distribution de probabilité du token suivant en pondérant les prédictions du modèle affiné et du modèle pré-entraîné, tout en soustrayant l'effet de confusion introduit par le texte précédent.

Algorithme d'inférence :
À chaque étape de décodage, COAD :

Utilise le détecteur pour obtenir les probabilités d'objets.
Calcule les probabilités de tokens via $M_p$ et $M_f$ .
Applique la formule de fusion causale pour obtenir la distribution finale, réduisant ainsi la probabilité des tokens correspondant à des objets absents.

3. Contributions Clés

Formulation Causale : Première approche à formuler la génération de réponses fiables comme une estimation de prédictions d'oracle via l'inférence causale, en traitant explicitement la croyance sur les objets comme une variable causale.
Stratégie d'Intervention Ciblée : Introduction d'une méthode qui expose la structure visuelle (via un détecteur) au modèle et utilise l'inférence causale pour bloquer la propagation des hallucinations depuis le texte généré.
Performance SOTA : Démonstration empirique que COAD réduit significativement les taux d'hallucination tout en maintenant, voire en améliorant, la qualité globale de la génération.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks standards (MSCOCO, POPE, MMHal-Bench) en utilisant LLaVA-1.5-7B comme modèle de base.

Réduction des Hallucinations (CHAIR) :
- COAD obtient les meilleurs résultats sur les métriques CHAIRI (niveau instance) et CHAIRS (niveau phrase).
- Résultats : CHAIRI de 3.4 (contre 5.2 pour le meilleur concurrent HALC) et CHAIRS de 5.3 (contre 11.1). Cela représente une réduction drastique des mentions d'objets inexistants.
Évaluation QA (MMHal-Bench) :
- COAD atteint le score moyen le plus élevé (2.52) et le taux d'hallucination le plus bas (0.52) sur 8 dimensions (attributs, relations spatiales, comptage, etc.), surpassant toutes les méthodes internes (DoLa, OPERA, VCD, etc.).
Robustesse (POPE) :
- Sur le sous-ensemble "Adversarial" (conçu pour induire des hallucinations), COAD atteint une précision de 79.8 et un score F1 de 81.2, montrant une robustesse supérieure aux prompts trompeurs.
Efficacité Computationnelle :
- Bien que COAD nécessite deux passes avant (modèle pré-entraîné + modèle affiné), il est beaucoup plus rapide que les méthodes itératives comme OPERA (4.52 tokens/s vs 10.49 tokens/s pour COAD).
- Le coût de détection d'objets est négligeable (0.1s par image).

5. Signification et Impact

L'article COAD marque une avancée significative dans la fiabilité des MLLM :

Changement de paradigme : Il passe d'une correction heuristique ou post-hoc à une intervention structurelle au niveau du mécanisme de décodage.
Indépendance des données externes : Contrairement aux méthodes RAG (Retrieval-Augmented Generation), COAD n'a pas besoin de bases de connaissances externes, ce qui le rend applicable dans des environnements fermés ou à données sensibles.
Fiabilité pour les applications critiques : En réduisant drastiquement les hallucinations d'objets, COAD rend les MLLM plus viables pour des domaines à haut risque comme l'analyse médicale ou la génération de documents juridiques, où la précision factuelle est non négociable.

En conclusion, COAD démontre que l'intégration de l'inférence causale et de la détection d'objets structurée permet de "guérir" les MLLM de leurs tendances à l'hallucination, offrant une nouvelle voie pour des systèmes vision-langage plus fiables et dignes de confiance.