ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'Artiste qui rêve trop

Imaginez un peintre très talentueux (c'est le modèle d'intelligence artificielle) qui regarde une photo et vous décrit ce qu'il voit. Il est excellent pour dire : "Il y a un chien" ou "Il y a un ballon". C'est comme s'il reconnaissait parfaitement les objets sur la toile.

Mais il y a un gros problème : quand il doit décrire ce que font ces objets ensemble, il commence à rêver.

La réalité : Le chien est assis à côté du ballon.
Le rêve du modèle : Le chien est en train de manger le ballon.

En termes techniques, on appelle cela une "hallucination de relation". Le modèle voit bien les pièces du puzzle (le chien, le ballon), mais il se trompe complètement sur la façon dont elles s'assemblent. C'est comme si quelqu'un vous disait : "Oui, je vois un homme et une planche de surf, donc il doit être debout dessus", alors que dans la photo, l'homme est clairement en train de faire du surf (ce qui est différent de "debout").

🕵️‍♂️ La Solution : ChainMPQ (Le Détective à Enquête Progressive)

Les chercheurs proposent une nouvelle méthode appelée ChainMPQ. Au lieu de demander au peintre de donner une réponse immédiate et globale (ce qui le pousse à deviner), ils lui font jouer le rôle d'un détective méticuleux qui enquête étape par étape.

Voici comment cela fonctionne, avec une analogie simple :

1. La Loupe Magique (Attention Guidée)

D'abord, le détective ne regarde pas toute la photo d'un coup. Il prend une loupe magique pour zoomer spécifiquement sur les personnages clés mentionnés dans la question (par exemple, le "chien" et le "ballon"). Cela l'aide à ne pas se laisser distraire par le fond de l'image.

2. Le Jeu des 5 Questions (Décomposition Multi-perspectives)

Au lieu de poser la question finale directement ("Le chien mange-t-il le ballon ?"), le détective pose cinq questions plus petites et plus simples pour reconstruire la vérité :

Question 1 : Où est le chien exactement ? (Localisation)
Question 2 : Où est le ballon exactement ? (Localisation)
Question 3 : Qu'est-ce que le chien regarde ? (Action)
Question 4 : Qu'est-ce qui touche le ballon ? (Interaction)
Question 5 : Quelle est la relation entre les deux ? (Conclusion)

C'est comme si vous essayiez de comprendre une scène de crime en examinant d'abord les empreintes, puis les objets, avant de tirer une conclusion sur le meurtre.

3. La Chaîne de Mémoire (Le Fil d'Ariane)

C'est ici que la magie opère. Le détective ne jette pas ses réponses après les avoir écrites. Il les garde dans sa mémoire.

Quand il répond à la question 5, il se souvient de ce qu'il a vu pour la question 1 et 2.
Il utilise aussi une "carte de chaleur" visuelle : il se souvient exactement où il a regardé pour les questions précédentes et garde ces zones en haute définition pour la question suivante.

C'est comme si vous construisiez un mur de briques : vous ne pouvez pas mettre la dernière brique (la réponse finale) sans que les briques précédentes (les petites réponses) soient solides et bien alignées.

🏆 Le Résultat : Moins de Rêves, Plus de Réalité

Grâce à cette méthode, le modèle ne se précipite plus pour deviner. Il est forcé de penser logiquement en reliant les faits visuels qu'il a déjà vérifiés.

Avant ChainMPQ : Le modèle dit : "Oui, l'homme est debout sur la planche" (car c'est une phrase courante dans sa tête).
Avec ChainMPQ : Le modèle se dit : "Attends, j'ai vérifié la position des pieds (Q1), j'ai vérifié la position de la planche (Q2), et j'ai vu qu'il y avait de l'eau autour (Q3). Donc, non, il n'est pas debout, il est en train de faire du surf."

💡 En Résumé

Imaginez que vous essayez de résoudre une énigme complexe.

L'ancienne méthode : Vous fermez les yeux et vous devinez la solution en vous basant sur ce que vous avez entendu dire ailleurs.
La méthode ChainMPQ : Vous ouvrez les yeux, vous examinez chaque indice un par un, vous notez vos découvertes, et vous utilisez ces notes pour construire la réponse finale.

Ce système est "sans entraînement", ce qui signifie qu'il ne faut pas rééduquer le cerveau de l'IA (ce qui est long et coûteux). On lui donne juste une nouvelle méthode de travail (un nouveau mode de pensée) pour qu'elle devienne plus fiable, plus précise et moins sujette à l'erreur.

C'est une victoire pour la fiabilité des IA : elles ne sont plus de simples rêveurs, mais de véritables observateurs rationnels.

Each language version is independently generated for its own context, not a direct translation.

Titre : ChainMPQ : Chaînes de raisonnement intercalées texte-image pour atténuer les hallucinations relationnelles

1. Problématique : Les Hallucinations Relationnelles dans les LVLM

Les modèles de vision-langage de grande taille (LVLM) excellent dans de nombreuses tâches multimodales, mais ils souffrent encore d'hallucinations, c'est-à-dire la production de sorties contradictoires avec les preuves visuelles. Bien que les hallucinations d'objets (détection d'entités inexistantes) et d'attributs (couleur, forme) aient fait l'objet de nombreuses études, les hallucinations relationnelles restent un défi majeur et sous-estimé.

Définition : Une hallucination relationnelle se produit lorsque le modèle identifie correctement les objets (sujet et objet) mais échoue à inférer la relation correcte entre eux (ex: confondre "monter à cheval" avec "être debout sur un cheval").
Enjeu : Ces erreurs représentent près de 40 % de toutes les hallucinations dans les LVLM. Les méthodes existantes traitent souvent le raisonnement relationnel comme une inférence en une seule étape, ce qui repose trop sur des priors linguistiques plutôt que sur une analyse visuelle systématique.

2. Méthodologie : ChainMPQ

Les auteurs proposent ChainMPQ (Multi-Perspective Questions guided Interleaved Text-image Reasoning Chain), une méthode sans entraînement (training-free) qui décompose l'inférence relationnelle en étapes gérables en utilisant une mémoire multimodale accumulée. Le processus se déroule en trois modules principaux :

A. Amélioration de l'Attention Guidée par le Texte (Text-Guided Attention Enhancement)

Le modèle extrait les mots-clés du sujet et de l'objet de la question d'entrée.
Il utilise un mécanisme d'attention croisée pour renforcer les régions visuelles de l'image correspondant à ces mots-clés.
Cela crée des "tokens visuels améliorés" ( $V'$ ) qui mettent l'accent sur les zones pertinentes avant même le début du raisonnement.

B. Construction de Prompts Textuels Multi-Perspectives

La question originale est décomposée en cinq questions complémentaires basées sur les trois composantes d'une relation : Sujet ( $S$ ), Objet ( $O$ ) et Relation ( $R$ ).
Q1 & Q2 : Localisation des entités (Où est le sujet ? Où est l'objet ?).
Q3, Q4 & Q5 : Questions de relation générées par masquage stratégique (ex: "Qu'est-ce que le sujet fait ?", "Qu'est-ce qui affecte l'objet ?", "Quelle est la relation globale ?").
Cette approche force le modèle à analyser chaque composante individuellement avant de tirer une conclusion globale.

C. Chaîne de Raisonnement Intercalée Texte-Image (Interleaved Text-image Reasoning Chain)

Les questions sont traitées séquentiellement.
Mémoire Textuelle : Les réponses précédentes ( $A_i$ ) servent de contexte textuel pour les questions suivantes.
Mémoire Visuelle (Clé de l'innovation) : Pour chaque question, le modèle extrait les poids d'attention des couches du décodeur pour identifier les tokens visuels les plus pertinents (Top-K). Ces tokens forcent un masque de biais ( $M_i$ ) qui est appliqué aux étapes suivantes.
Ce mécanisme permet de transférer la "concentration visuelle" d'une étape à l'autre, guidant progressivement le modèle vers les régions correctes de l'image pour inférer la relation finale.

3. Contributions Clés

Décomposition Sujet-Objet-Relation : Une stratégie de génération de questions multi-perspectives qui oblige le modèle à se concentrer sur chaque élément central d'une relation, réduisant ainsi la dépendance aux priors linguistiques.
Mécanisme de Chaîne Intercalée : Un cadre novateur qui transfère à la fois la mémoire textuelle (réponses) et visuelle (cartes d'attention) à travers les étapes de raisonnement, permettant une inférence relationnelle progressive et fondée sur des preuves.
Généralisation et Efficacité : La méthode est applicable à divers LVLM (LLaVA, InstructBLIP, Qwen-VL, InternVL) sans nécessiter de fine-tuning, tout en réduisant significativement les hallucinations.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks spécialisés dans les relations : MMRel et R-Bench.

Performance Globale : ChainMPQ surpasse systématiquement les méthodes de base (Vanilla) et les approches concurrentes (Prompting, CoT, Calibration) sur quatre modèles LVLM différents.
- Sur LLaVA-1.5 avec le benchmark MMRel, la précision passe de 59,02 % (Vanilla) à 65,20 % (ChainMPQ).
- Sur R-Bench, la précision atteint 76,04 %, surpassant la meilleure baseline de 4,17 points.
Analyse d'Abation :
- Le retrait de l'amélioration de l'attention réduit la performance de ~1,1 %.
- Le retrait des questions multi-perspectives (ne gardant que la question de relation) fait chuter la précision de 3,68 %, confirmant l'importance de la décomposition.
- Le retrait de la chaîne intercalée (sans mémoire visuelle) réduit la précision de 3,08 %, prouvant que le transfert de mémoire visuelle est crucial.
Optimisation (Light1/Light2) : Des versions allégées ont été proposées pour réduire la latence. La version "Light1" (gardant uniquement Q1, Q2 et Q5) offre le meilleur compromis précision/temps.

5. Signification et Conclusion

ChainMPQ représente une avancée significative dans la lutte contre les hallucinations relationnelles en imitant le processus de raisonnement humain : localiser d'abord les objets, puis examiner leurs interactions, et enfin synthétiser les preuves.

Impact : La méthode démontre qu'il est possible d'améliorer la fiabilité des LVLM sans réentraînement coûteux, en utilisant simplement une structure de prompting intelligente et une gestion dynamique de l'attention visuelle.
Limites et Futur : Les auteurs notent que la granularité spatiale des tokens visuels peut encore poser problème pour les relations spatiales fines. Les travaux futurs visent à intégrer des mécanismes d'attribution basés sur la causalité et des représentations de graphes de scène explicites pour affiner la compréhension des relations à petite échelle.

En résumé, ChainMPQ fournit un cadre robuste et simple pour transformer le raisonnement relationnel des LVLM d'une inférence instantanée et sujette à erreur en un processus itératif, vérifié et ancré dans la réalité visuelle.