Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un robot très intelligent de décrire une photo que vous lui montrez. Ce robot, appelé MLLM (Modèle de Langage Multimodal), est capable de voir et de parler. Mais il a un défaut : il a tendance à halluciner.

C'est comme si, en regardant une photo d'un chien dans un parc, il vous disait : « Il y a un chien, un ballon, et... oh, un éléphant rose ! » alors qu'il n'y a absolument pas d'éléphant. Pourquoi ? Parce que le robot a deux mauvaises habitudes :

Il écoute trop ses propres pensées : Il se fie trop à ce qu'il a déjà dit ou à ce qu'on lui a demandé, au lieu de regarder vraiment la photo.
Il fait des liens faux : Il pense que si on voit une fourchette, il doit y avoir un couteau (parce qu'ils sont souvent ensemble dans ses livres d'apprentissage), même si le couteau n'est pas là.

Les chercheurs de ce papier (Shan Wang et son équipe) ont inventé une solution géniale appelée GACD. Voici comment ça marche, avec des images simples :

1. Le Détective de l'Influence (La Réflexion)

Imaginez que le robot est un chef cuisinier qui prépare une phrase. À chaque fois qu'il ajoute un mot (comme "fourchette"), il utilise des ingrédients : des mots du texte (la recette) et des pixels de l'image (les légumes).

Le problème, c'est que le chef utilise trop de "mots de la recette" et pas assez de "légumes de l'image". Parfois, il ajoute un ingrédient qui n'est pas là (l'éléphant) juste parce qu'il a l'habitude de le mettre avec la fourchette.

La méthode GACD agit comme un détective mathématique. Au lieu de simplement laisser le chef cuisiner, elle regarde exactement quel ingrédient a le plus d'influence sur le mot qu'il va écrire. Elle utilise une technique appelée "gradients" (un peu comme mesurer la poussée de chaque doigt sur un clavier) pour dire :

« Attends, ce mot "fourchette" dépend à 90 % de la photo ? C'est bon. »
« Oh, ce mot "éléphant" dépend à 90 % de ce que tu as dit tout à l'heure, et pas du tout de la photo ? C'est un problème ! »

2. Le Frein et l'Accélérateur (La Correction)

Une fois que le détective a repéré les erreurs, GACD intervient en temps réel pour corriger le tir, sans avoir besoin de réapprendre tout le métier au robot (pas de réentraînement coûteux).

Le Frein (Pour les liens faux) : Si le robot veut dire "couteau" juste parce qu'il y a une "fourchette", GACD dit : « Stop ! Regarde la photo. Il n'y a pas de couteau. Je vais réduire l'influence de la fourchette sur cette décision. » C'est comme si on disait au robot : « Ne te fie pas à ta mémoire, regarde ce qui est vraiment là. »
L'Accélérateur (Pour l'écoute de l'image) : Si le robot commence à raconter une histoire qui n'a rien à voir avec la photo, GACD appuie sur l'accélérateur des "pixels". Il force le robot à écouter la photo beaucoup plus fort que ses propres pensées. C'est comme mettre un casque à réduction de bruit sur les pensées du robot pour qu'il n'entende que ce qu'il voit.

3. Le Frein d'Urgence (Arrêt Précoce)

Parfois, le robot commence à divaguer dans une phrase très longue. GACD a un petit bouton d'arrêt d'urgence. Si elle voit que le robot ne regarde plus du tout la photo pour écrire les derniers mots, elle dit : « Stop, on arrête là. » Cela évite qu'il invente des détails à la fin de la phrase.

Pourquoi c'est génial ?

Pas de chirurgie : On n'a pas besoin de changer le cerveau du robot (pas de réentraînement). On lui donne juste un "miroir" pour qu'il se corrige lui-même pendant qu'il parle.
Pas de robots auxiliaires : On n'a pas besoin d'engager un autre robot pour vérifier le travail. Le robot se corrige tout seul.
Résultats : Les expériences montrent que le robot hallucine beaucoup moins. Il voit vraiment ce qui est là, et non pas ce qu'il pense qu'il devrait y avoir.

En résumé :
GACD, c'est comme donner à un robot un miroir magique qui lui dit en temps réel : « Tu es en train de rêver, regarde la photo ! » et « Tu écoutes trop tes souvenirs, écoute tes yeux ! ». Résultat : des descriptions plus vraies, plus fiables et moins de fausses informations.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Les Hallucinations dans les MLLM

Les Modèles de Langage Multimodaux (MLLM) ont démontré des performances impressionnantes dans diverses tâches, mais ils souffrent d'un défaut critique : les hallucinations. Cela se manifeste par la génération de textes qui ne sont pas fidèlement ancrés dans l'entrée visuelle (l'image).

L'article identifie deux biais fondamentaux à l'origine de ces hallucinations :

Biais Texte-Visuel (Text-Visual Bias) : Le modèle dépend excessivement des informations textuelles (l'invite ou les sorties précédentes) au détriment de la modalité visuelle, particulièrement dans les séquences longues.
Biais de Co-occurrence (Co-occurrence Bias) : Le modèle prédit erronément la présence d'objets inexistants basés sur des corrélations statistiques spurious (fausses) apprises lors de l'entraînement (ex: prédire une "table à manger" simplement parce qu'une "chaise" est présente).

Les méthodes existantes souffrent de limitations majeures : elles nécessitent souvent un réentraînement coûteux, l'utilisation de modèles auxiliaires (comme des détecteurs d'objets externes) qui introduisent leurs propres erreurs, ou reposent sur des heuristiques grossières qui ne permettent pas un ajustement granulaire au niveau des tokens.

2. Méthodologie : GACD (Gradient-based Influence-Aware Constrained Decoding)

Les auteurs proposent GACD, une méthode d'inférence (sans réentraînement ni modèles externes) qui atténue ces biais en estimant et en ajustant l'influence des tokens via des gradients.

A. Estimation de l'Influence par Gradient (Base Théorique)

Le cœur de l'approche repose sur une expansion de Taylor du premier ordre des logits de sortie. Pour chaque token de sortie $y_m$ , le modèle calcule comment les perturbations des tokens d'entrée (visuels $t_v$ , textuels $t_p$ , et précédents $y_{<m}$ ) affectent le vecteur de logit.
L'importance de chaque token est quantifiée par la norme de Manhattan de son gradient :
$I = \|\nabla\|_1$
Cela permet de décomposer, pour chaque échantillon, la contribution exacte des features visuelles par rapport aux tokens textuels.

B. Deux Composantes Clés de GACD

Regroupement de Tokens Visuels Sensibles aux Objets (Object-aware Visual Token Grouping) :
- Le système détecte les noms (objets) dans les sorties précédentes.
- Il identifie les tokens visuels ayant la plus forte influence sur la prédiction de ces objets spécifiques.
- Les tokens visuels sont divisés en deux groupes :
  - $t_o$ : Tokens liés aux objets mentionnés (potentiellement sources de biais de co-occurrence).
  - $t_u$ : Tokens non liés aux objets mentionnés (informations visuelles "pures" ou contextuelles).
Décodage Pondéré par l'Influence Spécifique à l'Ancrage (Anchor-specific Influence-weighted Decoding) :
- GACD étend le décodage contrastif. Il génère des logits négatifs ( $z^o_m$ ) en utilisant uniquement les tokens liés aux objets mentionnés ( $t_o$ ) et le texte, excluant ainsi les tokens visuels non liés ( $t_u$ ).
- Les logits originaux ( $z^*_m$ ) sont ajustés selon la formule :
  $\hat{z}_m = (1 + \alpha_m) z^*_m - \alpha_m z^o_m$
- Le paramètre $\alpha_m$ est calculé dynamiquement pour égaliser l'influence des tokens visuels non liés ( $t_u$ ) à celle des tokens textuels dominants (invite ou sorties précédentes).
- Effet : Cela supprime l'influence des corrélations spurious (biais de co-occurrence) tout en renforçant la contribution des features visuelles générales pour contrer le biais texte-visuel.
Arrêt Précoce Dépendant de l'Échantillon (Sample-dependent Early Stopping) :
- Un critère d'arrêt est introduit pour les séquences longues. Si le ratio d'influence visuelle des tokens suivants tombe en dessous d'un seuil $\epsilon$ , la génération s'arrête. Cela évite de produire du texte sans ancrage visuel.

3. Contributions Principales

Méthode d'inférence sans réentraînement : GACD fonctionne sur des modèles pré-entraînés existants sans nécessiter de fine-tuning, de collecte de données supplémentaires ou de modèles externes.
Estimation de biais granulaire : Utilisation de gradients pour mesurer l'influence token par token, permettant un ajustement précis des biais au lieu d'heuristiques globales.
Double atténuation : Le cadre adresse simultanément le biais texte-visuel (en renforçant l'influence visuelle) et le biais de co-occurrence (en supprimant les tokens visuels corrélés de manière spurious).
Équilibre Performance/Informations : Contrairement à d'autres méthodes qui réduisent les hallucinations au prix de détails pertinents, GACD préserve la richesse de l'information.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (AMBER, MSCOCO, POPE, LLaVA-QA90) et divers modèles (LLaVA, InstructBLIP, mPLUG-Owl2, InternVL2).

Réduction des Hallucinations :
- Réduction jusqu'à 33% des hallucinations au niveau de la phrase et 32% au niveau de l'instance sur AMBER.
- Réduction de 57% des hallucinations de co-occurrence.
- Gain de précision (Accuracy) allant jusqu'à 92% sur LLaVA-QA90.
Préservation de l'Information :
- Le taux de rappel (Recall) diminue très peu (moyenne de -1,1%) comparé à une chute de -3,2% pour les méthodes concurrentes.
- Amélioration de la "détaillesse" (Detailedness) de jusqu'à 45% sur LLaVA-QA90.
Efficacité Computationnelle :
- L'ajout de temps de calcul est comparable aux méthodes de décodage contrastif existantes (environ +100% par rapport à la base, mais sans besoin de modèles auxiliaires lourds).
- La méthode est plus rapide que les approches basées sur les gradients intégrés (Integrated Gradients).

5. Signification et Impact

Ce travail représente une avancée significative pour la fiabilité des MLLM :

Auto-réflexion : Il démontre que les modèles pré-entraînés contiennent déjà les informations nécessaires pour détecter leurs propres biais via l'analyse des gradients, sans avoir besoin d'apprentissage supplémentaire.
Adaptabilité : La méthode s'adapte dynamiquement à chaque échantillon et à chaque étape de génération, ce qui la rend robuste face à la variabilité des biais selon les modèles et les tâches.
Applications Critiques : En améliorant l'ancrage visuel, GACD rend les systèmes plus fiables pour des applications sensibles comme l'assistance aux personnes malvoyantes, le diagnostic médical par imagerie ou les systèmes éducatifs, où les hallucinations peuvent avoir des conséquences graves.

En résumé, GACD offre une solution élégante et efficace pour "nettoyer" les sorties des MLLM en temps réel, en rééquilibrant mathématiquement l'influence entre le texte et l'image pour garantir que la génération reste fidèle à la réalité visuelle.

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

1. Le Détective de l'Influence (La Réflexion)

2. Le Frein et l'Accélérateur (La Correction)

3. Le Frein d'Urgence (Arrêt Précoce)

Pourquoi c'est génial ?

1. Problématique : Les Hallucinations dans les MLLM

2. Méthodologie : GACD (Gradient-based Influence-Aware Constrained Decoding)

A. Estimation de l'Influence par Gradient (Base Théorique)

B. Deux Composantes Clés de GACD

3. Contributions Principales

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics