Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Cet article propose GACD, une méthode d'inférence basée sur les gradients qui atténue les hallucinations des modèles multimodaux en estimant et en rééquilibrant les biais textuels et visuels sans nécessiter de fine-tuning.

Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez

Publié 2026-03-03
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un robot très intelligent de décrire une photo que vous lui montrez. Ce robot, appelé MLLM (Modèle de Langage Multimodal), est capable de voir et de parler. Mais il a un défaut : il a tendance à halluciner.

C'est comme si, en regardant une photo d'un chien dans un parc, il vous disait : « Il y a un chien, un ballon, et... oh, un éléphant rose ! » alors qu'il n'y a absolument pas d'éléphant. Pourquoi ? Parce que le robot a deux mauvaises habitudes :

  1. Il écoute trop ses propres pensées : Il se fie trop à ce qu'il a déjà dit ou à ce qu'on lui a demandé, au lieu de regarder vraiment la photo.
  2. Il fait des liens faux : Il pense que si on voit une fourchette, il doit y avoir un couteau (parce qu'ils sont souvent ensemble dans ses livres d'apprentissage), même si le couteau n'est pas là.

Les chercheurs de ce papier (Shan Wang et son équipe) ont inventé une solution géniale appelée GACD. Voici comment ça marche, avec des images simples :

1. Le Détective de l'Influence (La Réflexion)

Imaginez que le robot est un chef cuisinier qui prépare une phrase. À chaque fois qu'il ajoute un mot (comme "fourchette"), il utilise des ingrédients : des mots du texte (la recette) et des pixels de l'image (les légumes).

Le problème, c'est que le chef utilise trop de "mots de la recette" et pas assez de "légumes de l'image". Parfois, il ajoute un ingrédient qui n'est pas là (l'éléphant) juste parce qu'il a l'habitude de le mettre avec la fourchette.

La méthode GACD agit comme un détective mathématique. Au lieu de simplement laisser le chef cuisiner, elle regarde exactement quel ingrédient a le plus d'influence sur le mot qu'il va écrire. Elle utilise une technique appelée "gradients" (un peu comme mesurer la poussée de chaque doigt sur un clavier) pour dire :

  • « Attends, ce mot "fourchette" dépend à 90 % de la photo ? C'est bon. »
  • « Oh, ce mot "éléphant" dépend à 90 % de ce que tu as dit tout à l'heure, et pas du tout de la photo ? C'est un problème ! »

2. Le Frein et l'Accélérateur (La Correction)

Une fois que le détective a repéré les erreurs, GACD intervient en temps réel pour corriger le tir, sans avoir besoin de réapprendre tout le métier au robot (pas de réentraînement coûteux).

  • Le Frein (Pour les liens faux) : Si le robot veut dire "couteau" juste parce qu'il y a une "fourchette", GACD dit : « Stop ! Regarde la photo. Il n'y a pas de couteau. Je vais réduire l'influence de la fourchette sur cette décision. » C'est comme si on disait au robot : « Ne te fie pas à ta mémoire, regarde ce qui est vraiment là. »
  • L'Accélérateur (Pour l'écoute de l'image) : Si le robot commence à raconter une histoire qui n'a rien à voir avec la photo, GACD appuie sur l'accélérateur des "pixels". Il force le robot à écouter la photo beaucoup plus fort que ses propres pensées. C'est comme mettre un casque à réduction de bruit sur les pensées du robot pour qu'il n'entende que ce qu'il voit.

3. Le Frein d'Urgence (Arrêt Précoce)

Parfois, le robot commence à divaguer dans une phrase très longue. GACD a un petit bouton d'arrêt d'urgence. Si elle voit que le robot ne regarde plus du tout la photo pour écrire les derniers mots, elle dit : « Stop, on arrête là. » Cela évite qu'il invente des détails à la fin de la phrase.

Pourquoi c'est génial ?

  • Pas de chirurgie : On n'a pas besoin de changer le cerveau du robot (pas de réentraînement). On lui donne juste un "miroir" pour qu'il se corrige lui-même pendant qu'il parle.
  • Pas de robots auxiliaires : On n'a pas besoin d'engager un autre robot pour vérifier le travail. Le robot se corrige tout seul.
  • Résultats : Les expériences montrent que le robot hallucine beaucoup moins. Il voit vraiment ce qui est là, et non pas ce qu'il pense qu'il devrait y avoir.

En résumé :
GACD, c'est comme donner à un robot un miroir magique qui lui dit en temps réel : « Tu es en train de rêver, regarde la photo ! » et « Tu écoutes trop tes souvenirs, écoute tes yeux ! ». Résultat : des descriptions plus vraies, plus fiables et moins de fausses informations.