AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Le papier propose AdaIAT, une méthode qui atténue les hallucinations des modèles vision-langage de grande taille en adaptivement augmentant l'attention vers le texte généré, réduisant ainsi significativement les erreurs tout en préservant la cohérence linguistique.

Li'an Zhong, Ziqiang He, Jibin Zheng, Jin Li, Z. Jane Wang, Xiangui Kang

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Peintre qui Oublie sa Toile

Imaginez un artiste très talentueux, mais un peu distrait, appelé LVLM (un modèle de langage et de vision géant). On lui montre une photo (par exemple, un vieux clocher dans une ville) et on lui demande de la décrire.

Le problème, c'est que cet artiste a tendance à halluciner. Parfois, il invente des détails qui ne sont pas là (il dit qu'il y a deux voitures alors qu'il n'y en a pas). C'est ce qu'on appelle une "hallucination".

Pour l'instant, les chercheurs ont essayé de le corriger en lui disant : "Regarde la photo ! Regarde la photo !" (en augmentant l'attention sur l'image).

  • Le résultat ? Ça marche pour arrêter les inventions, mais l'artiste devient bizarre. Comme il est trop focalisé sur la photo, il oublie ce qu'il vient de dire. Il commence à répéter la même phrase encore et encore : "Le clocher est là. Le clocher est là. Le clocher est là...". C'est ennuyeux et répétitif.

💡 La Découverte : Le Secret est dans ce qu'il a déjà dit

Les auteurs de ce papier (Li'an Zhong et son équipe) ont observé quelque chose d'intéressant en regardant comment le cerveau de l'IA fonctionne :

  • Quand l'IA décrit un objet réel (le clocher), elle écoute bien ce qu'elle a déjà écrit juste avant.
  • Quand elle hallucine (invente les voitures), elle ignore ce qu'elle a écrit et se perd.

L'analogie : Imaginez que vous écrivez une histoire. Si vous vous fiez à ce que vous avez écrit dans le paragraphe précédent, l'histoire reste cohérente. Si vous ignorez votre propre texte pour inventer n'importe quoi, l'histoire devient folle.

🚀 La Solution : AdaIAT (Le Guide Intelligents)

Au lieu de forcer l'IA à regarder uniquement la photo, les chercheurs proposent une nouvelle méthode appelée AdaIAT.

Voici comment ça marche, étape par étape :

1. IAT : Écouter son propre texte

Au lieu de crier "Regarde la photo !", on dit à l'IA : "Écoute ce que tu viens de dire !"
En augmentant l'attention sur le texte qu'elle génère elle-même, l'IA utilise ses propres connaissances pour rester cohérente.

  • Résultat : Elle arrête d'inventer des voitures fantômes, mais elle ne répète pas bêtement "Le clocher est là". Elle continue son histoire naturellement.

2. AdaIAT : Le Chef d'Orchestre Adaptatif

La première méthode (IAT) est bien, mais elle est un peu "bête" : elle aide l'IA tout le temps, même quand l'IA n'a pas besoin d'aide. C'est comme un professeur qui vous aide à résoudre un problème de mathématiques même quand vous y arrivez déjà tout seul. Ça peut vous rendre dépendant ou vous faire faire des erreurs.

C'est là qu'intervient AdaIAT (Adaptive IAT). C'est une version intelligente et adaptative :

  • Le Radar (Seuils par couche) : AdaIAT surveille l'IA en temps réel. Il ne l'aide que si l'IA commence à perdre le fil (quand l'attention sur son propre texte baisse trop). Si l'IA va bien, on la laisse tranquille.
  • Le Moteur de Précision (Amplification par tête) : L'IA a plusieurs "cerveaux" (des têtes d'attention). Certains sont très bons pour voir les détails, d'autres pour le contexte. AdaIAT donne un coup de pouce différent à chaque cerveau selon ses besoins. Il ne force pas tout le monde de la même manière.

🏆 Les Résultats : Le Meilleur des Deux Mondes

Grâce à cette méthode, l'IA obtient un équilibre parfait :

  1. Moins d'illusions : Elle invente beaucoup moins de choses qui n'existent pas (réduction drastique des hallucinations).
  2. Plus de naturel : Elle ne répète pas les mêmes phrases. Son texte reste riche, varié et fluide.
  3. Plus de précision : Elle décrit mieux les objets réels.

En résumé :
Imaginez que vous avez un assistant qui décrit vos photos.

  • L'ancien système le forçait à regarder la photo en permanence, ce qui le rendait robotique et répétitif.
  • Le nouveau système (AdaIAT) lui apprend à se fier à son propre jugement et à ce qu'il a déjà dit, tout en le surveillant gentiment pour l'aider uniquement quand il commence à rêver.

Le résultat ? Un assistant qui est à la fois fidèle à la réalité et agréable à lire.