AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Peintre qui Oublie sa Toile

Imaginez un artiste très talentueux, mais un peu distrait, appelé LVLM (un modèle de langage et de vision géant). On lui montre une photo (par exemple, un vieux clocher dans une ville) et on lui demande de la décrire.

Le problème, c'est que cet artiste a tendance à halluciner. Parfois, il invente des détails qui ne sont pas là (il dit qu'il y a deux voitures alors qu'il n'y en a pas). C'est ce qu'on appelle une "hallucination".

Pour l'instant, les chercheurs ont essayé de le corriger en lui disant : "Regarde la photo ! Regarde la photo !" (en augmentant l'attention sur l'image).

Le résultat ? Ça marche pour arrêter les inventions, mais l'artiste devient bizarre. Comme il est trop focalisé sur la photo, il oublie ce qu'il vient de dire. Il commence à répéter la même phrase encore et encore : "Le clocher est là. Le clocher est là. Le clocher est là...". C'est ennuyeux et répétitif.

💡 La Découverte : Le Secret est dans ce qu'il a déjà dit

Les auteurs de ce papier (Li'an Zhong et son équipe) ont observé quelque chose d'intéressant en regardant comment le cerveau de l'IA fonctionne :

Quand l'IA décrit un objet réel (le clocher), elle écoute bien ce qu'elle a déjà écrit juste avant.
Quand elle hallucine (invente les voitures), elle ignore ce qu'elle a écrit et se perd.

L'analogie : Imaginez que vous écrivez une histoire. Si vous vous fiez à ce que vous avez écrit dans le paragraphe précédent, l'histoire reste cohérente. Si vous ignorez votre propre texte pour inventer n'importe quoi, l'histoire devient folle.

🚀 La Solution : AdaIAT (Le Guide Intelligents)

Au lieu de forcer l'IA à regarder uniquement la photo, les chercheurs proposent une nouvelle méthode appelée AdaIAT.

Voici comment ça marche, étape par étape :

1. IAT : Écouter son propre texte

Au lieu de crier "Regarde la photo !", on dit à l'IA : "Écoute ce que tu viens de dire !"
En augmentant l'attention sur le texte qu'elle génère elle-même, l'IA utilise ses propres connaissances pour rester cohérente.

Résultat : Elle arrête d'inventer des voitures fantômes, mais elle ne répète pas bêtement "Le clocher est là". Elle continue son histoire naturellement.

2. AdaIAT : Le Chef d'Orchestre Adaptatif

La première méthode (IAT) est bien, mais elle est un peu "bête" : elle aide l'IA tout le temps, même quand l'IA n'a pas besoin d'aide. C'est comme un professeur qui vous aide à résoudre un problème de mathématiques même quand vous y arrivez déjà tout seul. Ça peut vous rendre dépendant ou vous faire faire des erreurs.

C'est là qu'intervient AdaIAT (Adaptive IAT). C'est une version intelligente et adaptative :

Le Radar (Seuils par couche) : AdaIAT surveille l'IA en temps réel. Il ne l'aide que si l'IA commence à perdre le fil (quand l'attention sur son propre texte baisse trop). Si l'IA va bien, on la laisse tranquille.
Le Moteur de Précision (Amplification par tête) : L'IA a plusieurs "cerveaux" (des têtes d'attention). Certains sont très bons pour voir les détails, d'autres pour le contexte. AdaIAT donne un coup de pouce différent à chaque cerveau selon ses besoins. Il ne force pas tout le monde de la même manière.

🏆 Les Résultats : Le Meilleur des Deux Mondes

Grâce à cette méthode, l'IA obtient un équilibre parfait :

Moins d'illusions : Elle invente beaucoup moins de choses qui n'existent pas (réduction drastique des hallucinations).
Plus de naturel : Elle ne répète pas les mêmes phrases. Son texte reste riche, varié et fluide.
Plus de précision : Elle décrit mieux les objets réels.

En résumé :
Imaginez que vous avez un assistant qui décrit vos photos.

L'ancien système le forçait à regarder la photo en permanence, ce qui le rendait robotique et répétitif.
Le nouveau système (AdaIAT) lui apprend à se fier à son propre jugement et à ce qu'il a déjà dit, tout en le surveillant gentiment pour l'aider uniquement quand il commence à rêver.

Le résultat ? Un assistant qui est à la fois fidèle à la réalité et agréable à lire.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Les Hallucinations dans les LVLM

Les modèles de langage-vision à grande échelle (LVLM) souffrent d'un problème majeur : les hallucinations. Cela se manifeste par la génération de descriptions textuelles incohérentes avec le contenu visuel de l'image (par exemple, décrire des objets qui n'existent pas).

Les méthodes existantes pour atténuer ce problème, telles que l'intervention sur l'attention (ex: PAI, HGAI), consistent à amplifier directement les poids d'attention vers les tokens d'image lors de l'inférence. Bien que cela réduise le taux d'hallucination, l'article identifie un effet secondaire critique :

Perte de cohérence linguistique : En sur-attirant l'attention sur l'image, ces méthodes suppriment relativement l'attention portée au texte généré précédemment.
Conséquence : Le modèle "oublie" son contexte, ce qui entraîne des descriptions répétitives et une dégradation de la diversité lexicale, s'éloignant ainsi de l'intention de l'utilisateur.

2. Méthodologie et Analyse Fondamentale

Analyse des motifs d'attention

Les auteurs ont analysé les patterns d'attention internes des LVLM lors de la génération d'objets réels par rapport à des objets hallucinés. Leur découverte clé est contre-intuitive par rapport aux méthodes précédentes :

Les tokens d'objets réels accordent une attention plus élevée aux tokens de texte généré ( $T_p$ ) que les tokens d'objets hallucinés.
Hypothèse : Le texte généré ( $T_p$ ) contient non seulement des connaissances contextuelles, mais aussi des informations visuelles liées à l'instruction, réorganisées et condensées par le modèle. Ignorer $T_p$ prive le modèle de ces indices cruciaux pour la prédiction précise.

Proposition 1 : IAT (Increase Attention to Generated Text)

Au lieu d'amplifier l'attention vers l'image, la méthode IAT propose d'augmenter l'attention vers les tokens de texte générés ( $T_p$ ).

Mécanisme : Pour les couches intermédiaires du LLM, on amplifie les poids d'attention vers $T_p$ par un facteur fixe $\alpha$ .
Avantage : Cela permet au modèle de s'appuyer sur ses propres représentations visuelles compressées et pertinentes pour l'instruction, réduisant les hallucinations tout en maintenant la cohérence et la diversité du texte (évitant les répétitions).

Proposition 2 : AdaIAT (Adaptive IAT)

L'approche IAT naïve présente des limites (amplification uniforme et constante). AdaIAT introduit une adaptation fine pour minimiser la perturbation des capacités de prédiction inhérentes du modèle :

Seuil d'intervention par couche (Layer-wise Threshold) :
- Au lieu d'intervenir en permanence, le système surveille l'attention portée à $T_p$ .
- Une intervention n'est déclenchée que si l'attention actuelle tombe en dessous d'un seuil dynamique $T^{(l)}$ , calculé à partir de la différence entre les patterns d'attention des objets réels et hallucinés. Cela évite de perturber les prédictions correctes.
Magnitude d'amplification adaptative :
- Au lieu d'un facteur $\alpha$ unique, AdaIAT attribue une magnitude d'amplification spécifique à chaque tête d'attention ( $h$ ) et chaque couche ( $l$ ).
- Cette magnitude est basée sur le ratio $M^{(l,h)}$ entre l'attention sur $T_p$ pour les objets réels vs hallucinés. Les têtes montrant un grand déficit d'attention lors des hallucinations reçoivent une amplification plus forte.

3. Contributions Clés

Nouvelle perspective théorique : Démonstration que l'attention vers le texte généré ( $T_p$ ) est un indicateur de précision et un vecteur d'information visuelle pertinente, contrairement à la croyance commune qu'il faut uniquement renforcer l'attention vers l'image.
Algorithme IAT : Une méthode simple mais efficace qui réduit les hallucinations sans sacrifier la diversité lexicale ni induire de répétitions.
Algorithme AdaIAT : Une version adaptative qui contrôle le moment de l'intervention et l'intensité par tête d'attention, préservant ainsi les capacités de raisonnement natif du modèle.
Validation expérimentale : Preuve que cette approche offre un compromis (trade-off) supérieur entre réduction des hallucinations, capacité de prédiction et qualité linguistique.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs LVLMs (LLaVA-1.5, Janus-Pro, Qwen2.5-VL) avec des métriques standard (CHAIR, OpenCHAIR, HalluBench, BertScore).

Réduction des Hallucinations :
- Sur LLaVA-1.5, AdaIAT réduit le taux d'hallucination au niveau de la phrase (CS) de 35,8 % et au niveau de l'instance (CI) de 37,1 % par rapport au décodage standard (Greedy).
- Ces performances sont comparables ou supérieures aux méthodes d'intervention sur l'image (PAI, HGAI).
Préservation de la Qualité Linguistique :
- Contrairement à PAI et HGAI qui font chuter la diversité textuelle (Distinct-1 ou D1) d'environ 15 %, AdaIAT maintient un score D1 proche de celui du décodage Greedy (autour de 0,60-0,61).
- Les descriptions générées sont moins répétitives et plus riches en vocabulaire.
Capacité de Prédiction (F1 Score) :
- AdaIAT obtient les meilleurs scores F1 (richesse et précision des objets générés) sur la plupart des modèles, surpassant IAT naïf et les méthodes basées sur l'image.
Robustesse :
- Les résultats sont cohérents sur différents jeux de données (COCO, OpenCHAIR, HalluBench) et avec différentes stratégies de décodage (Greedy et Sample).

5. Signification et Impact

Ce travail remet en question le paradigme dominant selon lequel la seule solution aux hallucinations des LVLM est de forcer l'attention vers l'image. En démontrant que le texte généré lui-même est une source fiable d'information visuelle contextuelle, les auteurs proposent une voie plus équilibrée.

AdaIAT est significatif car il résout le dilemme classique entre fidélité visuelle (réduire les hallucinations) et cohérence linguistique (éviter les répétitions). Il offre une solution légère (sans réentraînement coûteux) qui améliore la fiabilité des LVLM pour des applications critiques comme la description d'images médicales, l'assistance robotique ou l'analyse de documents visuels, où la précision et la fluidité du langage sont toutes deux essentielles.