Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un ami très intelligent, un expert en art et en description, capable de regarder une photo et de vous raconter une histoire à son sujet. C'est ce qu'on appelle un Modèle de Langage Visuel et Large (LVLM). Mais comme tout le monde, il a un défaut : il a parfois tendance à halluciner.

Cela signifie qu'il peut inventer des détails qui n'existent pas (par exemple, dire qu'il y a un chat sur la table alors qu'il n'y a qu'une tasse) ou décrire la réalité de travers. C'est un problème, surtout si ce "robot" est utilisé pour conduire une voiture autonome ou aider un chirurgien !

Les chercheurs de ce papier ont trouvé une solution ingénieuse, qu'ils appellent DMAS (Direction Dynamique Multimodale). Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Problème : Un cerveau qui se trompe de canal

En regardant comment ces modèles "pensent" (leur activité interne), les chercheurs ont découvert deux choses fascinantes :

Le cerveau est divisé : Il y a des "zones" (appelées têtes d'attention) qui s'occupent de la vérité (ce qui est factuel) et d'autres qui s'occupent de la vision (ce qu'on voit vraiment). Souvent, ces deux zones ne parlent pas aux mêmes endroits du cerveau du modèle.
La vérité change de couleur : Le "cercle de vérité" n'est pas le même pour toutes les questions. La façon de dire la vérité sur un sujet de cuisine est différente de la façon de le faire sur un sujet d'astronomie.

Les anciennes méthodes essayaient de corriger le modèle avec une seule "boussole" fixe pour tout. C'est comme essayer de naviguer dans l'océan et dans la montagne avec la même carte : ça ne marche pas bien partout.

2. La Solution : Une "Boussole Dynamique"

Leur méthode, DMAS, est comme un GPS intelligent et adaptatif qui ne nécessite pas de réapprendre tout le modèle (pas de réentraînement coûteux). Voici les trois étapes de leur magie :

Étape A : Créer une bibliothèque de "Boussoles de Vérité"

Imaginez que vous classez toutes les questions possibles en 4 grandes catégories (comme des rayons dans une bibliothèque : Cuisine, Animaux, Science, Voyage).

Pour chaque catégorie, les chercheurs ont créé une "boussole de vérité" spécifique.
Ils ont comparé des réponses vraies et des réponses fausses pour voir quelle partie du cerveau du modèle s'activait différemment.
Ils ont stocké ces boussoles dans une base de données. C'est comme avoir un tiroir avec 4 boussoles différentes, chacune parfaite pour un type de terrain.

Étape B : Créer une "Lunette de Vision"

Parfois, le modèle ne voit pas bien l'image (il est distrait par du bruit).

Les chercheurs ont créé une "lunette de vision" spéciale. Ils montrent au modèle une image claire et une image bruitée, puis ils calculent la différence d'activité dans le cerveau.
Cela crée une direction qui aide le modèle à se concentrer mieux sur ce qu'il voit réellement, comme ajuster le focus d'une caméra.

Étape C : Le GPS en Action (Pendant la conversation)

Quand vous posez une question au modèle avec une image :

Le système regarde votre question et dit : "Ah, c'est une question sur les animaux !"
Il va chercher dans son tiroir la boussole de vérité adaptée aux animaux (et non celle pour la cuisine).
Il active aussi la lunette de vision pour s'assurer que le modèle regarde bien l'image.
Il applique ces corrections uniquement sur les "zones" du cerveau les plus importantes pour cette tâche précise.

3. Le Résultat : Moins d'illusions, plus de précision

Grâce à cette méthode dynamique :

Le modèle devient beaucoup plus fiable.
Sur les tests, il a réduit les hallucinations de 20 % (c'est énorme !).
Il est plus précis pour compter des objets, décrire des positions et répondre à des questions complexes.

En résumé

Au lieu d'essayer de forcer le modèle à être honnête avec une seule règle rigide pour tout, les auteurs ont créé un système qui s'adapte au contexte. C'est comme si vous donniez au modèle un kit d'outils complet : quand il doit cuisiner, il prend le couteau de chef ; quand il doit réparer une voiture, il prend la clé à molette. Il choisit l'outil de "vérité" et de "vision" le plus approprié pour chaque situation, ce qui l'empêche de s'inventer des histoires.

C'est une avancée majeure car cela ne demande pas de réentraîner le modèle (ce qui est très long et cher), mais simplement de lui donner les bons outils au bon moment.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Les Hallucinations dans les LVLM

Les Modèles de Langage-Vision (LVLM) ont démontré des performances exceptionnelles dans des tâches comme la réponse aux questions visuelles (VQA) et la génération de légendes. Cependant, ils souffrent d'un problème majeur : l'hallucination. Cela se manifeste par la fabrication d'objets inexistants ou la description incorrecte du contenu d'une image.

Les méthodes existantes pour atténuer ce problème se divisent en deux catégories, chacune ayant des limites :

Méthodes basées sur l'entraînement : Elles nécessitent des jeux de données soigneusement curatés et des ressources computationnelles massives pour le fine-tuning ou l'apprentissage par renforcement (RLHF).
Méthodes basées sur le décodage : Elles modifient les stratégies de décodage (ex: VCD, ICD) sans réentraînement, mais dégradent souvent la qualité du contenu généré.
Méthodes d'ingénierie d'activation (Activation Engineering) : Des approches récentes comme ICT ou VTI tentent d'intervenir sur les représentations internes du modèle. Cependant, elles souffrent de deux défauts : elles se concentrent souvent uniquement sur le niveau visuel (négligeant la multimodalité) ou utilisent des vecteurs de guidage (steering vectors) fixes, ignorant les variations sémantiques contextuelles qui influencent la vérité des réponses.

2. Méthodologie : DMAS (Dynamic Multimodal Activation Steering)

Les auteurs proposent DMAS, une approche sans entraînement (training-free) qui intervient dynamiquement sur les têtes d'attention du modèle lors de l'inférence. La méthode repose sur deux découvertes clés issues d'une analyse approfondie des motifs d'activation :

La vérité (truthfulness) et la perception visuelle mobilisent des sous-ensembles distincts de têtes d'attention.
Les vecteurs de guidage pour la vérité varient considérablement selon le contexte sémantique.

Le processus DMAS se déroule en trois étapes :

A. Construction d'une Base de Données de Vecteurs de Vérité Dynamique

Clustering Sémantique : Les données (issues de SEED et AMBER) sont divisées en clusters sémantiques (ex: 4 clusters).
Extraction de Vecteurs : Pour chaque cluster, le modèle génère des réponses correctes ( $Y_{pos}$ ) et des réponses hallucinées ( $Y_{neg}$ ) pour les mêmes entrées. La différence d'activation entre ces deux états est calculée pour obtenir un vecteur de guidage de vérité ( $D_i$ ).
Réduction de Dimension : Une Analyse en Composantes Principales (PCA) est appliquée pour extraire les composantes principales influentes.
Stockage : Ces vecteurs sont stockés dans une base de données clé-valeur, où la clé est l'embedding sémantique moyen du cluster et la valeur est le vecteur de guidage.

B. Calcul du Vecteur de Guidage de Perception Visuelle

Pour renforcer l'attention visuelle, les auteurs comparent les activations du modèle face à une image originale ( $V$ ) et à une image bruitée ( $V'$ ).
La différence d'activation ( $D_v = A_v - A_{v'}$ ) est calculée et filtrée par PCA pour isoler les composantes liées à la perception visuelle.

C. Intervention Dynamique lors de l'Inférence

Lors de la génération d'une réponse pour une nouvelle requête ( $T, V$ ) :

Sélection Dynamique : Le système calcule la similarité sémantique (cosinus) entre la requête d'entrée et les clés de la base de données pour récupérer le vecteur de vérité le plus pertinent ( $D_f$ ).
Sélection des Têtes d'Attention : Au lieu d'intervenir sur toutes les têtes, le méthode cible uniquement les $K$ têtes les plus influentes pour la vérité et la perception visuelle (ceux ayant les plus grandes différences d'activation).
Application : Les vecteurs sont injectés dans les états cachés du modèle via une formule modifiée d'attention, pondérée par des hyperparamètres $\alpha$ (vérité) et $\beta$ (visuel).

3. Contributions Clés

Analyse Mécanistique : Démonstration que la vérité et la perception visuelle opèrent sur des têtes d'attention différentes et que les vecteurs de vérité sont dépendants du contexte sémantique, justifiant une approche dynamique plutôt que statique.
Nouvelle Méthode (DMAS) : Proposition d'une méthode sans entraînement combinant une base de données de vecteurs de vérité sémantiquement conditionnés et un vecteur de perception visuelle, permettant une intervention contextuelle précise.
Performance Supérieure : Résultats expérimentaux montrant une amélioration significative par rapport aux méthodes de l'état de l'art (SOTA) sur des tâches discriminatives et génératives.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs modèles (LLaVA-v1.5, QwenVL) et benchmarks (MME, POPE, CHAIR, AMBER, etc.).

Sur MME (Tâches discriminatives) :
- LLaVA-v1.5 : Amélioration de 94,66 points par rapport à la ligne de base, surpassant la méthode SOTA ICT de 10,89 points.
- QwenVL : Amélioration de 46 points, surpassant VAF de 5 points.
Sur POPE (Hallucination d'objets) :
- Amélioration de l'exactitude (Accuracy) et du F1-score sur les ensembles de données MSCOCO et GQA, avec des gains allant jusqu'à 7,14% en F1-score pour LLaVA-v1.5.
Sur CHAIR (Génération de légendes) :
- Réduction des hallucinations de 20,2% au niveau de la phrase (CHAIRS) et de 3,8% au niveau de l'image (CHAIRI).
- Surpasse VTI (SOTA actuel) de 5 points sur le niveau phrase.
Analyse d'ablation : La combinaison des deux vecteurs (vérité + vision) est essentielle ; l'utilisation d'un seul vecteur ou d'un vecteur fixe donne des résultats inférieurs.
Généralité : La méthode fonctionne bien sur des datasets non vus lors de la construction des vecteurs (ScienceQA, ViQuAE) et sur différents modèles (Qwen2.5-VL, InternVL3, etc.).
Efficacité : L'approche ajoute très peu de temps d'inférence par rapport aux méthodes de décodage contrastif (comme VCD qui double la latence).

5. Signification et Impact

Ce travail est significatif car il propose une solution efficace, rapide et sans réentraînement pour un problème critique des LVLM. En passant d'une intervention statique à une intervention dynamique et contextuelle, les auteurs démontrent que la compréhension fine des mécanismes internes du modèle (spécificité des têtes d'attention et dépendance sémantique) permet d'atténuer les hallucinations sans sacrifier la qualité de génération ni nécessiter des coûts de calcul prohibitifs liés au réentraînement. Cela ouvre la voie à des applications LVLM plus fiables dans des domaines critiques comme la robotique et la conduite autonome.