AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le "Rêveur" qui voit ce qu'il n'est pas

Imaginez un artiste très talentueux, disons Léo, qui est un expert en dessin et en description. Léo a lu des millions de livres et de magazines. Il connaît par cœur les descriptions des objets : "un chien a quatre pattes", "un chapeau est rond", "un homme au ski porte souvent un bonnet".

Le problème, c'est que Léo est un peu têtu. Quand on lui montre une photo réelle, il a tendance à ignorer ce qu'il voit vraiment pour se fier à ce qu'il pense savoir d'après ses livres.

La situation : Vous lui montrez une photo d'un homme sur un banc avec un sac à dos.
La réaction de Léo (Hallucination) : Comme il a lu que "les gens au ski portent souvent des planches à neige", il vous dit : "C'est un homme avec une planche à neige !". Ou pire, il dit : "Il y a deux gants" alors qu'il n'y en a qu'un seul.

C'est ce qu'on appelle une hallucination dans les modèles d'intelligence artificielle (IA) : l'IA invente des détails parce que son "cerveau" (les données textuelles) est plus fort que ses "yeux" (l'image réelle).

🛠️ La Solution : Le Correcteur "AFTER"

Les chercheurs ont créé une méthode appelée AFTER (Adaptive Factual-Guided Visual-Textual Editing). Imaginez que AFTER est un correcteur d'orthographe ultra-intelligent qui intervient directement dans la tête de Léo pendant qu'il dessine, sans avoir besoin de le rééduquer pendant des mois.

AFTER fonctionne en deux étapes magiques :

1. Le Guide de Vérité (FAS) : "Regarde ce qui est écrit, pas ce que tu imagines"

D'habitude, pour corriger Léo, on lui montrait des photos floues ou abîmées pour le forcer à se concentrer. C'était comme essayer de lui apprendre à voir en lui fermant un œil.

AFTER fait mieux :
Il prend les vérités factuelles (les étiquettes exactes de la photo : "un homme", "un casque", "un sac à dos") et les transforme en une histoire écrite parfaite.

Au lieu de laisser Léo deviner, AFTER lui dit : "Attends, l'image dit 'un sac à dos'. Ton livre dit 'planche à neige', mais l'image dit 'sac'. Écoute l'image !".
Cela crée une boussole qui pointe toujours vers la vérité.

2. Le Réglage Personnalisé (QAO) : "Chaque question mérite une réponse unique"

Le problème, c'est que Léo ne fait pas les mêmes erreurs pour chaque question.

Si vous demandez "Qu'est-ce qu'il y a sur la tête ?", il va se tromper sur le casque.
Si vous demandez "Combien de gants ?", il va se tromper sur le nombre.

Une boussole unique ne suffit pas. AFTER ajoute un réglage fin (un petit décalage) qui s'adapte à la question précise.

C'est comme si AFTER avait un assistant personnel qui chuchote à Léo : "Pour cette question précise sur les gants, oublie ta règle habituelle 'les gants vont par deux', regarde la photo, il n'y en a qu'un !".

🌟 Pourquoi c'est génial ? (Les Analogies)

Pas de rééducation lourde :
Habituellement, pour corriger un artiste têtu, il faut le faire travailler pendant des années (réentraînement). AFTER, c'est comme mettre des lunettes correctrices sur ses yeux juste avant qu'il ne commence à dessiner. C'est rapide, léger et immédiat.
La précision chirurgicale :
D'autres méthodes essaient de corriger tout le dessin d'un coup. AFTER, lui, ajuste seulement les pinceaux qui font l'erreur. Si Léo se trompe sur la couleur du ciel, AFTER ne touche pas à la façon dont il dessine les arbres.
Le résultat :
Grâce à AFTER, Léo dessine enfin ce qu'il voit vraiment.
- Au lieu de dire "Il y a une planche à neige", il dit "Il y a un sac à dos".
- Au lieu de dire "Deux gants", il dit "Un gant".

📊 En résumé, ce que le papier dit :

Le but : Arrêter les IA de "rêver" des objets qui ne sont pas là à cause de leurs préjugés.
La méthode : Utiliser la vérité écrite (les faits) pour guider les "yeux" de l'IA, et adapter cette guidance à chaque question posée.
Le succès : Sur des tests difficiles, cette méthode a réduit les erreurs de 16 % (ce qui est énorme !) tout en restant très rapide et sans avoir besoin de réapprendre tout le modèle.

En une phrase : AFTER est comme un guide de voyage qui tient la main de l'IA pour lui dire : "Non, ne regarde pas ce que tu as lu dans ton guide touristique, regarde la réalité devant toi !"

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Hallucination d'Objets dans les LVLM

Les Modèles de Langage-Vision de Grande Taille (LVLM) ont réalisé des progrès significatifs dans les tâches multimodales, mais ils souffrent encore d'un problème majeur : l'hallucination d'objets. Ce phénomène se manifeste lorsque le modèle génère des réponses contenant des objets, des attributs ou des relations qui ne sont pas présents dans l'image visuelle, mais qui sont déduits de biais linguistiques internes (connaissances textuelles pré-entraînées).

Les auteurs identifient trois types principaux d'hallucinations causées par ce biais :

Hallucination de catégorie : Identifier un objet comme une "planche à neige" alors qu'il s'agit d'un "sac à dos", simplement parce que le contexte (station de ski) associe souvent les deux.
Hallucination d'attribut : Compter incorrectement des objets (ex: dire "deux gants" alors qu'il n'y en a qu'un) en raison de la probabilité statistique que les gants apparaissent par paires.
Hallucination de relation : Privilégier une relation fréquente ("un homme portant un casque") par rapport à la relation visuelle réelle ("un homme tenant un casque").

Les méthodes existantes de mitigation (entraînement lourd ou inférence itérative) sont soit trop coûteuses en ressources, soit inefficaces car elles négligent l'apport positif des sémantiques textuelles factuelles. Elles se concentrent souvent sur la dégradation de l'entrée visuelle pour forcer le modèle à être plus prudent, sans utiliser les faits réels de l'image pour guider activement le modèle vers la vérité.

2. Méthodologie : AFTER (Adaptive Factual-guided Visual-Textual Editing)

Pour résoudre ces problèmes, les auteurs proposent AFTER, une approche d'édition d'activation qui guide les activations visuelles originales vers des sémantiques textuelles factuelles. La méthode se compose de deux modules principaux :

A. Factual-Augmented Activation Steering (FAS) - Pilotage par Augmentation Factuelle

Le but du module FAS est de créer une direction d'édition générale et positive en exploitant les annotations de vérité terrain (Ground Truth).

Transformation des faits : Les annotations brutes (boîtes englobantes, masques) sont transformées en faits textuels structurés :
- Facts de catégorie : Liste des objets présents.
- Facts d'attribut : Couleur, forme et comptage (dérivés des statistiques de pixels et des polygones de segmentation).
- Facts de relation : Relations spatiales calculées via les centres des boîtes et les scores d'IoU.
Génération de description factuelle ( $t^+$ ) : Un modèle LVLM auxiliaire (léger) intègre ces faits discrets en une description textuelle cohérente et factuelle.
Construction du vecteur de pilotage : Le système crée des paires d'échantillons "fiables" (description textuelle $t^+$ + question) et "non fiables" (image originale $x$ + question). En comparant les activations internes générées par ces deux entrées, un vecteur de pilotage général ( $\bar{d}$ ) est calculé. Ce vecteur représente la direction à suivre pour corriger le biais linguistique vers la vérité factuelle.

B. Query-Adaptive Offset Optimization (QAO) - Optimisation Adaptative de l'Offset

Le vecteur général $\bar{d}$ est insuffisant car chaque requête (question) met l'accent sur des objets spécifiques, nécessitant une correction personnalisée.

Estimation de l'offset : Un estimateur d'offset léger (un MLP à une seule couche) est entraîné pour prédire un offset spécifique à la requête ( $o_i$ ).
Mécanisme : L'estimateur analyse la sémantique visuelle de la requête et calcule la différence entre le vecteur idéal pour cette requête spécifique et le vecteur général.
Application : Lors de l'inférence, le vecteur final appliqué aux activations est la somme du vecteur général et de l'offset estimé : $d_{final} = \bar{d} + G(z)$ . Cela permet une édition précise et adaptative sans nécessiter de réentraînement du modèle principal.

3. Contributions Clés

Proposition d'AFTER : Une méthode d'édition d'activation efficace qui guide adaptivement les activations vers des sémantiques factuelles, réduisant le biais linguistique avec un coût d'inférence minimal.
Introduction de FAS : Une technique innovante qui transforme les annotations de vérité terrain en faits textuels pour fournir une guidance positive explicite, comblant le fossé visuel-textuel.
Introduction de QAO : Un mécanisme qui dépasse les vecteurs d'édition statiques en estimant des offsets spécifiques à la requête, améliorant ainsi la granularité et la diversité de la correction.
Performance et Généralisation : Démonstration que la méthode améliore non seulement la réduction des hallucinations, mais aussi les capacités visuelles générales du modèle.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois LVLMs populaires (LLaVA-v1.5, InstructBLIP, Shikra) et évaluées sur plusieurs benchmarks :

Réduction des Hallucinations (AMBER) : AFTER a atteint une réduction des hallucinations allant jusqu'à 16,3 % par rapport à la ligne de base sur le benchmark AMBER, surpassant les méthodes de l'état de l'art (SOTA) comme VTI et ICT.
Performance Discriminative (POPE & MME) :
- Sur POPE, amélioration moyenne de 4,1 % en précision et 2,6 % en score F1 par rapport aux bases.
- Sur MME, des gains significatifs ont été observés sur les dimensions d'existence, de comptage et de position, surpassant toutes les méthodes SOTA.
Généralisation : La méthode montre une forte capacité de généralisation lorsqu'elle est appliquée à des distributions de données hors domaine (ex: vecteurs appris sur COCO appliqués à GQA), prouvant qu'elle ne fait pas simplement du surapprentissage (overfitting) sur un jeu de données spécifique.
Efficacité :
- Vitesse : AFTER maintient la vitesse d'inférence la plus rapide (29,7 tokens/seconde) parmi les méthodes de mitigation, contrairement aux approches itératives.
- Coût : Pas de réentraînement du modèle LVLM principal requis ; seul un petit estimateur d'offset doit être entraîné.

5. Signification et Impact

L'article AFTER représente une avancée significative dans la fiabilité des LVLMs.

Changement de paradigme : Il démontre que l'utilisation de sémantiques factuelles positives (ce qui est vrai dans l'image) est plus efficace que la simple dégradation des entrées visuelles pour corriger les biais.
Équilibre Coût/Efficacité : En évitant le réentraînement coûteux et en utilisant une édition d'activation légère à l'inférence, AFTER rend la mitigation des hallucinations viable pour des applications réelles nécessitant une réponse rapide.
Limites et Perspectives : La méthode dépend de l'accès aux activations internes (limitant son application aux modèles open-source) et nécessite des données spécifiques pour des domaines très spécialisés (ex: médical). Les auteurs prévoient d'étendre la méthode à d'autres domaines spécialisés.

En résumé, AFTER offre une solution robuste, rapide et adaptable pour aligner les réponses des modèles vision-langage sur la réalité visuelle, réduisant ainsi les risques de désinformation générée par l'IA.