Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un ami très intelligent, mais un peu rêveur. C'est un expert en images et en langage : il peut décrire une photo avec des mots magnifiques. Mais il a un défaut : il a tendance à halluciner.

Par exemple, si vous lui montrez une photo d'une table avec des pommes et des bananes, il pourrait dire avec une totale confiance : "Ah, je vois aussi un éléphant rose qui danse sur la table !" alors qu'il n'y a absolument rien de tel. C'est ce qu'on appelle une hallucination dans le monde de l'intelligence artificielle.

Les chercheurs de ce papier ont créé une solution géniale appelée CIPHER (qui sonne comme un code secret) pour arrêter ce rêveur de raconter n'importe quoi, et ce, sans avoir besoin de le rééduquer (ce qui est long et coûteux).

Voici comment ça marche, expliqué simplement :

1. Le Problème : Pourquoi l'IA hallucine-t-elle ?

Souvent, les chercheurs pensaient que l'IA hallucinait à cause de ses "mots" (son cerveau de langage). Mais ce papier découvre que le vrai coupable, c'est souvent l'image elle-même. L'IA regarde une photo, et son cerveau se dit : "Tiens, ça ressemble à une scène où il y a des raisins, donc je vais inventer des raisins !", même s'il n'y en a pas.

2. La Solution : Le "Miroir Magique" (CIPHER)

Au lieu de réécrire tout le cerveau de l'IA, CIPHER agit comme un filtre anti-rêve qu'on lui met sur les yeux juste au moment où il répond.

Voici les deux étapes de la magie :

Étape A : L'Entraînement du Détective (Hors ligne)

Avant même de rencontrer l'IA, les chercheurs créent un laboratoire d'illusions.

Ils prennent une vraie photo (par exemple, une table avec des pommes).
Ils utilisent un outil spécial (un "moteur de dessin" appelé Diffusion) pour modifier subtilement la photo et y ajouter des objets qui n'existent pas (par exemple, ils ajoutent un tas de raisins).
Ils montrent cette photo truquée à l'IA en lui disant : "Décris cette photo". L'IA va dire : "Je vois des pommes et des raisins".
Ensuite, ils comparent ce que l'IA a "pensé" pour la photo truquée avec ce qu'elle pensait pour la photo vraie.

L'analogie : C'est comme si vous regardiez un miroir déformant. Vous voyez votre reflet avec un nez de clown. En comparant votre vrai visage et le visage avec le nez de clown, vous pouvez identifier exactement quelle est la "direction" du nez de clown.

Étape B : Le Filtre en Temps Réel (Pendant l'utilisation)

Quand vous utilisez l'IA pour décrire une vraie photo :

L'IA commence à réfléchir.
Juste avant qu'elle ne sorte ses mots, le système CIPHER intervient.
Il regarde les pensées de l'IA et dit : "Attends, cette pensée ressemble trop à celle du 'nez de clown' (l'illusion des raisins). Je vais l'effacer !"
Il projette la pensée de l'IA dans une direction où il n'y a pas d'illusions.
L'IA produit alors une réponse : "Je vois des pommes." (Sans les raisins inventés).

3. Pourquoi c'est génial ?

C'est rapide : Contrairement à d'autres méthodes qui obligent l'IA à réfléchir deux fois (ce qui la rend lente), CIPHER agit en un éclair, comme un filtre de réalité augmentée.
C'est précis : Il cible spécifiquement les erreurs venant de la vision, pas juste des erreurs de langage.
C'est gratuit : On n'a pas besoin de réapprendre l'IA. On lui met juste un "chapeau" anti-hallucination.

En résumé

Imaginez que l'IA est un peintre très talentueux mais qui a un accès de folie passager et ajoute des éléments bizarres à ses tableaux. CIPHER est comme un assistant qui se tient juste derrière lui, avec une gomme magique. Dès que le peintre commence à dessiner un éléphant rose sur une table à pommes, l'assistant efface l'éléphant avant même que le tableau ne soit fini.

Le résultat ? Des descriptions d'images qui sont à la fois belles, détaillées et, surtout, vraies.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression" (Lutte contre les hallucinations par les contre-factuels : Perturbations guidées par la diffusion pour la suppression des hallucinations des LVLM), rédigé en français.

1. Le Problème : Les Hallucinations Visuelles dans les LVLM

Les grands modèles de vision-langage (LVLM) comme LLaVA, MiniGPT-4 et mPLUG-Owl2 excellent dans les tâches multimodales, mais ils souffrent fréquemment d'hallucinations. Il s'agit de générations de texte non fidèles à l'entrée visuelle (description d'objets, d'attributs ou de scènes absents de l'image).

Bien que des méthodes existantes tentent de résoudre ce problème, elles présentent des limites :

Méthodes basées sur l'entraînement : Nécessitent des annotations coûteuses, un réentraînement complet ou des modifications architecturales.
Méthodes de post-traitement : Dépendent d'outils externes et peuvent limiter la généralisation.
Méthodes au moment de l'inférence (Test-time) : Souvent efficaces, mais la majorité se concentre sur les hallucinations induites par le texte (langage). Les hallucinations induites par la vision (où le modèle "voit" ce qui n'est pas là à cause de faiblesses dans l'encodage visuel) restent sous-exploitées. De plus, certaines approches nécessitent plusieurs passages avant (forward passes), augmentant le coût computationnel.

2. Méthodologie : CIPHER

Les auteurs proposent CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal), une méthode sans entraînement (training-free) qui intervient au niveau des caractéristiques (feature-level) pendant l'inférence. Elle opère en deux phases :

Phase 1 : Construction du Dataset Contrefactuel (OHC-25K)

L'objectif est d'identifier la "direction" de l'hallucination dans l'espace des caractéristiques du modèle.

Génération d'images contrefactuelles : À partir de paires image-légende originales (ex: MSCOCO), les auteurs utilisent un modèle de langage (GPT-3.5) pour générer une légende "hallucinée" (ajoutant des objets fictifs).
Édition par Diffusion : Cette légende altérée est utilisée comme condition pour un modèle de diffusion (Stable Diffusion). On applique un processus de diffusion avant (ajout de bruit) suivi d'un processus de diffusion inverse conditionné par la légende hallucinée. Cela génère une image $\tilde{I}$ qui conserve la structure globale de l'image originale mais contient des éléments visuels plausibles mais sémantiquement incorrects (ex: ajouter des raisins qui n'existent pas).
Extraction des directions d'hallucination : Le LVLM encode à la fois la paire originale $(I, C)$ et la paire contrefactuelle $(\tilde{I}, C)$ . La différence entre leurs états cachés ( $\delta = \tilde{h} - h$ ) capture la direction de l'hallucination induite par la vision.
Sous-espace d'hallucination : En empilant ces vecteurs de différence pour 25 000 échantillons et en appliquant une Décomposition en Valeurs Singulières (SVD), les auteurs identifient un sous-espace de faible rang (basé sur les vecteurs singuliers droits dominants) qui caractérise systématiquement les hallucinations visuelles.

Phase 2 : Inférence et Nullification

Pendant la génération de texte (inférence) :

Pour chaque état caché intermédiaire $h_{test}$ du modèle, CIPHER projette ce vecteur sur le complément orthogonal du sous-espace d'hallucination identifié précédemment.
Mathématiquement, cela revient à soustraire la composante de l'état caché alignée avec la direction de l'hallucination :
$h_{clean} = h_{test} - \sum \langle h_{test}, v_j \rangle v_j$
où $v_j$ sont les vecteurs de base du sous-espace d'hallucination.
Cette opération se fait en un seul passage avant (single forward pass), sans modifier les poids du modèle.

3. Contributions Clés

CIPHER : Première méthode de suppression d'hallucinations au moment de l'inférence ciblant spécifiquement les hallucinations d'origine visuelle via une intervention sur les caractéristiques.
OHC-25K : Création d'un nouveau dataset de 25 000 paires image-légende contrefactuelles générées par diffusion, permettant d'isoler les signaux d'hallucination visuelle.
Efficacité : La méthode ne nécessite aucun réentraînement, ne modifie pas les paramètres du modèle et n'ajoute aucune latence d'inférence (contrairement aux méthodes de décodage contrastif).
Validation Empirique : Démonstration que les perturbations visuelles guidées par la diffusion créent des signaux d'hallucination plus structurés et séparables que les perturbations purement textuelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs modèles (LLaVA-1.5, MiniGPT-4, mPLUG-Owl2) et benchmarks (CHAIR, OPOPE, MMHal-Bench, LLaVA-Bench).

Réduction des Hallucinations (CHAIR) : CIPHER obtient les meilleurs résultats sur tous les modèles.
- Sur LLaVA-1.5, le taux d'hallucination par phrase (CHAIRS) passe de 20,40 % (base) à 13,05 %, surpassant la méthode précédente la plus performante (Nullu à 15,20 %).
- Sur MiniGPT-4, la réduction est drastique : de 32,40 % à 18,48 %.
Préservation de la Qualité (BLEU/Fluence) : Contrairement à d'autres méthodes qui dégradent parfois la fluidité du texte, CIPHER maintient ou améliore les scores BLEU, prouvant qu'elle supprime le bruit sans altérer le contenu sémantique correct.
Performance sur OPOPE : CIPHER obtient les scores les plus élevés en précision et en F-score, indiquant une meilleure capacité à éviter la mention d'objets inexistants tout en conservant les objets réels.
Efficacité Computationnelle : Le débit (throughput) de CIPHER est identique à celui du décodage gourmand (Greedy), soit environ 0,70 éléments/seconde, tandis que d'autres méthodes (OPERA, HALC) sont beaucoup plus lentes (0,05 à 0,10 éléments/seconde).
Analyse d'Ablation :
- Les perturbations visuelles (diffusion) sont plus efficaces pour séparer les états "propres" et "hallucinés" que les perturbations textuelles.
- Le nombre optimal de vecteurs singuliers ( $r$ ) varie selon le modèle (8 pour LLaVA, 64 pour MiniGPT-4).
- La projection sur les couches intermédiaires à profondes (16-32) est cruciale pour capturer les signaux sémantiques d'hallucination.

5. Signification et Impact

CIPHER représente une avancée significative dans la lutte contre les hallucinations des LVLM. En démontrant que l'on peut identifier et supprimer les biais visuels en manipulant l'espace latent sans réentraînement, la méthode offre une solution légère, rapide et universelle.

Son approche par "contre-factuels visuels" ouvre une nouvelle voie de recherche : au lieu de simplement corriger le texte généré, il est possible de "nettoyer" la représentation visuelle interne du modèle avant qu'elle ne se traduise en texte erroné. Cela améliore la fiabilité (faithfulness) des modèles pour des applications critiques où la précision visuelle est primordiale, tout en restant compatible avec les architectures existantes.