Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami très intelligent, mais un peu rêveur, de décrire une photo que vous lui montrez. S'il voit un chat sur un tapis, il vous dira : « Il y a un chat ». Parfait. Mais parfois, ce même ami, en regardant la même photo, vous dira avec une grande assurance : « Il y a un chat... et il tient une tasse de café ! » Sauf qu'il n'y a pas de tasse. C'est ce qu'on appelle une hallucination dans le monde de l'intelligence artificielle.

Le papier que vous avez partagé explique pourquoi cela arrive et comment le détecter, en utilisant une idée très simple : le "trop-plein de réflexion".

Voici l'explication, étape par étape, avec des images mentales :

1. Le problème : La confiance trompeuse

Jusqu'à présent, les détecteurs d'erreurs regardaient la réponse finale de l'IA.

L'ancienne idée : « Si l'IA hésite (elle ne sait pas quel mot choisir), alors elle hallucine. Si elle est sûre d'elle, elle a raison. »
La réalité découverte par les auteurs : C'est l'inverse ! L'IA peut être extrêmement sûre d'elle même quand elle ment. Pourquoi ? Parce qu'elle a déjà pris une mauvaise décision bien avant d'arriver à la réponse finale.

2. La cause : Le "Contagion des Idées Fausses" (Confounder Propagation)

Imaginons que l'IA regarde une photo d'une cuisine.

Elle voit un évier (sink) et du savon (soap).
Dans sa tête, elle commence à réfléchir. Au début, elle pense à "évier", puis à "savon".
Mais comme l'évier et le savon sont souvent associés aux assiettes (dish) dans notre cerveau humain, l'IA commence à penser : « Tiens, il doit y avoir une assiette ici ! »
Même si l'assiette n'est pas sur la photo, l'IA s'accroche à cette idée. Elle la renforce à chaque étape de sa réflexion interne.
À la fin, elle vous dit avec certitude : « Il y a une assiette. »

Les auteurs appellent cela la propagation de l'erreur. L'erreur commence comme un petit doute au milieu de la réflexion, puis grandit jusqu'à devenir la réponse finale.

3. Le symptôme : Le "Trop-plein de réflexion" (Overthinking)

C'est ici que l'analogie devient amusante.
Imaginez que vous devez choisir un vêtement pour sortir.

Le processus normal (Stable) : Vous regardez la météo, vous prenez un manteau, et vous sortez. C'est rapide et cohérent.
Le processus "Overthinking" (L'IA qui hallucine) :
1. Vous pensez à un manteau.
2. Non, peut-être une veste ?
3. Attends, il pleut, je devrais prendre un imperméable.
4. Mais si je porte un imperméable, je vais avoir chaud, je prends un pull.
5. Et si je mets un pull, je dois enlever mon manteau...
- Vous changez d'avis 10 fois avant de décider. À force de tourner en rond, vous finissez par mettre un costume de bain alors qu'il pleut, simplement parce que vous étiez trop confus pour choisir la bonne option.

L'IA fait la même chose. Quand elle "trop réfléchit", elle passe par trop d'hypothèses différentes (chat, souris, évier, assiette...) avant de se décider. Plus elle hésite et change d'avis dans ses couches internes, plus elle a de chances de se tromper.

4. La solution : Le "Score de Trop-plein" (Overthinking Score)

Les chercheurs ont créé un outil pour mesurer ce phénomène. Au lieu de regarder seulement la réponse finale, ils regardent tout le chemin que l'IA a parcouru dans sa tête.

Comment ça marche ? Ils comptent combien de fois l'IA change d'avis sur ce qu'elle voit à chaque étape de son calcul.
Le résultat : Si l'IA a changé d'avis 50 fois entre le début et la fin, c'est qu'elle "trop réfléchit". C'est un signal d'alarme : « Attention, elle est en train d'inventer quelque chose ! »

En résumé

L'ancien détecteur : Regardait la réponse finale et disait : « Elle a l'air sûre d'elle, donc c'est vrai. » (Mauvaise méthode).
La nouvelle méthode : Regarde le film de la réflexion de l'IA. Si elle tourne en rond, change d'avis constamment et s'accroche à des idées fausses (comme l'assiette dans la cuisine), le système dit : « Stop ! Elle hallucine parce qu'elle a trop réfléchi. »

C'est comme si vous ne regardiez pas seulement le verdict d'un juge, mais que vous écoutiez tout son raisonnement pour voir s'il a été influencé par des idées fausses en cours de route. C'est une méthode beaucoup plus fine et efficace pour repérer les mensonges de l'IA.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Hallucination dans les VLM

Les modèles de langage visuel (VLM) souffrent d'un problème persistant : l'hallucination, c'est-à-dire la génération de descriptions d'objets qui ne sont pas présents dans l'image d'entrée.

Les méthodes de détection existantes reposent principalement sur deux hypothèses qui s'avèrent insuffisantes selon les auteurs :

Méthodes basées sur l'attention : Elles supposent que les objets hallucinés reçoivent une faible attention visuelle. L'article démontre que, dans des scènes à forts priors contextuels (ex: une cuisine), les objets hallucinés peuvent recevoir une attention aussi forte, voire plus forte, que les objets réels.
Méthodes basées sur l'incertitude (entropie) : Elles supposent que l'hallucination correspond à une forte incertitude au niveau de la couche de sortie finale. L'analyse montre que les modèles peuvent exprimer une grande confiance (faible entropie) même lorsqu'ils hallucinent, car les couches intermédiaires ont déjà convergé vers une hypothèse incorrecte.

Le problème central identifié est que les méthodes actuelles ignorent le processus de raisonnement interne du modèle, se concentrant uniquement sur la sortie finale, ce qui masque la dynamique réelle menant à l'erreur.

2. Méthodologie : La Propagation des Facteurs de Confusion et le Score d'Overthinking

Les auteurs proposent une nouvelle perspective mécaniste : l'hallucination résulte d'un phénomène qu'ils nomment « Propagation de facteurs de confusion » (Confounder Propagation).

A. Analyse des couches internes

En utilisant la technique LogitLens pour décoder les représentations des couches intermédiaires du décodeur, les auteurs observent que :

Des concepts plausibles mais inexistants (les facteurs de confusion ou confounders) émergent dans les couches intermédiaires (ex: "évier" et "savon" apparaissent avant la prédiction finale).
Ces concepts biaisent le modèle, le poussant à générer un objet final halluciné mais sémantiquement cohérent avec le contexte (ex: "assiette" dans une cuisine), même si l'objet n'est pas dans l'image.
Ce processus s'accompagne d'un comportement appelé « Overthinking » (sur-réflexion) : le modèle hésite et réviser ses hypothèses d'objets à travers les différentes couches avant de se figer sur une réponse incorrecte.

B. Le Score d'Overthinking (S-OT)

Pour quantifier ce phénomène, les auteurs introduisent le Overthinking Score (S-OT). Ce métrique capture deux dimensions clés de l'instabilité du raisonnement à travers les couches du modèle :

La diversité des hypothèses : Le nombre de tokens "top-1" uniques émis à travers les $L$ couches du décodeur.
L'incertitude moyenne : L'entropie moyenne des distributions de tokens à chaque couche.

La formule est définie comme suit :
$S_{OT} = \frac{|\{x_\ell | \ell \in [1, L]\}|}{L} \cdot \frac{\sum_{\ell=1}^{L} H_\ell}{L}$
Où $x_\ell$ est le token top-1 à la couche $\ell$ et $H_\ell$ est l'entropie à cette couche. Un score élevé indique que le modèle explore trop d'hypothèses concurrentes avec une forte incertitude, augmentant la probabilité qu'un facteur de confusion prenne le dessus.

C. Pipeline de Détection

Le système de détection proposé fonctionne comme suit :

Prompting par préfixe : Le modèle reçoit une image et un préfixe de texte pour générer le token suivant (cible).
Extraction de caractéristiques : Pour chaque token généré, on extrait :
- Le Overthinking Score (S-OT).
- L'entropie par couche.
- L'attention du token vers l'image et vers le texte.
Classification : Ces caractéristiques sont concaténées en un vecteur et alimentent un classifieur léger (Régression Logistique, Gradient Boosting ou MLP) pour prédire si le token est une hallucination.

3. Contributions Clés

Découverte du mécanisme d'hallucination : Identification du phénomène de « propagation de facteurs de confusion » où des concepts intermédiaires biaisent la prédiction finale, rendant les méthodes basées sur la couche finale inefficaces.
Proposition du Overthinking Score : Une nouvelle métrique qui quantifie la diversité des hypothèses et l'incertitude à travers toutes les couches du modèle, capturant le processus de « sur-réflexion ».
Performance supérieure : Démonstration que l'analyse des dynamiques internes (couches intermédiaires) surpasse systématiquement les méthodes basées uniquement sur l'attention ou l'entropie finale.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois VLM populaires (LLaVA-1.5, Gemma-3, Qwen3-VL) et deux jeux de données (MSCOCO et AMBER).

Performance sur MSCOCO : La méthode proposée atteint un F1-score de 78,9 % (avec le classifieur GB), surpassant les méthodes de l'état de l'art comme SVAR (55,80 %), MetaToken (72,51 %) et HalLoc (71,85 %).
Généralisation (OOD) : Sur le jeu de données AMBER (hors distribution), la méthode obtient un F1-score de 71,58 %, démontrant une robustesse supérieure aux méthodes baselines.
Analyse des échecs des méthodes existantes : L'étude montre que les méthodes basées sur l'attention (comme SVAR) échouent souvent dans les scènes à forts contextes sémantiques, car elles ne distinguent pas l'attention forte sur un objet réel de celle sur un facteur de confusion halluciné.
Ablation : L'ajout du S-OT aux caractéristiques des méthodes existantes améliore significativement leurs performances, prouvant que le score apporte une information unique et cruciale.

5. Signification et Impact

Cet article marque un changement de paradigme dans la détection des hallucinations des VLM. Au lieu de traiter le modèle comme une boîte noire et de se fier à la sortie finale, il propose d'ouvrir la « boîte » pour analyser le flux de pensée (thought process) du modèle.

Théorique : Il établit un lien causal entre l'instabilité des hypothèses intermédiaires (overthinking) et la génération d'erreurs, validant l'idée que l'hallucination est un processus dynamique de propagation d'erreurs sémantiques.
Pratique : Le Overthinking Score offre un outil efficace et peu coûteux en calcul (seulement 36 % de surcoût par rapport à la recherche gloutonne) pour détecter les hallucinations avec une grande précision, même dans des contextes complexes où les méthodes précédentes échouent.

En conclusion, cette recherche suggère que pour maîtriser les hallucinations, il ne suffit pas de corriger la sortie, mais il faut comprendre et réguler la dynamique de raisonnement interne des modèles de langage visuel.