Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Cette étude démontre que les hallucinations dans les modèles vision-langage résultent d'un processus de « surréflexion » où des hypothèses erronées se propagent à travers les couches internes, et propose un nouveau score mesurant cette instabilité pour améliorer significativement la détection de ces hallucinations.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami très intelligent, mais un peu rêveur, de décrire une photo que vous lui montrez. S'il voit un chat sur un tapis, il vous dira : « Il y a un chat ». Parfait. Mais parfois, ce même ami, en regardant la même photo, vous dira avec une grande assurance : « Il y a un chat... et il tient une tasse de café ! » Sauf qu'il n'y a pas de tasse. C'est ce qu'on appelle une hallucination dans le monde de l'intelligence artificielle.

Le papier que vous avez partagé explique pourquoi cela arrive et comment le détecter, en utilisant une idée très simple : le "trop-plein de réflexion".

Voici l'explication, étape par étape, avec des images mentales :

1. Le problème : La confiance trompeuse

Jusqu'à présent, les détecteurs d'erreurs regardaient la réponse finale de l'IA.

  • L'ancienne idée : « Si l'IA hésite (elle ne sait pas quel mot choisir), alors elle hallucine. Si elle est sûre d'elle, elle a raison. »
  • La réalité découverte par les auteurs : C'est l'inverse ! L'IA peut être extrêmement sûre d'elle même quand elle ment. Pourquoi ? Parce qu'elle a déjà pris une mauvaise décision bien avant d'arriver à la réponse finale.

2. La cause : Le "Contagion des Idées Fausses" (Confounder Propagation)

Imaginons que l'IA regarde une photo d'une cuisine.

  • Elle voit un évier (sink) et du savon (soap).
  • Dans sa tête, elle commence à réfléchir. Au début, elle pense à "évier", puis à "savon".
  • Mais comme l'évier et le savon sont souvent associés aux assiettes (dish) dans notre cerveau humain, l'IA commence à penser : « Tiens, il doit y avoir une assiette ici ! »
  • Même si l'assiette n'est pas sur la photo, l'IA s'accroche à cette idée. Elle la renforce à chaque étape de sa réflexion interne.
  • À la fin, elle vous dit avec certitude : « Il y a une assiette. »

Les auteurs appellent cela la propagation de l'erreur. L'erreur commence comme un petit doute au milieu de la réflexion, puis grandit jusqu'à devenir la réponse finale.

3. Le symptôme : Le "Trop-plein de réflexion" (Overthinking)

C'est ici que l'analogie devient amusante.
Imaginez que vous devez choisir un vêtement pour sortir.

  • Le processus normal (Stable) : Vous regardez la météo, vous prenez un manteau, et vous sortez. C'est rapide et cohérent.
  • Le processus "Overthinking" (L'IA qui hallucine) :
    1. Vous pensez à un manteau.
    2. Non, peut-être une veste ?
    3. Attends, il pleut, je devrais prendre un imperméable.
    4. Mais si je porte un imperméable, je vais avoir chaud, je prends un pull.
    5. Et si je mets un pull, je dois enlever mon manteau...
    • Vous changez d'avis 10 fois avant de décider. À force de tourner en rond, vous finissez par mettre un costume de bain alors qu'il pleut, simplement parce que vous étiez trop confus pour choisir la bonne option.

L'IA fait la même chose. Quand elle "trop réfléchit", elle passe par trop d'hypothèses différentes (chat, souris, évier, assiette...) avant de se décider. Plus elle hésite et change d'avis dans ses couches internes, plus elle a de chances de se tromper.

4. La solution : Le "Score de Trop-plein" (Overthinking Score)

Les chercheurs ont créé un outil pour mesurer ce phénomène. Au lieu de regarder seulement la réponse finale, ils regardent tout le chemin que l'IA a parcouru dans sa tête.

  • Comment ça marche ? Ils comptent combien de fois l'IA change d'avis sur ce qu'elle voit à chaque étape de son calcul.
  • Le résultat : Si l'IA a changé d'avis 50 fois entre le début et la fin, c'est qu'elle "trop réfléchit". C'est un signal d'alarme : « Attention, elle est en train d'inventer quelque chose ! »

En résumé

  • L'ancien détecteur : Regardait la réponse finale et disait : « Elle a l'air sûre d'elle, donc c'est vrai. » (Mauvaise méthode).
  • La nouvelle méthode : Regarde le film de la réflexion de l'IA. Si elle tourne en rond, change d'avis constamment et s'accroche à des idées fausses (comme l'assiette dans la cuisine), le système dit : « Stop ! Elle hallucine parce qu'elle a trop réfléchi. »

C'est comme si vous ne regardiez pas seulement le verdict d'un juge, mais que vous écoutiez tout son raisonnement pour voir s'il a été influencé par des idées fausses en cours de route. C'est une méthode beaucoup plus fine et efficace pour repérer les mensonges de l'IA.