HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Cette étude présente HALP, une méthode permettant de détecter les hallucinations des modèles vision-langage en analysant leurs représentations internes avant même la génération d'un seul token, offrant ainsi une approche rapide et efficace pour améliorer la sécurité et l'efficacité de ces modèles.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun, Jiawei Zhou

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ HALP : Le Détective qui arrête les mensonges avant qu'ils ne soient prononcés

Imaginez un robot très intelligent (un modèle Vision-Language) qui regarde une photo et vous raconte une histoire. Parfois, ce robot a un petit défaut : il invente des choses. Il peut dire qu'il y a un chat sur la table alors qu'il n'y a qu'une tasse. C'est ce qu'on appelle une hallucination.

Jusqu'à présent, pour savoir si le robot mentait, il fallait attendre qu'il ait fini de tout écrire, puis relire son texte pour vérifier les faits. C'est comme attendre qu'un cuisinier ait fini de préparer un gâteau entier pour découvrir qu'il a oublié le sucre. C'est lent et coûteux en énergie.

Le papier HALP propose une solution géniale : arrêter le robot avant même qu'il n'ouvre la bouche.

🧠 Comment ça marche ? (L'analogie du "Pouls")

Imaginez que le robot est un grand orchestre. Avant de jouer la première note de la mélodie (le texte), les musiciens (les neurones du robot) s'échauffent et ajustent leurs instruments.

Les chercheurs ont découvert qu'ils pouvaient écouter le "pouls" interne de l'orchestre pendant cet échauffement, juste après avoir regardé la photo, mais avant d'écrire le moindre mot.

Ils utilisent trois types de "micros" pour écouter ce qui se passe dans la tête du robot :

  1. Le micro "Yeux" (VF) : Il écoute ce que le robot voit purement (la photo brute).
  2. Le micro "Premières Pensées" (VT) : Il écoute comment le robot commence à mélanger l'image avec ses connaissances.
  3. Le micro "Dernière Réflexion" (QT) : Il écoute la pensée du robot juste avant qu'il ne décide de parler. C'est souvent ici que l'information est la plus claire.

🚦 Le système de feux tricolores

Une fois qu'ils ont écouté ces signaux internes, ils utilisent un petit détecteur (un "probe") qui fonctionne comme un feu de circulation :

  • 🟢 Feu Vert (Score bas) : Le robot semble sûr de lui et cohérent. On peut le laisser parler.
  • 🔴 Feu Rouge (Score haut) : Le robot semble confus ou sur le point d'inventer quelque chose. Le système l'arrête immédiatement et dit : "Attends, je ne suis pas sûr de cette réponse, je vais demander de l'aide ou je vais dire 'Je ne sais pas'."

🌟 Les découvertes surprenantes

En testant ce système sur 8 robots différents (comme Gemma, Llama, Qwen, etc.), les chercheurs ont vu des choses fascinantes :

  • Ce n'est pas pareil pour tout le monde : Certains robots disent la vérité dans leurs "yeux" (dès qu'ils voient la photo), tandis que d'autres ne révèlent leurs mensonges qu'à la toute dernière seconde de réflexion. C'est comme si certains menteurs trahissaient leur secret par un tic de visage, tandis que d'autres ne le faisaient qu'au moment de parler.
  • C'est ultra-rapide : Comme on n'a pas besoin d'attendre que le robot écrive tout son texte, on économise énormément de temps et d'énergie. C'est comme vérifier l'identité d'un passager à l'entrée d'un avion plutôt que de le faire après qu'il ait atterri.
  • C'est très précis : Sur certains robots, ce système détecte les mensonges avec une précision de 93 % (presque parfait) sans avoir généré un seul mot !

🛡️ Pourquoi est-ce important pour nous ?

C'est une révolution pour la sécurité. Imaginez un robot dans un hôpital qui décrit une radio, ou un robot dans une voiture autonome qui décrit la route. Si le robot hallucine, les conséquences peuvent être graves.

Avec HALP, on peut mettre en place un gardien invisible qui surveille le robot en temps réel. Si le robot commence à "dérailler" dans sa tête, le gardien l'arrête avant qu'il ne commette d'erreur.

En résumé : HALP, c'est comme donner un détecteur de mensonges à un robot, non pas pour l'interroger, mais pour écouter ses pensées intérieures et l'empêcher de dire des bêtises, avant même qu'il n'ait ouvert la bouche.