HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ HALP : Le Détective qui arrête les mensonges avant qu'ils ne soient prononcés

Imaginez un robot très intelligent (un modèle Vision-Language) qui regarde une photo et vous raconte une histoire. Parfois, ce robot a un petit défaut : il invente des choses. Il peut dire qu'il y a un chat sur la table alors qu'il n'y a qu'une tasse. C'est ce qu'on appelle une hallucination.

Jusqu'à présent, pour savoir si le robot mentait, il fallait attendre qu'il ait fini de tout écrire, puis relire son texte pour vérifier les faits. C'est comme attendre qu'un cuisinier ait fini de préparer un gâteau entier pour découvrir qu'il a oublié le sucre. C'est lent et coûteux en énergie.

Le papier HALP propose une solution géniale : arrêter le robot avant même qu'il n'ouvre la bouche.

🧠 Comment ça marche ? (L'analogie du "Pouls")

Imaginez que le robot est un grand orchestre. Avant de jouer la première note de la mélodie (le texte), les musiciens (les neurones du robot) s'échauffent et ajustent leurs instruments.

Les chercheurs ont découvert qu'ils pouvaient écouter le "pouls" interne de l'orchestre pendant cet échauffement, juste après avoir regardé la photo, mais avant d'écrire le moindre mot.

Ils utilisent trois types de "micros" pour écouter ce qui se passe dans la tête du robot :

Le micro "Yeux" (VF) : Il écoute ce que le robot voit purement (la photo brute).
Le micro "Premières Pensées" (VT) : Il écoute comment le robot commence à mélanger l'image avec ses connaissances.
Le micro "Dernière Réflexion" (QT) : Il écoute la pensée du robot juste avant qu'il ne décide de parler. C'est souvent ici que l'information est la plus claire.

🚦 Le système de feux tricolores

Une fois qu'ils ont écouté ces signaux internes, ils utilisent un petit détecteur (un "probe") qui fonctionne comme un feu de circulation :

🟢 Feu Vert (Score bas) : Le robot semble sûr de lui et cohérent. On peut le laisser parler.
🔴 Feu Rouge (Score haut) : Le robot semble confus ou sur le point d'inventer quelque chose. Le système l'arrête immédiatement et dit : "Attends, je ne suis pas sûr de cette réponse, je vais demander de l'aide ou je vais dire 'Je ne sais pas'."

🌟 Les découvertes surprenantes

En testant ce système sur 8 robots différents (comme Gemma, Llama, Qwen, etc.), les chercheurs ont vu des choses fascinantes :

Ce n'est pas pareil pour tout le monde : Certains robots disent la vérité dans leurs "yeux" (dès qu'ils voient la photo), tandis que d'autres ne révèlent leurs mensonges qu'à la toute dernière seconde de réflexion. C'est comme si certains menteurs trahissaient leur secret par un tic de visage, tandis que d'autres ne le faisaient qu'au moment de parler.
C'est ultra-rapide : Comme on n'a pas besoin d'attendre que le robot écrive tout son texte, on économise énormément de temps et d'énergie. C'est comme vérifier l'identité d'un passager à l'entrée d'un avion plutôt que de le faire après qu'il ait atterri.
C'est très précis : Sur certains robots, ce système détecte les mensonges avec une précision de 93 % (presque parfait) sans avoir généré un seul mot !

🛡️ Pourquoi est-ce important pour nous ?

C'est une révolution pour la sécurité. Imaginez un robot dans un hôpital qui décrit une radio, ou un robot dans une voiture autonome qui décrit la route. Si le robot hallucine, les conséquences peuvent être graves.

Avec HALP, on peut mettre en place un gardien invisible qui surveille le robot en temps réel. Si le robot commence à "dérailler" dans sa tête, le gardien l'arrête avant qu'il ne commette d'erreur.

En résumé : HALP, c'est comme donner un détecteur de mensonges à un robot, non pas pour l'interroger, mais pour écouter ses pensées intérieures et l'empêcher de dire des bêtises, avant même qu'il n'ait ouvert la bouche.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language (VLM) modernes, tels que LLaVA, Gemma-3 ou Qwen2.5-VL, ont fait des progrès remarquables mais souffrent toujours du problème des hallucinations. Ces modèles génèrent souvent des descriptions d'objets inexistants, inventent des attributs ou formulent des affirmations factuellement incohérentes par rapport à l'image d'entrée.

Les méthodes de détection existantes sont majoritairement réactives :

Elles nécessitent la génération complète du texte (décodage) pour évaluer la réponse (ex: métriques CHAIR, POPE).
Elles sont coûteuses en calcul et inadaptées aux applications en temps réel où une intervention précoce est cruciale (navigation autonome, imagerie médicale).
Elles ne permettent pas d'estimer le risque d'erreur avant que le modèle ne commence à répondre.

Il existe donc un vide critique : comment prédire le risque d'hallucination avant la génération de n'importe quel token, en exploitant les représentations internes du modèle ?

2. Méthodologie : Le Framework HALP

Les auteurs proposent HALP (HALlucination Prediction via Pre-Generation Probing), un cadre léger qui prédit le risque d'hallucination à partir des états internes du modèle, lors d'un seul passage avant (forward pass), sans aucune génération de texte.

Extraction des Représentations

HALP intercepte et analyse trois types de représentations internes à différentes étapes du pipeline du VLM :

Features Visuelles (VF - Vision Features) : Les vecteurs visuels globaux (moyenne pondérée) extraits du vision encoder avant toute fusion multimodale. Cela capture l'information purement visuelle.
Représentations des Tokens Visuels (VT - Vision Tokens) : Les états cachés des couches du décodeur (LLM) correspondant aux derniers tokens visuels. Cela reflète comment l'information visuelle est intégrée dans le contexte textuel.
Représentations des Tokens de Requête (QT - Query Tokens) : Les états cachés des couches du décodeur correspondant au dernier token de la requête textuelle (après fusion avec les tokens visuels). Cela encode l'information multimodale contextuelle complète juste avant la génération.

Entraînement des Probes

Pour chaque type de représentation et chaque couche, les auteurs entraînent un probe (un classifieur léger, typiquement un MLP de 3 couches) pour prédire la probabilité d'hallucination ( $b_j \in \{0, 1\}$ ).

Données : Un benchmark de 10 000 exemples couvrant 8 domaines (raisonnement spatial, OCR, connaissances, etc.) et 6 benchmarks existants (AMBER, POPE, MathVista, etc.).
Étiquetage : Utilisation d'un "LLM-as-a-Judge" (GPT-4) pour déterminer si la réponse générée par le VLM contient une hallucination par rapport à la vérité terrain.
Objectif : Le probe apprend à mapper les représentations internes (VF, VT, QT) à un score de risque d'hallucination.

3. Contributions Clés

Détection Pré-générative : Démonstration qu'il est possible de détecter le risque d'hallucination avant la génération d'un seul token, permettant une intervention en temps réel.
Analyse Architecturale : Identification que la source d'information la plus prédictive varie selon l'architecture du modèle :
- Pour la plupart des modèles (ex: Gemma-3, Phi-4-VL, Molmo), les représentations des tokens de requête (QT) dans les couches profondes sont les plus informatives.
- Pour certains modèles (ex: Qwen2.5-VL, Llama-3.2-Vision), les features visuelles (VF) seules suffisent pour une détection robuste, suggérant une forte ancrage perceptuel précoce.
- FastVLM-7B présente un comportement atypique où les tokens visuels (VT) sont plus prédictifs que les tokens de requête.
Efficacité et Légereté : La méthode ne nécessite pas de décodage coûteux. L'inférence du probe ajoute un surcoût négligeable (<1% du temps de génération complet).

4. Résultats Expérimentaux

Les expériences ont été menées sur 8 VLMs modernes (Gemma3-12B, LLaVA-Next, Llama-3.2-Vision, Phi-4-VL, Molmo-7B, Qwen2.5-VL-7B, SmolVLM, FastVLM).

Performance Globale (AUROC) :
- Les probes entraînés sur les tokens de requête (QT) obtiennent les meilleurs résultats, atteignant jusqu'à 0,93 AUROC sur Gemma-3, Phi-4-VL et Molmo.
- Les features visuelles (VF) seules atteignent des scores élevés sur certains modèles (ex: ~0,79 pour Qwen2.5-VL-7B), prouvant que le signal d'erreur est présent dès l'encodage visuel.
- La moyenne globale pour les QT est de 0,8733, surpassant significativement les VT (0,6852) et les VF (0,6935).
Analyse par Couche :
- Pour les tokens de requête (QT), la performance augmente généralement avec la profondeur du décodeur, culminant souvent aux couches $3L/4$ ou $L$ .
- Pour les tokens visuels (VT), la performance est plus stable mais plafonne souvent autour de 0,70, sauf pour des architectures spécifiques comme Phi-4-VL.
Analyse par Type d'Erreur :
- Les erreurs liées aux attributs et aux relations sont les plus difficiles à détecter, mais les probes QT restent supérieurs aux VF.
- Les domaines à haut risque (Temporal & Video, Connaissances) montrent des taux d'erreur plus élevés et des scores de détection plus faibles, nécessitant une surveillance accrue.

5. Signification et Implications

Ce travail ouvre la voie à de nouvelles stratégies de contrôle pour les VLMs :

Refus Précoce (Early Refusal) : Le système peut utiliser le score du probe pour décider de ne pas répondre ("Je ne suis pas sûr") sur les requêtes à haut risque, évitant ainsi la génération d'hallucinations.
Routage Sélectif : Les entrées à risque élevé peuvent être redirigées vers un modèle plus puissant ou un pipeline assisté par des outils, tandis que les entrées à faible risque sont traitées par le modèle de base.
Efficacité : Contrairement aux méthodes post-génération, HALP permet une évaluation de sécurité en temps réel avec un coût computationnel minimal, rendant possible le déploiement de VLMs dans des environnements critiques (médical, autonome).

En conclusion, HALP démontre que les signaux d'incertitude et d'erreur sont encodés dans les représentations internes des VLMs bien avant la génération de texte, offrant une solution pratique et efficace pour améliorer la fiabilité et la sécurité des systèmes d'IA multimodale.

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

🕵️‍♂️ HALP : Le Détective qui arrête les mensonges avant qu'ils ne soient prononcés

🧠 Comment ça marche ? (L'analogie du "Pouls")

🚦 Le système de feux tricolores

🌟 Les découvertes surprenantes

🛡️ Pourquoi est-ce important pour nous ?

1. Problématique

2. Méthodologie : Le Framework HALP

Extraction des Représentations

Entraînement des Probes

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Implications

Articles similaires

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization