Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Cette étude démontre que l'utilisation de l'entropie sémantique discrète pour filtrer les questions générant des hallucinations améliore significativement la précision des modèles vision-langage noirs en radiologie, offrant ainsi une stratégie de filtrage fiable pour les applications cliniques.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann, Philipp Bruners, Keno Bressem, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn

Publié 2026-02-26
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Problème : Le Radiologue "Rêveur"

Imaginez que vous avez un assistant très intelligent, un robot nommé IA, qui regarde des radios et des scanners. Ce robot est capable de parler et de décrire ce qu'il voit. C'est formidable !

Mais il y a un gros problème : ce robot a parfois des hallucinations. C'est comme un rêve éveillé. Il peut décrire avec une confiance absolue un cancer qui n'existe pas, ou un os cassé qui est en parfait état. Il ne dit pas "Je ne sais pas", il invente une histoire qui semble très vraie, mais qui est fausse. En médecine, une telle erreur peut être dangereuse.

Les chercheurs de l'article se sont demandé : Comment savoir quand le robot commence à rêver, sans avoir besoin de lire dans ses pensées (puisque c'est une boîte noire) ?

🔍 La Solution : Le Test de la "Confusion Sémantique"

Les chercheurs ont inventé un test génial appelé l'Entropie Sémantique Discrète (DSE). Voici comment ça marche, avec une analogie simple :

Imaginez que vous posez la même question à 15 amis différents dans une pièce : "Qu'est-ce qu'on voit sur cette radio ?"

  1. Scénario A (Le robot est sûr) : Tous les 15 amis répondent presque la même chose : "C'est un rein." Même s'ils utilisent des mots légèrement différents, le sens est identique. C'est la stabilité. Le robot ne rêve pas.
  2. Scénario B (Le robot hallucine) : Vous posez la même question à 15 versions du même robot (en lui demandant de répondre 15 fois).
    • Le robot 1 dit : "C'est un rein."
    • Le robot 2 dit : "C'est un foie."
    • Le robot 3 dit : "Je ne vois rien."
    • Le robot 4 dit : "C'est une tumeur."
    • Le robot 5 dit : "C'est un rein, mais avec un kyste."

Si les réponses sont un grand bazar, un mélange chaotique, c'est que le robot est confus. Il ne sait pas vraiment. C'est là qu'intervient le calcul de l'Entropie (une mesure du désordre). Plus les réponses sont différentes, plus le "bruit" est fort, et plus le robot risque d'inventer des choses.

🛡️ Le Filtre Magique

L'idée de l'article est d'utiliser ce test comme un filtre de sécurité avant de montrer la réponse au médecin :

  • Si le robot est confus (Entropie élevée) : Le système dit "Stop !". Il rejette la question et ne donne aucune réponse. Mieux vaut ne rien dire que de mentir.
  • Si le robot est cohérent (Entropie faible) : Le système laisse passer la réponse. Comme le robot a donné la même réponse 15 fois, on peut avoir un peu plus confiance.

📊 Les Résultats : Moins de réponses, mais beaucoup plus vraies

Les chercheurs ont testé ça sur des milliers de radios avec deux modèles d'IA très puissants (GPT-4o et GPT-4.1).

  • Avant le filtre : L'IA avait raison environ 50 % du temps. C'est comme un étudiant qui a raté son examen.
  • Après le filtre :
    • L'IA a refusé de répondre à beaucoup de questions (environ la moitié), car elle était trop confuse.
    • Mais sur les questions qu'elle a acceptées de répondre, elle avait raison dans 76 % des cas !

C'est comme si un chef cuisinier, au lieu de servir 100 plats dont la moitié sont brûlés, décidait de ne servir que les 50 plats qu'il est sûr d'avoir cuisinés parfaitement. On mange moins, mais on ne tombe pas malade.

💡 Pourquoi c'est important ?

  1. Pas besoin de connaître les secrets du robot : Cette méthode fonctionne même si on ne connaît pas le code interne de l'IA (ce qu'on appelle une "boîte noire"). On regarde juste ses réponses.
  2. Sécurité pour les médecins : Cela permet d'utiliser l'IA en clinique sans avoir peur qu'elle invente des maladies. Le médecin sait que si l'IA répond, c'est qu'elle est "cohérente".
  3. Le compromis : Il faut accepter que l'IA ne réponde pas à tout. Parfois, le silence est préférable à une fausse information.

En résumé

Cette recherche nous apprend qu'on peut détecter les mensonges de l'IA en la faisant répéter sa réponse 15 fois. Si elle se contredit, on la coupe. Si elle est d'accord avec elle-même, on l'écoute. C'est une étape cruciale pour rendre l'intelligence artificielle plus sûre et plus fiable dans les hôpitaux, là où les erreurs coûtent cher.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →