Quantifying Hallucinations in Language Language Models on Medical Textbooks

Cette étude quantifie la fréquence des hallucinations dans les réponses de modèles de langage à des questions médicales basées sur des manuels, révélant un taux d'hallucination de 19,7 % pour LLaMA-70B-Instruct malgré une haute plausibilité, et démontrant une corrélation entre des taux d'hallucination plus faibles et une préférence accrue des cliniciens.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de ce document de recherche, imagée comme si nous parlions d'un chef cuisinier robotique dans une cuisine médicale.

🍳 Le Problème : Le Chef Robot qui Invente des Recettes

Imaginez que vous avez un chef robot ultra-intelligent (un "Grand Modèle de Langage" ou IA) qui a lu des millions de livres de cuisine. Vous lui demandez : "Comment préparer un plat à base de tomates ?".

Le robot répond avec une voix très sûre, un français parfait et des termes techniques impressionnants. Le problème ? Parfois, il invente des ingrédients qui n'existent pas ou mélange des règles de sécurité culinaire qui sont fausses. En médecine, c'est encore plus grave : si le robot dit qu'un médicament est sûr alors qu'il ne l'est pas, cela peut blesser un patient.

Les chercheurs de cet article (du NIH et de l'Université du Maryland) se sont demandé : "À quelle fréquence ce chef robot invente-t-il des choses dangereuses quand on lui donne un livre de médecine précis ?"

🔍 L'Expérience : Le Test de Vérité

Pour répondre à cette question, ils n'ont pas utilisé de vieux examens médicaux (qui pourraient être "mémorisés" par le robot). Au lieu de cela, ils ont créé un nouveau jeu de questions basé sur des livres de médecine du domaine public, que le robot n'avait jamais vus.

Ils ont fait deux choses principales :

  1. Le Test de Base (Expérience 1) : Ils ont demandé au modèle le plus célèbre (LLaMA-70B) de répondre à 5 543 questions en se basant uniquement sur un paragraphe de texte fourni.

    • Résultat choquant : Même si le robot parlait très bien (98,8 % de ses réponses semblaient plausibles et professionnelles), il a menti ou inventé des faits dans près de 20 % des cas (soit 1 réponse sur 5).
    • L'analogie : C'est comme si un guide touristique parlait parfaitement votre langue et décrivait la ville avec brio, mais qu'il vous indiquait un restaurant qui n'existe pas dans 1 voyage sur 5.
  2. Le Comparatif (Expérience 2) : Ils ont testé 8 robots différents (de petits modèles aux très gros) et ont demandé à de vrais médecins de les noter.

    • Les médecins devaient dire : "C'est bon", "C'est moyen" ou "C'est mauvais/dangereux".
    • Ce qu'ils ont découvert : Plus le robot est "gros" (plus il a de cerveau), moins il ment. Mais aucun robot n'est parfait. Même le plus grand fait encore des erreurs.
    • Le piège des questions : Les robots ont beaucoup plus de mal avec des questions inversées (ex: "Quel médicament est DANGEREUX ?" au lieu de "Quel médicament est SÛR ?") ou avec des listes à faire. C'est là qu'ils trébuchent le plus.

📉 La Relation entre "Beau Parler" et "Vérité"

C'est le point le plus important : Un robot peut avoir l'air très intelligent tout en étant totalement faux.
Les médecins ont trouvé que la "plausibilité" (le fait que la réponse semble logique et bien écrite) ne garantit pas la vérité. Un mensonge bien formulé est souvent plus dangereux qu'une réponse confuse.

💰 Le Coût Réel : Pourquoi on ne peut pas encore faire confiance aux robots

L'article conclut par une réalité économique et humaine :

  • Pour savoir si un robot ment, il faut un humain (un médecin) pour vérifier chaque réponse.
  • Cela coûte cher et prend du temps.
  • Conclusion : Tant que nous n'avons pas un moyen automatique de vérifier les mensonges aussi bien qu'un expert humain, nous ne pouvons pas laisser ces robots travailler seuls dans les hôpitaux. Ils sont comme des apprentis chefs très doués mais qui ont besoin d'un chef étoilé pour vérifier chaque plat avant de le servir.

En résumé, en une phrase :

Ces robots médicaux sont très forts pour parler, mais ils inventent encore trop souvent des faits dangereux, et la seule façon de les arrêter est de faire vérifier chaque mot par un vrai médecin, ce qui est très coûteux.