Quantifying Hallucinations in Language Language Models on Medical Textbooks

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de ce document de recherche, imagée comme si nous parlions d'un chef cuisinier robotique dans une cuisine médicale.

🍳 Le Problème : Le Chef Robot qui Invente des Recettes

Imaginez que vous avez un chef robot ultra-intelligent (un "Grand Modèle de Langage" ou IA) qui a lu des millions de livres de cuisine. Vous lui demandez : "Comment préparer un plat à base de tomates ?".

Le robot répond avec une voix très sûre, un français parfait et des termes techniques impressionnants. Le problème ? Parfois, il invente des ingrédients qui n'existent pas ou mélange des règles de sécurité culinaire qui sont fausses. En médecine, c'est encore plus grave : si le robot dit qu'un médicament est sûr alors qu'il ne l'est pas, cela peut blesser un patient.

Les chercheurs de cet article (du NIH et de l'Université du Maryland) se sont demandé : "À quelle fréquence ce chef robot invente-t-il des choses dangereuses quand on lui donne un livre de médecine précis ?"

🔍 L'Expérience : Le Test de Vérité

Pour répondre à cette question, ils n'ont pas utilisé de vieux examens médicaux (qui pourraient être "mémorisés" par le robot). Au lieu de cela, ils ont créé un nouveau jeu de questions basé sur des livres de médecine du domaine public, que le robot n'avait jamais vus.

Ils ont fait deux choses principales :

Le Test de Base (Expérience 1) : Ils ont demandé au modèle le plus célèbre (LLaMA-70B) de répondre à 5 543 questions en se basant uniquement sur un paragraphe de texte fourni.
- Résultat choquant : Même si le robot parlait très bien (98,8 % de ses réponses semblaient plausibles et professionnelles), il a menti ou inventé des faits dans près de 20 % des cas (soit 1 réponse sur 5).
- L'analogie : C'est comme si un guide touristique parlait parfaitement votre langue et décrivait la ville avec brio, mais qu'il vous indiquait un restaurant qui n'existe pas dans 1 voyage sur 5.
Le Comparatif (Expérience 2) : Ils ont testé 8 robots différents (de petits modèles aux très gros) et ont demandé à de vrais médecins de les noter.
- Les médecins devaient dire : "C'est bon", "C'est moyen" ou "C'est mauvais/dangereux".
- Ce qu'ils ont découvert : Plus le robot est "gros" (plus il a de cerveau), moins il ment. Mais aucun robot n'est parfait. Même le plus grand fait encore des erreurs.
- Le piège des questions : Les robots ont beaucoup plus de mal avec des questions inversées (ex: "Quel médicament est DANGEREUX ?" au lieu de "Quel médicament est SÛR ?") ou avec des listes à faire. C'est là qu'ils trébuchent le plus.

📉 La Relation entre "Beau Parler" et "Vérité"

C'est le point le plus important : Un robot peut avoir l'air très intelligent tout en étant totalement faux.
Les médecins ont trouvé que la "plausibilité" (le fait que la réponse semble logique et bien écrite) ne garantit pas la vérité. Un mensonge bien formulé est souvent plus dangereux qu'une réponse confuse.

💰 Le Coût Réel : Pourquoi on ne peut pas encore faire confiance aux robots

L'article conclut par une réalité économique et humaine :

Pour savoir si un robot ment, il faut un humain (un médecin) pour vérifier chaque réponse.
Cela coûte cher et prend du temps.
Conclusion : Tant que nous n'avons pas un moyen automatique de vérifier les mensonges aussi bien qu'un expert humain, nous ne pouvons pas laisser ces robots travailler seuls dans les hôpitaux. Ils sont comme des apprentis chefs très doués mais qui ont besoin d'un chef étoilé pour vérifier chaque plat avant de le servir.

En résumé, en une phrase :

Ces robots médicaux sont très forts pour parler, mais ils inventent encore trop souvent des faits dangereux, et la seule façon de les arrêter est de faire vérifier chaque mot par un vrai médecin, ce qui est très coûteux.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Quantifying Hallucinations in Language Models on Medical Textbooks » (Quantification des hallucinations dans les modèles de langage sur les manuels médicaux), rédigé en français.

1. Problématique

Les grands modèles de langage (LLM) obtiennent des scores d'expertise sur les benchmarks médicaux existants (comme MEDQA ou MedMCQA), mais ces évaluations reposent souvent sur des tests à choix multiples qui ne vérifient pas la compréhension réelle ni la fidélité aux sources. Ces modèles sont susceptibles de produire des hallucinations : des affirmations factuellement incorrectes, non étayées ou fabriquées, qui peuvent être dangereuses dans un contexte clinique.

Les défis identifiés sont :

Contamination des données : Les benchmarks actuels peuvent être contaminés par les données d'entraînement, favorisant la mémorisation plutôt que le raisonnement.
Absence de source de vérité fixe : Peu d'évaluations comparent les réponses à une source de référence autorisée (texte de manuel).
Faux sentiment de sécurité : Les réponses peuvent sembler plausibles (bonnes grammaire et terminologie) tout en étant factuellement erronées.
Coût de la vérification humaine : La validation par des experts cliniciens est coûteuse et lente, rendant difficile la création de benchmarks fiables à grande échelle.

2. Méthodologie

Les auteurs ont développé un pipeline nommé ClinIQLink pour créer un benchmark résistant à la contamination et ancré dans le texte.

A. Construction du Corpus et des Prompts

Source de données : Utilisation de manuels médicaux du domaine public.
Filtrage : Sélection de paragraphes denses en informations (densité d'entités nommées, cohérence sémantique) et élimination du texte de remplissage.
Génération de paires Q/R : Un LLM (LLaMA-70B-Instruct) génère des paires Question-Réponse à partir de ces paragraphes selon sept formats : vrai/faux, liste, choix multiples, réponse courte, raisonnement multi-sauts, et deux variantes inverses (questions inversées).
Validation humaine : Des annotateurs médicaux experts vérifient les paires générées via un portail sécurisé, attribuant des scores de pertinence et signalant les erreurs factuelles ou les hallucinations.

B. Expériences menées

L'étude se divise en deux expériences principales :

Expérience 1 (Prévalence de base) : Mesure du taux d'hallucination de LLaMA-70B-Instruct sur 5 543 paires Q/R générées et vérifiées.
Expérience 2 (Comparaison inter-modèles et préférence clinique) :
- Application du benchmark à 8 modèles de tailles et stratégies variées (incluant Phi-4, Llama 3.3/4, Qwen, Mistral, Falcon, et deux modèles internes).
- Évaluation par des cliniciens qui classent les réponses (du meilleur au pire) et les étiquettent (Bon/Correct/Mauvais) selon leur utilité clinique et leur exactitude factuelle.

C. Métriques

Taux d'hallucination : Proportion de réponses contenant du contenu non factuel ou non étayé par la source.
Plausibilité et Réponse : Capacité du modèle à répondre de manière grammaticalement correcte et pertinente.
Accord inter-annotateurs : Mesuré par le coefficient Kappa de Cohen (pondéré quadratiquement) et le Kappa de Fleiss.
Corrélation : Analyse de Spearman entre le taux d'hallucination et le score d'utilité clinique.

3. Résultats Clés

A. Prévalence des Hallucinations (Expérience 1)

Taux global : LLaMA-70B-Instruct a halluciné dans 19,7 % des réponses (IC 95 % : 18,6 % à 20,7 %).
Paradoxe de la plausibilité : 98,8 % des réponses ont reçu un score de plausibilité maximal (elles semblent crédibles et bien rédigées), mais près d'une réponse sur cinq contient des erreurs factuelles. Cela indique qu'un examen superficiel ne suffit pas à détecter les hallucinations.
Impact du format de question : Les questions de type « inversé » (ex: « Quel médicament n'est pas sûr ? ») et les questions de type « liste » ont provoqué un taux d'hallucination plus élevé (augmentation de 6 à 9 % par rapport aux formulations directes).

B. Comparaison Inter-Modèles et Échelle (Expérience 2)

Effet de l'échelle : Il existe une corrélation négative claire entre la taille du modèle et le taux d'hallucination. Le taux chute de 27,1 % pour un modèle de 1 milliard de paramètres à 9,3 % pour un modèle de 70 milliards.
Limites de l'échelle : Même les plus grands modèles (70B+) produisent encore des réponses « Mauvaises » et des hallucinations. L'augmentation de la taille réduit les erreurs mais ne les élimine pas, surtout pour les tâches de complétude (listes) ou de négation.
Préférence des cliniciens : Les cliniciens ont montré un accord élevé (Kappa quadratique pondéré = 0,92 pour la validité).
Corrélation Hallucination-Utilité : Une corrélation négative significative a été observée entre le taux d'hallucination et le score d'utilité clinique (ρ = -0,71, p = 0,058). Les modèles moins sujets aux hallucinations sont préférés par les cliniciens.

C. Coûts et Fiabilité

Coût de vérification : La vérification humaine est le goulot d'étranglement majeur. Le coût de la vérification humaine dépasse celui de la génération GPU d'un ordre de grandeur (environ 3,33 $par paire Q/R vérifiée contre 0,08$ pour la génération seule).
Accord des annotateurs : L'accord entre les annotateurs cliniciens est très élevé, validant la fiabilité du benchmark.

4. Contributions Principales

Nouveau Benchmark : Création d'un ensemble de données (5 543 items) ancré dans des manuels médicaux du domaine public, conçu pour résister à la contamination des données d'entraînement.
Méthodologie de Détection : Démonstration que les questions inversées et les formats de liste sont des « stress tests » supérieurs pour révéler les hallucinations des LLMs médicaux.
Analyse Quantitative : Fourniture de taux de base précis pour LLaMA-70B et d'une comparaison systématique de 8 modèles, reliant directement les erreurs factuelles à la préférence clinique.
Évaluation des Coûts : Mise en évidence du fait que la vérification humaine, et non la génération automatique, est le facteur limitant et coûteux pour le déploiement sécurisé.

5. Signification et Conclusion

L'étude conclut que les LLMs actuels ne sont pas prêts pour un déploiement clinique non supervisé, quelle que soit leur taille ou leur architecture. Même les meilleurs modèles produisent des hallucinations dans près d'un cas sur cinq (ou moins pour les grands modèles, mais toujours significatif).

Sécurité : La haute plausibilité des réponses masque leur inexactitude factuelle, constituant un risque de sécurité critique.
Rôle de l'humain : Le déploiement dans des domaines à haut risque (médecine) nécessite impérativement une surveillance par des experts humains. L'automatisation complète de la vérification n'est pas encore fiable.
Recommandation : Les futurs benchmarks médicaux doivent intégrer des formats de questions variés (notamment inversés et de liste) et privilégier la fidélité à la source plutôt que la simple précision sur des tests à choix multiples.

En résumé, ce papier fournit une preuve empirique que les performances sur les benchmarks traditionnels ne garantissent pas la sécurité clinique, et que la réduction des hallucinations nécessite une combinaison de modèles plus grands, de techniques d'évaluation rigoureuses et, inévitablement, d'une supervision humaine coûteuse mais indispensable.