A statistical framework for evaluating the repeatability and reproducibility of large language models

⚕️

Ceci est une explication générée par l'IA d'un preprint qui n'a pas été évalué par des pairs. Ce n'est pas un avis médical. Ne prenez pas de décisions de santé basées sur ce contenu. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le "Chat" qui change d'avis

Imaginez que vous demandez à un grand expert (une Intelligence Artificielle, ou IA) de vous donner un diagnostic médical.

Première fois : Il vous dit : « C'est une pneumonie. »
Deuxième fois (exactement la même question) : Il vous dit : « C'est probablement une bronchite. »
Troisième fois : Il vous dit : « Je pense à une allergie. »

Même si l'IA est très intelligente, ce comportement est dangereux en médecine. Si un médecin ne peut pas faire confiance à la réponse de l'IA, il ne l'utilisera pas. Le problème, c'est que les IA modernes fonctionnent un peu comme un dé à jouer : elles ne sont pas 100 % prévisibles. Elles "choisissent" leurs mots au hasard parmi plusieurs options probables.

La Solution : Une nouvelle règle du jeu

Les auteurs de cet article (des chercheurs de Vanderbilt et Yale) ont créé une nouvelle boîte à outils mathématique pour mesurer non pas si l'IA a raison, mais si elle est cohérente.

Ils s'inspirent des règles de l'administration américaine (la FDA) qui exige que les logiciels médicaux soient fiables. Ils ont divisé la fiabilité en deux catégories, comme si on testait un cuisinier :

1. La Répétabilité (Le "Même Cuisinier, Même Recette")

C'est la capacité de l'IA à donner la même réponse si on lui pose la même question, exactement de la même manière, plusieurs fois de suite.

L'analogie : Imaginez que vous commandez un burger au même restaurant, à la même heure, au même serveur. Si le premier burger est un steak saignant et le deuxième est un steak bien cuit, le restaurant n'est pas répétable.
Dans l'article : Ils mesurent deux choses :
- Le sens : Est-ce que le message est le même ? (Ex: "C'est une pneumonie" vs "C'est une infection pulmonaire" = même sens, donc c'est bien).
- L'intérieur : Est-ce que le cerveau de l'IA hésite ? (Ex: Est-ce qu'elle était sûre à 99% de dire "pneumonie", ou était-elle partagée entre 5 maladies différentes ?).

2. La Reproductibilité (Le "Même Cuisinier, Différentes Commandes")

C'est la capacité de l'IA à donner la même réponse si on change légèrement la façon de poser la question (par exemple, en demandant "Quel est le diagnostic ?" vs "Quelle est la cause ?").

L'analogie : Si vous demandez à un chef de faire un plat "italien" et qu'il fait une pizza, puis que vous lui demandez "un plat italien avec du fromage" et qu'il vous sert un sushi, il manque de reproductibilité.
Dans l'article : Ils ont vu si l'IA restait cohérente même quand on changeait légèrement la formulation de la question médicale.

Ce qu'ils ont découvert (Les Résultats)

Les chercheurs ont testé cette méthode sur des questions d'examens de médecine américains (USMLE) et sur de vrais cas de maladies rares. Voici les trois grandes surprises :

La façon de demander compte autant que l'IA elle-même :
Certaines façons de poser la question (comme demander à l'IA de raisonner comme un statisticien, méthode "Bayésienne") ont rendu l'IA beaucoup plus stable et cohérente. C'est comme si un chef devenait plus précis quand on lui donne une recette très détaillée plutôt qu'une instruction vague.
Être "juste" ne veut pas dire être "stable" :
C'est le point le plus important. Une IA peut donner la bonne réponse une fois sur deux, mais donner une réponse fausse les autres fois.
- Analogie : Imaginez un tireur à la cible qui touche le centre (le but) une fois sur dix, mais rate complètement les neuf autres fois. Il est "parfois juste", mais il n'est pas fiable. Les chercheurs ont montré que la précision (justesse) et la cohérence (stabilité) sont deux choses différentes.
Les vrais cas sont plus stables que les examens :
Paradoxalement, l'IA était plus cohérente sur les vrais cas de patients (avec des histoires compliquées et détaillées) que sur les questions d'examen (qui sont souvent trop parfaites et artificielles). Peut-être que les détails réels aident l'IA à se concentrer, comme un guide qui aide un touriste à ne pas se perdre.

Pourquoi est-ce important ?

Avant, on se contentait de demander : « Est-ce que l'IA a trouvé la bonne maladie ? ».
Maintenant, grâce à ce cadre de travail, on peut aussi demander : « Est-ce que l'IA est fiable ? »

C'est crucial pour la médecine. Un médecin ne peut pas se fier à un outil qui change d'avis à chaque fois qu'il clique sur "Envoyer". Cette étude nous donne les règles pour vérifier que l'IA est un partenaire stable, et non pas un oracle imprévisible.

En résumé : Cette recherche nous dit que pour utiliser l'IA en médecine, il ne suffit pas qu'elle soit intelligente. Il faut qu'elle soit constante. Et pour vérifier cela, il faut mesurer sa cohérence, pas seulement sa justesse.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'utilisation croissante des Grands Modèles de Langage (LLM) dans des contextes biomédicaux (documentation clinique, aide à la décision, etc.) soulève des préoccupations critiques concernant leur fiabilité. Bien que les évaluations actuelles se concentrent principalement sur la précision (l'exactitude de la réponse par rapport à une vérité terrain), elles négligent souvent la variabilité des sorties.

Les LLM génèrent du texte en échantillonnant des tokens à partir de distributions de probabilités. Par conséquent, un même prompt peut produire des sorties différentes lors de runs répétés. Un modèle peut fournir une réponse correcte lors d'une exécution unique, mais échouer à reproduire cette réponse de manière cohérente lors d'exécutions ultérieures. Cette incohérence est problématique en milieu clinique, où la confiance dans les recommandations du modèle est essentielle.

Les métriques existantes (BLEU, ROUGE, BERTScore) mesurent la similarité entre une sortie et une référence, mais ne quantifient pas la variabilité intrinsèque d'un modèle sur des exécutions répétées. De plus, les agences de régulation, telles que la FDA (Food and Drug Administration) des États-Unis, recommandent désormais d'évaluer la répétabilité et la reproductibilité des logiciels médicaux basés sur l'IA, créant un besoin urgent d'un cadre d'évaluation standardisé.

2. Méthodologie

Les auteurs ont développé un cadre statistique inspiré des directives de la FDA pour quantifier la variabilité des LLM selon deux dimensions complémentaires : sémantique (le sens du texte) et interne (les distributions de probabilités des tokens).

Définitions des Métriques

Le cadre définit quatre métriques principales :

Répétabilité Sémantique (Semantic Repeatability) : Mesure la cohérence du sens des sorties sur des runs répétés dans des conditions identiques (même modèle, même prompt). Elle est calculée en utilisant la similarité cosinus moyenne entre les vecteurs d'incrustation (embeddings) des sorties.
Répétabilité Interne (Internal Repeatability) : Mesure la certitude des distributions de probabilités au niveau des tokens lors de la génération dans des conditions identiques. Elle est calculée via l'entropie de Shannon des distributions de probabilités tronquées (top-k). Une entropie plus faible indique une distribution plus pointue (plus certaine).
Reproductibilité Sémantique (Semantic Reproducibility) : Mesure la cohérence du sens des sorties lorsque les conditions expérimentales varient (par exemple, différents prompts ou différents modèles).
Reproductibilité Interne (Internal Reproducibility) : Mesure la cohérence de la certitude des distributions de probabilités internes lorsque les conditions expérimentales varient.

Évaluation Empirique

Pour valider ce cadre, les auteurs ont mené une étude empirique sur la raisonnement diagnostique :

Données :
- 518 questions du U.S. Medical Licensing Examination (USMLE) via le jeu de données MedQA (cas standardisés).
- 90 cas réels de maladies rares provenant du Undiagnosed Diseases Network (UDN) (cas complexes, réels et non publics).
Modèles : Trois LLM de tailles différentes : ChatGPT-4, ChatGPT-4o-mini, et LLaMA 3.2-1B.
Stratégies de Prompting : Cinq stratégies de type "Chain-of-Thought" (CoT) inspirées de la pratique clinique : Raisonnement traditionnel, Diagnostic différentiel, Intuitif, Analytique et Bayésien.
Protocole : Pour chaque combinaison (Prompt, Cas, Modèle), 100 runs indépendants ont été générés (totalisant 912 000 générations). Les paramètres de génération (température $T=0.5$ , top-k=30) ont été fixés pour équilibrer déterminisme et diversité.

3. Résultats Clés

Variabilité selon le contexte : La répétabilité et la reproductibilité varient considérablement en fonction du modèle, de la stratégie de prompting et du jeu de données.
Impact du Prompting : Les prompts invitant à un raisonnement bayésien ont produit une répétabilité sémantique significativement plus élevée (p < 0.001) pour ChatGPT-4 par rapport aux autres stratégies. Cela suggère que la méthode d'incitation au raisonnement influence directement la stabilité du modèle.
Différence entre USMLE et UDN : Les scores de variabilité étaient plus faibles (c'est-à-dire une meilleure cohérence) pour les cas UDN (réels) que pour les questions USMLE (standardisées). Les auteurs émettent l'hypothèse que la structure narrative détaillée des cas réels contraint davantage le modèle, réduisant la plage de réponses plausibles.
Indépendance de la Précision : Un résultat crucial est l'absence de corrélation systématique entre la précision diagnostique et la répétabilité/reproductibilité.
- Un modèle peut fournir une réponse correcte une fois mais échouer à la reproduire systématiquement.
- Inversement, un modèle peut être très cohérent dans ses erreurs.
- Seule une exception a été notée : pour la stratégie "Intuitive CoT", les cas correctement diagnostiqués par ChatGPT-4 montraient une répétabilité interne significativement plus élevée que les cas incorrects.

4. Contributions Principales

Cadre Réglementaire : Le premier cadre statistique opérationnel aligné sur les directives de la FDA pour évaluer la variabilité des LLM, distinguant clairement la répétabilité (conditions identiques) de la reproductibilité (conditions variées).
Dimensions Complémentaires : Introduction de métriques internes (basées sur les probabilités des tokens) qui capturent la stabilité du processus de génération, au-delà de la simple similarité textuelle superficielle.
Preuve de Concept Clinique : Démonstration que la performance des LLM en biomédecine ne peut être jugée uniquement sur la précision, mais doit inclure une analyse rigoureuse de la cohérence, surtout pour des applications critiques comme le diagnostic.
Outils Ouverts : Le code et les méthodologies sont rendus publics pour permettre une comparaison systématique entre différents LLM, prompts et configurations.

5. Signification et Impact

Ce travail comble un vide majeur dans l'évaluation des LLM en biomédecine. Il démontre que la fiabilité (capacité à produire des résultats cohérents) est une propriété distincte de l'exactitude.

Pour la Régulation : Le cadre fournit les outils nécessaires pour répondre aux exigences croissantes des agences de santé (FDA) concernant la validation des logiciels médicaux basés sur l'IA.
Pour la Recherche et la Pratique : Il met en garde contre l'utilisation d'un seul run ou d'une seule stratégie de prompt pour évaluer un modèle. Les chercheurs et cliniciens doivent désormais considérer la variabilité des sorties comme un indicateur de robustesse.
Limites et Perspectives : Les métriques internes nécessitent l'accès aux probabilités des tokens (limité aux modèles autoregressifs). Les travaux futurs devront intégrer ces métriques avec des évaluations centrées sur l'humain (avis de cliniciens) pour comprendre l'impact réel de cette variabilité sur la prise de décision médicale.

En conclusion, l'article propose une approche rigoureuse pour passer d'une évaluation binaire (correct/incorrect) à une évaluation multidimensionnelle de la fiabilité des LLM, essentielle pour leur déploiement sécurisé dans le système de santé.