Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

⚕️

Ceci est une explication générée par l'IA d'un preprint qui n'a pas été évalué par des pairs. Ce n'est pas un avis médical. Ne prenez pas de décisions de santé basées sur ce contenu. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un super-intellect artificiel (un "Grand Modèle de Langage" ou LLM) capable de lire des milliers de dossiers médicaux pour y trouver des informations précises, comme savoir si un patient peut marcher, s'asseoir ou utiliser un fauteuil roulant. C'est comme avoir un détective très rapide.

Mais ce papier pose une question cruciale : Si vous demandez la même chose à ce détective dix fois de suite, va-t-il vous donner la même réponse ? Et si un autre médecin reformule sa demande avec ses propres mots, le détective va-t-il toujours trouver la même chose ?

Voici l'explication de cette étude, traduite en langage simple avec quelques images pour mieux comprendre.

1. Le Problème : La "Météo" de l'IA

Les médecins ont besoin de réponses fiables. Si l'IA dit "Oui, le patient marche" le matin et "Non, il ne marche pas" l'après-midi pour le même dossier, c'est un problème. C'est comme si un GPS vous disait de tourner à gauche, puis à droite, puis encore à gauche pour le même trajet.

Les chercheurs ont voulu tester trois types d'IA sur la capacité à extraire des infos sur la mobilité (marcher, bouger, utiliser un transport) :

Le "Généraliste" (Llama 3.3) : Un cerveau très large qui sait tout un peu, mais qui n'est pas spécialisé en médecine.
Le "Spécialiste des Experts" (Llama 4) : Un cerveau qui utilise une technique appelée "Mixture of Experts" (MoE). Imaginez un chef d'orchestre qui choisit aléatoirement quel musicien joue à chaque instant. C'est très puissant, mais parfois le choix du musicien change légèrement le résultat.
Le "Médecin de Formation" (MedGemma) : Un cerveau qui a lu des milliers de dossiers médicaux avant de commencer. Il connaît le jargon des médecins.

2. L'Expérience : Le Test de la "Température" et du "Reformulation"

Les chercheurs ont fait deux grands tests, un peu comme des jeux de rôle :

Test A : La Répétition (Reproductibilité)
Ils ont demandé la même chose à l'IA 100 fois de suite.

L'astuce : Ils ont joué avec un bouton appelé "Température".
- Température basse (0.0) : L'IA est comme un robot strict. Elle ne fait jamais d'erreur de calcul, elle donne toujours la même réponse.
- Température haute (1.0) : L'IA est comme un artiste créatif et un peu ivre. Elle essaie des choses différentes à chaque fois.
Résultat : Plus on monte la température, plus l'IA devient "capricieuse". Mais attention : même si elle reste souvent "juste" (elle trouve la bonne info), elle change d'avis sur comment elle le dit ou sur des détails. Le modèle "Spécialiste des Experts" (Llama 4) est devenu très instable quand on a augmenté la température, comme un équilibriste qui trébuche.

Test B : La Reformulation (Robustesse)
Ils ont demandé la même chose, mais en changeant les mots de la question (par exemple : "Est-ce que le patient marche ?" vs "Le patient a-t-il la capacité de se déplacer ?").

Résultat : C'est là que ça devient intéressant. Même si les questions signifient la même chose, l'IA a parfois changé de réponse.
- Le modèle "Médecin" (MedGemma) et le "Généraliste" (Llama 3.3) ont bien résisté aux changements de mots.
- Le modèle "Spécialiste des Experts" (Llama 4) a beaucoup plus vacillé. C'est comme si un changement de mot le faisait douter de sa logique.

3. La Solution Magique : Le "Vote de la Majorité"

Que faire si l'IA est un peu instable ? Les chercheurs ont testé une astuce simple : la sagesse de la foule.

Au lieu de demander la réponse une seule fois, ils demandent à l'IA de répondre 10 fois, puis ils prennent la réponse la plus fréquente (le vote majoritaire).

L'analogie : C'est comme demander à 10 amis de deviner la réponse à une énigme. Si l'un se trompe, les 9 autres peuvent le corriger.
Résultat : Cela a rendu les réponses beaucoup plus stables et fiables, même si l'IA était en mode "créatif" (température élevée). Le seul inconvénient ? C'est plus lent et ça coûte plus cher en calcul (il faut faire 10 fois le travail).

4. Les Leçons à Retenir (Pour les Médecins et les Développeurs)

La précision ne suffit pas : Une IA peut avoir un score de réussite élevé (elle trouve l'info) mais être très instable (elle change d'avis d'une minute à l'autre). Pour la médecine, la stabilité est aussi importante que la justesse.
Le choix du modèle compte : Le modèle "Médecin" (MedGemma) semble être le meilleur compromis : il est précis et reste calme même quand on change les mots de la question. Le modèle "Spécialiste des Experts" (Llama 4) est puissant mais très sensible aux petits changements.
Restez froids : Pour des applications médicales critiques, il vaut mieux garder la "température" de l'IA à zéro (mode strict) pour éviter les surprises.
Le vote sauve la mise : Si vous ne pouvez pas garder l'IA strictement froide, demandez-lui de répondre plusieurs fois et prenez la moyenne. C'est un peu plus lent, mais beaucoup plus sûr.

En résumé : Cette étude nous dit que pour utiliser l'IA en médecine, il ne faut pas seulement regarder si elle a "raison", mais aussi si elle est fiable et constante. Comme un bon médecin, l'IA doit être capable de donner la même réponse fiable, peu importe qui lui pose la question ou à quel moment de la journée.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'extraction d'informations cliniques (IE) à partir de textes narratifs non structurés (notes médicales) est cruciale pour la recherche et la pratique clinique. Bien que les Grands Modèles de Langage (LLM) démontrent une grande précision pour ces tâches, leur déploiement clinique se heurte à deux défis majeurs souvent négligés :

La reproductibilité : La capacité du modèle à produire des décisions d'extraction cohérentes lorsqu'il est interrogé plusieurs fois avec le même prompt et le même texte.
La robustesse : La stabilité des résultats face à des variations naturelles du prompt (paraphrases), sans être des attaques adverses.

Dans le contexte clinique, une instabilité même faible peut entraîner des critères d'inclusion incohérents, une perte de confiance des utilisateurs et des problèmes d'auditabilité. L'article se concentre spécifiquement sur l'extraction binaire du statut fonctionnel de la mobilité, basé sur la Classification Internationale du Fonctionnement, du Handicap et de la Santé (CIF), un domaine complexe nécessitant une interprétation sémantique plutôt qu'un simple matching de mots-clés.

2. Méthodologie

Les auteurs ont conçu une expérience factorielle contrôlée pour évaluer trois modèles LLM à poids ouverts représentant des architectures distinctes :

Llama 3.3 70B : Un modèle dense généraliste (état de l'art fin 2024).
Llama 4 (Scout-17B-16E) : Un modèle généraliste utilisant une architecture Mixture-of-Experts (MoE), où un réseau de routage sélectionne dynamiquement un sous-ensemble d'experts.
MedGemma 27B : Un modèle spécialisé dans le domaine médical, adapté via un pré-entraînement continu et un réglage fin sur des données cliniques.

Données :

800 sections de notes cliniques annotées (200 par classe de mobilité : changement de position, manipulation d'objets, marche, transport).
Les données proviennent de trois fournisseurs de soins de santé à Rochester, MN.

Protocole expérimental :

Expérience 1 (Reproductibilité intra-prompt) : Pour chaque modèle et chaque température de décodage (sweep de 0,0 à 1,0 par pas de 0,1), le modèle a été exécuté 100 fois avec le même prompt. La stabilité a été mesurée via le Kappa de Fleiss ( $\kappa$ ) sur les 100 vecteurs de prédiction.
Expérience 2 (Robustesse inter-prompt) : 10 paraphrases sémantiquement équivalentes ont été créées pour chaque tâche. Le modèle a été exécuté 10 fois par paraphrase. Le $\kappa$ a été calculé pour évaluer la sensibilité aux variations d'instruction.
Expérience 3 (Atténuation par cohérence) : Évaluation de la stratégie de vote majoritaire (self-consistency) sur 100 générations pour réduire la variance stochastique.

Métriques :

Performance : Score F1 moyen (précision et rappel).
Stabilité : Kappa de Fleiss ( $\kappa$ ) mesurant l'accord inter-ratage (ici, accord entre les différentes générations du modèle).
Analyse statistique : ANOVA à trois voies (Modèle, Température, Classe de mobilité) et tests post-hoc de Tukey.

3. Résultats Clés

A. Impact de la Température sur la Reproductibilité

Dégradation générale : L'augmentation de la température réduit systématiquement le $\kappa$ (reproductibilité), mais l'ampleur de cette chute dépend fortement du modèle et de la tâche.
Comportement des modèles :
- Llama 3.3 (Dense) : Montre une dégradation de stabilité la plus progressive.
- Llama 4 (MoE) : Présente la dégradation la plus abrupte, en particulier pour les tâches « Manipulation d'objets » et « Transport ». Cela suggère que l'instabilité du routage des experts amplifie la variabilité stochastique.
- MedGemma : Performances stables à basse température, mais chute marquée du $\kappa$ pour la tâche « Changement de position » à température élevée.
Découplage Performance/Stabilité : Dans de nombreux cas, le score F1 moyen varie peu avec la température, tandis que la stabilité ( $\kappa$ ) s'effondre. Cela signifie qu'un modèle peut sembler performant en moyenne tout en étant imprévisible d'une exécution à l'autre.

B. Robustesse aux Paraphrases

Les paraphrases de prompts, même sémantiquement équivalentes, entraînent une baisse significative de la stabilité par rapport au scénario intra-prompt.
Llama 4 (MoE) est nettement moins robuste aux paraphrases que les autres modèles, avec des valeurs de $\kappa$ très faibles pour plusieurs classes de mobilité.
Llama 3.3 et MedGemma restent comparativement robustes, bien que MedGemma montre une sensibilité accrue à certaines tâches spécifiques.
L'analyse ANOVA confirme que le modèle est le facteur dominant expliquant la variabilité de la robustesse, avec des interactions significatives entre le modèle et la classe de mobilité.

C. Efficacité du Vote Majoritaire (Self-Consistency)

L'agrégation par vote majoritaire sur plusieurs générations améliore considérablement le $\kappa$ pour tous les modèles, en particulier pour Llama 4, dont la stabilité est restaurée à des niveaux élevés même à des températures plus élevées.
Ce mécanisme permet souvent de maintenir ou d'améliorer légèrement le score F1 tout en réduisant drastiquement la variance stochastique.
Le coût est une augmentation linéaire de la latence et du calcul (nécessité de multiples inférences).

4. Contributions Principales

Cadre d'évaluation unifié : Une méthodologie rigoureuse qui mesure conjointement la performance (F1) et la fiabilité ( $\kappa$ ) sous des sweeps de température et des variations de prompts.
Analyse comparative des architectures : Mise en évidence des différences critiques entre les modèles denses, les modèles MoE et les modèles spécialisés. L'étude révèle que l'architecture MoE, bien que efficace en calcul, introduit une instabilité supplémentaire via le mécanisme de routage.
Preuve de la nécessité de la stabilité : Démonstration que l'optimisation de la seule précision moyenne masque des instabilités cliniquement dangereuses.
Recommandations pratiques : Validation de la cohérence par vote majoritaire comme stratégie d'atténuation efficace sans réentraînement, et recommandation d'utiliser une température de 0,0 pour les déploiements cliniques exigeant de la reproductibilité.

5. Signification et Implications

Cette étude fournit des preuves empiriques que la fiabilité des LLM dans le domaine médical n'est pas une propriété intrinsèque du modèle, mais dépend de l'interaction entre l'architecture, la tâche clinique et les paramètres de décodage.

Pour le déploiement clinique : Il est impératif de ne pas se fier uniquement aux métriques de précision. La stabilité doit être mesurée et rapportée. Pour les systèmes critiques, une température de 0,0 est recommandée pour garantir un comportement déterministe.
Choix du modèle : Les modèles spécialisés (comme MedGemma) ou les modèles denses (Llama 3.3) semblent plus adaptés aux tâches d'extraction clinique que les architectures MoE, qui peuvent souffrir d'une sensibilité accrue aux perturbations d'entrée.
Gestion des prompts : La standardisation des prompts est nécessaire mais insuffisante ; la sélection du modèle doit tenir compte de sa sensibilité aux variations linguistiques naturelles.
Atténuation : Le vote majoritaire offre un compromis viable entre coût computationnel et fiabilité accrue, permettant d'utiliser des températures non nulles (pour explorer l'espace de recherche) tout en maintenant une stabilité acceptable.

En conclusion, l'article plaide pour une évaluation plus holistique des LLM en santé, intégrant systématiquement des métriques de reproductibilité et de robustesse pour assurer un déploiement sûr, auditable et digne de confiance.

Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

1. Le Problème : La "Météo" de l'IA

2. L'Expérience : Le Test de la "Température" et du "Reformulation"

3. La Solution Magique : Le "Vote de la Majorité"

4. Les Leçons à Retenir (Pour les Médecins et les Développeurs)

1. Problématique

2. Méthodologie

3. Résultats Clés

A. Impact de la Température sur la Reproductibilité

B. Robustesse aux Paraphrases

C. Efficacité du Vote Majoritaire (Self-Consistency)

4. Contributions Principales

5. Signification et Implications

Articles similaires

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study