Evaluating Large Language Models for Translating Multimodal… — Explication vulgarisée

Auteurs originaux : Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Publié 2026-05-22

📖 5 min de lecture🧠 Analyse approfondie

Voir sur medRxiv ↗PDF ↗

CC BY 4.0

Auteurs originaux : Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Article original sous licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Ceci est une explication générée par l'IA d'un preprint qui n'a pas été évalué par des pairs. Ce n'est pas un avis médical. Ne prenez pas de décisions de santé basées sur ce contenu. Lire la clause de non-responsabilité complète

Imaginez que vous êtes un chef étoilé tentant de recréer un plat célèbre, mais sans la recette. À la place, vous possédez une pile désordonnée de notes, certaines griffonnées sur des serviettes, d'autres dessinées sous forme de bandes dessinées, et certaines écrites dans un mélange confus de langues. Votre objectif est de transformer ces notes brouillonnes en un manuel d'instructions précis et étape par étape qu'une cuisine robotisée peut suivre pour cuisiner le plat parfaitement.

Ce document porte sur le test de deux chefs IA ultra-intelligents (appelés modèles de langage de grande taille, ou LLM) pour voir s'ils peuvent accomplir cette tâche pour la recherche médicale.

Le Problème : La Recette « Perdue en Traduction »

Dans la recherche médicale, les scientifiques définissent des groupes spécifiques de patients (comme « les personnes atteintes de diabète de type 2 ») à l'aide de règles complexes. Ces règles sont généralement écrites dans des documents lisibles par l'homme qui ressemblent à un mélange d'histoires, de diagrammes de flux et de tableaux.

Pour utiliser ces règles dans le système informatique d'un hôpital, un expert humain doit les traduire manuellement dans un langage informatique (SQL). C'est comme traduire un poème en code informatique. Cela prend beaucoup de temps, est très fastidieux, et si deux experts différents le font, ils pourraient aboutir à des résultats légèrement différents. Les chercheurs voulaient voir si l'IA pouvait effectuer cette traduction automatiquement.

L'Expérience : Tester les Chefs IA

Les chercheurs ont sélectionné deux des modèles d'IA les plus intelligents disponibles (GPT o3 d'OpenAI et Claude Opus 4.1 d'Anthropic) et leur ont donné cinq « recettes » différentes (définitions médicales pour des affections telles que les lésions rénales, les crises cardiaques et le diabète) issues d'une bibliothèque publique appelée PheKB.

Ils ont testé l'IA de trois manières différentes, comme donner au chef différents types d'instructions :

Le Pack Complet : L'IA a reçu le document entier (texte, graphiques et diagrammes).
Juste l'Histoire : L'IA n'a reçu que le texte écrit et les tableaux, mais aucune image.
Juste les Images : L'IA n'a reçu que les diagrammes et les organigrammes, sans aucun mot.

Les Résultats : Ce Qui a Fonctionné et Ce Qui N'a Pas Fonctionné

1. Le Piège du « Uniquement Images »
Lorsque l'IA a tenté de lire uniquement les diagrammes (les organigrammes), elle a échoué lamentablement. C'était comme demander à un chef de cuisiner un repas complexe en regardant uniquement un dessin d'une casserole et d'une fourchette, sans aucun texte expliquant les ingrédients ou les niveaux de chaleur. L'IA a manqué des détails cruciaux, s'est trompée sur le timing et a produit des instructions qui ne fonctionneraient pas.

2. L'« Histoire » est Roi
Lorsque l'IA a reçu le texte écrit (même sans les images), elle a très bien travaillé. Il s'est avéré que les mots écrits contenaient presque toutes les informations nécessaires. L'IA pouvait comprendre la logique et écrire le code informatique avec précision.

3. L'IA est un Excellent Brouilleur, Pas un Rédacteur Final
Les deux modèles d'IA étaient étonnamment bons pour comprendre la vue d'ensemble et la logique des règles. Cependant, ils ont commis des types spécifiques d'erreurs :

Ingrédients Manquants : Ils ont parfois oublié d'inclure des codes médicaux spécifiques (comme un type particulier de médicament).
Chiffres Incorrects : Ils pouvaient se tromper sur un seuil (par exemple, dire « tension artérielle supérieure à 140 » alors que la règle était « supérieure à 150 »).
Invention de Choses : Parfois, l'IA inventait des règles ou des conditions qui n'étaient pas du tout dans le document original (une « hallucination »).
Confusion du Format : En regardant les diagrammes, ils ne parvenaient souvent pas à déterminer comment transformer une flèche visuelle en une commande informatique logique du type « si-alors ».

La Grande Conclusion

Le document conclut que ces modèles d'IA ne sont pas encore prêts à remplacer les experts humains. Ils ne peuvent pas simplement regarder un document brouillon et cracher un programme informatique parfait et prêt à l'emploi.

Cependant, ce sont d'excellents générateurs de premier jet. Si vous leur donnez un texte clair et structuré, ils peuvent écrire un très bon point de départ pour le code. Mais parce qu'ils peuvent commettre des erreurs subtiles mais dangereuses (comme se tromper sur un chiffre ou manquer une règle), un expert humain doit toujours vérifier leur travail.

La Leçon Finale :
Le plus grand problème n'est pas que l'IA n'est pas assez intelligente ; c'est que les documents médicaux ne sont pas écrits d'une manière facile à lire pour les ordinateurs. Si les médecins et les chercheurs standardisaient leurs notes pour les rendre plus claires et plus structurées (comme écrire une recette dans un format standard plutôt que de griffonner sur une serviette), l'IA deviendrait beaucoup plus utile. En attendant, l'IA est une assistante utile, mais l'expert humain doit rester le patron.

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

Le Problème : La Recette « Perdue en Traduction »

L'Expérience : Tester les Chefs IA

Les Résultats : Ce Qui a Fonctionné et Ce Qui N'a Pas Fonctionné

La Grande Conclusion

Résumé Technique : Évaluation des Grands Modèles de Langage pour la Traduction de Documentations Multimodales de Phénotypes en Algorithmes d'Extraction de Phénotypes Exécutables dans les Dossiers de Santé Électroniques

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

Le Problème : La Recette « Perdue en Traduction »

L'Expérience : Tester les Chefs IA

Les Résultats : Ce Qui a Fonctionné et Ce Qui N'a Pas Fonctionné

La Grande Conclusion

Résumé Technique : Évaluation des Grands Modèles de Langage pour la Traduction de Documentations Multimodales de Phénotypes en Algorithmes d'Extraction de Phénotypes Exécutables dans les Dossiers de Santé Électroniques

Articles similaires