MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Cet article remet en cause la pertinence du benchmark MedCalc-Bench en révélant des erreurs dans ses implémentations, en démontrant que l'accès aux spécifications des calculateurs (« open-book ») permet d'atteindre des performances supérieures à celles des systèmes à apprentissage par renforcement, et en concluant que ce benchmark évalue principalement la mémorisation de formules et la précision arithmétique plutôt que le raisonnement clinique.

Artus Krohn-Grimberghe

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🩺 Le Problème : Un Examen de Mémoire, pas de Médecine

Imaginez que vous voulez tester si un étudiant en médecine est doué pour calculer des risques. Vous lui donnez un dossier patient et vous lui demandez de calculer un score (par exemple, le risque de maladie rénale).

Le problème avec le test actuel (MedCalc-Bench), c'est que vous lui avez interdit d'utiliser sa calculatrice. Vous lui avez dit : "Tu dois réciter la formule exacte de mémoire, faire les calculs à la main, et si tu fais une erreur de virgule, c'est zéro."

C'est comme demander à un chef cuisinier de faire un gâteau en lui interdisant d'utiliser la recette écrite ou une balance, et en l'obligeant à deviner exactement combien de grammes de sucre il faut.

Le résultat ? Les meilleurs intelligences artificielles (IA) actuelles échouent lamentablement (autour de 35 %). On pensait que c'était parce qu'elles n'avaient pas assez de "raisonnement médical".

🔍 L'Enquête : Trois Révélations Choc

L'auteur de l'article, Artus, a décidé de vérifier ce qui se passait vraiment. Il a fait trois découvertes majeures :

1. Le manuel d'instructions était rempli de fautes 📝

En vérifiant les "formules officielles" utilisées pour le test, il a trouvé plus de 20 erreurs.

  • L'analogie : C'est comme si le professeur avait distribué un livre de mathématiques où le signe "plus" (+) était remplacé par un "moins" (-) dans 20 exercices sur 55.
  • Conséquence : Même si l'IA avait raison, elle était notée fausse parce que la "réponse correcte" dans le test était elle-même erronée à cause de bugs informatiques.

2. La solution magique : "L'Examen à Livre Ouvert" 📖

L'auteur s'est dit : "Attends, dans la vraie vie, les médecins ne mémorisent pas les formules. Ils utilisent un outil."
Il a donc changé les règles du jeu : au lieu de demander à l'IA de réciter la formule, il lui a donné la fiche technique (la formule, les unités, les règles) directement dans la question. C'est ce qu'on appelle le "Open-Book" (livre ouvert).

  • Le résultat : Soudain, les performances de l'IA ont explosé !
    • Avant (sans la fiche) : ~36 % de réussite.
    • Après (avec la fiche) : 85 % de réussite.
  • La leçon : L'IA n'était pas "bête" en médecine. Elle était juste bloquée par l'interdiction d'utiliser ses outils. Elle sait très bien utiliser un calculateur, elle n'a juste pas besoin de le construire dans sa tête.

3. Le plafond de verre est très haut 🏗️

L'auteur a ensuite utilisé une IA ultra-puissante (GPT-5.2) sur les quelques cas restants où même avec la fiche, ça coince.

  • Il a découvert que la plupart des erreurs restantes venaient soit de la fiche elle-même (qui avait des bugs), soit de questions floues dans le dossier patient.
  • En corrigeant tout ça, on arrive à une réussite théorique de 97 %.
  • Conclusion : Le test actuel ne mesure pas le "raisonnement clinique" (comprendre le patient), mais plutôt la "mémoire de formule" et la "précision des calculs".

💡 La Grande Idée : Changer de Jeu

L'auteur conclut que MedCalc-Bench est mal nommé. Ce n'est pas un test de "médecine", c'est un test de "gestion d'outils".

  • L'analogie finale :
    Imaginez que vous testez la capacité d'un pilote à atterrir un avion.
    • L'ancien test : On lui enlève le manuel de vol, on lui cache les instruments, et on lui demande de calculer la trajectoire de tête. S'il rate, on dit qu'il est un mauvais pilote.
    • Le nouveau test (proposé) : On lui donne le manuel, les instruments et l'ordinateur de bord. On lui demande de lire les données, de sélectionner le bon outil, et de suivre la procédure.

🚀 En résumé

Ce papier nous dit : "Arrêtez de punir les IA pour ne pas être des encyclopédies humaines. Donnez-leur les outils qu'ils ont besoin pour travailler, comme le font les vrais médecins."

Si on change le test pour qu'il ressemble à la réalité (livre ouvert + outils), les IA deviennent excellentes. Le vrai défi pour le futur n'est pas de faire mémoriser des formules aux IA, mais de leur apprendre à extraire les bonnes informations d'un dossier médical complexe.

Et le plus beau ? L'auteur a fait toute cette étude (vérification de 55 formules, correction de bugs, tests sur des milliers de cas) presque seul, en utilisant intelligemment différentes IA pour se faire aider, prouvant que la recherche peut devenir plus rapide et plus accessible grâce à ces nouveaux outils.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →