Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass… — Explication vulgarisée

Auteurs originaux : Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Publié 2026-05-13

📖 5 min de lecture🧠 Analyse approfondie

Voir sur medRxiv ↗PDF ↗

CC BY 4.0

Auteurs originaux : Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Article original sous licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Ceci est une explication générée par l'IA d'un preprint qui n'a pas été évalué par des pairs. Ce n'est pas un avis médical. Ne prenez pas de décisions de santé basées sur ce contenu. Lire la clause de non-responsabilité complète

Imaginez un examen final à haut risque pour les médecins spécialisés dans l'analyse d'images cardiaques à l'aide de traceurs radioactifs spéciaux. C'est l'« Examen du Conseil de Cardiologie Nucléaire ». Depuis des années, l'Intelligence Artificielle (IA) tente de passer cet examen, mais elle échoue constamment, obtenant des scores inférieurs à ceux de l'étudiant en médecine moyen.

Cet article raconte comment deux nouveaux modèles d'IA ultra-intelligents ont finalement réussi l'examen avec brio, surpassant l'étudiant humain moyen.

Le Contexte : L'Examen et la « Triche »

L'examen comporte 168 questions. Certaines sont purement textuelles (comme un quiz de culture générale), mais environ 27 d'entre elles nécessitent l'observation d'images médicales complexes du cœur.

Par le passé, lorsque l'IA tentait de passer cet examen « à froid » (sans aucune aide), le meilleur résultat obtenu était d'environ 63 % de bonnes réponses. C'est une note d'échec. L'étudiant en médecine moyen (un « fellow » en formation) obtenait 78 %.

Pour cette nouvelle étude, les chercheurs ont fourni à l'IA une « triche » massive. Ce n'était pas une simple recherche Google rapide ; il s'agissait d'un système de Génération Augmentée par Récupération (RAG). Imaginez que l'on donne à l'IA une bibliothèque numérique parfaite et consultable, contenant les manuels officiels, les atlas et les directives médicales en cardiologie nucléaire. Lorsque l'IA voit une question, elle plonge instantanément dans cette bibliothèque, trouve la page exacte contenant la réponse, et l'utilise pour formuler sa réponse.

Les Concurrents

Les chercheurs ont testé deux nouveaux modèles d'IA de dernière génération :

Claude Opus 4.7 : Un modèle utilisant un système de recherche local et transparent (comme un bibliothécaire qui vous montre exactement quels livres il a retirés de l'étagère).
GPT-5.5 : Un modèle utilisant un système de recherche basé sur le cloud (comme un bibliothécaire qui trouve les livres pour vous mais ne vous montre pas le processus).

Les Résultats : L'IA Bat l'Étudiant Moyen

Lorsque ces deux IA ont passé l'examen cinq fois chacune, les résultats ont été surprenants :

Les Scores : Les deux modèles ont obtenu environ 86 % à 87 %.
La Comparaison : C'est nettement supérieur au score moyen de l'étudiant humain de 78 %. En fait, si l'on alignait les 13 étudiants humains et les 2 IA, les IA se classeraient dans le top 5, battant 8 ou 9 des humains.
La Vitesse des Progrès : C'est un bond massif. Il y a seulement 18 mois, la meilleure IA obtenait 63 %. Maintenant, avec la « triche » (RAG), elles ont bondi de 23 points de pourcentage.

Les Deux Faiblesses

Même si les IA ont gagné, elles ont rencontré deux difficultés spécifiques :

Le Problème de l'« Image » : Les IA étaient excellentes pour les questions textuelles (obtenant près de 89 %), mais elles trébuchaient sur les questions d'images. Elles obtenaient environ 73–77 % de bonnes réponses sur les images. Les humains restaient meilleurs dans ce domaine, obtenant 81,5 %.
- Analogie : Imaginez que l'IA est un professeur brillant capable de réciter tout le manuel par cœur, mais qui reste confus face à une radiographie floue. Elle connaît parfaitement la théorie mais apprend encore à « voir » l'image.
Le Dysfonctionnement de « Sécurité » (GPT-5.5 uniquement) : GPT-5.5 a refusé de répondre à environ 7 % des questions. Il disait : « Je suis désolé, je ne peux pas aider avec cela », même si les questions portaient simplement sur des médicaments cardiaques ou la sécurité radiologique standards d'un examen médical.
- Analogie : C'est comme un bibliothécaire très prudent qui refuse de vous remettre un livre sur « comment fabriquer une bombe », même si vous posez une question d'examen légitime à un étudiant en physique sur l'énergie nucléaire. Les filtres de sécurité de l'IA étaient trop sensibles, lui faisant perdre des points. Claude Opus 4.7 n'a pas eu ce problème ; il a répondu à tout.

Ce Que les Auteurs Disent (et Ne Disent Pas)

L'article est très prudent sur la signification de ces résultats :

Ce que c'EST : Cela prouve qu'avec les bons documents de référence, l'IA peut apprendre les faits et les règles de la cardiologie nucléaire mieux que le stagiaire moyen. Les auteurs suggèrent que ces outils pourraient être utilisés comme aides pédagogiques pour aider les étudiants à étudier ou comme outils de référence pour vérifier les faits dans une salle de lecture.
Ce que ce N'EST PAS : Les auteurs déclarent explicitement que réussir un test à choix multiples ne signifie pas que l'IA est prête à devenir médecin. La médecine réelle implique de parler aux patients, de gérer l'incertitude et de prendre des décisions de jugement complexes qu'un examen à choix multiples ne peut mesurer. L'IA est un livre de référence puissant, pas un remplacement pour un médecin humain.

La Conclusion

En l'espace d'un an et demi, l'IA est passée de l'échec à l'examen du Conseil de Cardiologie Nucléaire à la victoire sur l'étudiant humain moyen, à condition d'avoir accès aux bons manuels. Cependant, elle éprouve toujours des difficultés à interpréter les images médicales, et l'un des modèles est trop « effrayé » pour répondre à certaines questions légitimes. Bien que cela représente un bond en avant énorme pour les outils d'éducation médicale, l'article conclut que ces machines sont des assistants, et non des remplaçants, pour les médecins humains.

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

Le Contexte : L'Examen et la « Triche »

Les Concurrents

Les Résultats : L'IA Bat l'Étudiant Moyen

Les Deux Faiblesses

Ce Que les Auteurs Disent (et Ne Disent Pas)

La Conclusion

Résumé technique : Les LLM augmentés par la récupération surpassent les performances humaines aux examens de certification en cardiologie nucléaire

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

Le Contexte : L'Examen et la « Triche »

Les Concurrents

Les Résultats : L'IA Bat l'Étudiant Moyen

Les Deux Faiblesses

Ce Que les Auteurs Disent (et Ne Disent Pas)

La Conclusion

Résumé technique : Les LLM augmentés par la récupération surpassent les performances humaines aux examens de certification en cardiologie nucléaire

Articles similaires