Dissecting clinical reasoning failures in frontier artificial intelligence using 10,000 synthetic cases
Cette étude utilise 10 000 cas synthétiques de sclérose en plaques pour démontrer que, malgré de bonnes performances diagnostiques, les grands modèles de langage de pointe commettent des erreurs de traitement graves et systématiques, soulignant la nécessité d'évaluations à grande échelle avant leur déploiement clinique.