Dissecting clinical reasoning failures in frontier artificial intelligence using 10,000 synthetic cases
Este estudo demonstra que a avaliação automatizada em larga escala de 10.000 casos sintéticos de Esclerose Múltipla revela falhas críticas e perigosas de segurança em modelos de IA de ponta, como recomendações inadequadas de trombólise e esteroides, evidenciando a necessidade urgente de testes massivos antes da implementação clínica.