Dissecting clinical reasoning failures in frontier artificial intelligence using 10,000 synthetic cases
Este estudio demuestra que la evaluación automatizada a gran escala de 10.000 casos sintéticos de esclerosis múltiple revela fallos críticos de seguridad en modelos de inteligencia artificial de vanguardia, como recomendaciones de tratamientos inapropiados, que permanecen ocultos en las pruebas tradicionales de menor magnitud.