Dissecting clinical reasoning failures in frontier artificial intelligence using 10,000 synthetic cases
Questo studio utilizza 10.000 casi sintetici di sclerosi multipla per rivelare gravi fallimenti nella sicurezza clinica di modelli di intelligenza artificiale all'avanguardia, evidenziando come le valutazioni su piccola scala non siano sufficienti a identificare errori critici come raccomandazioni terapeutiche inappropriate prima del loro impiego reale.