Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
Questo studio introduce un framework di "red-teaming" dinamico, automatico e sistematico (DAS) che, stressando i modelli linguistici medici su assi di sicurezza critici, rivela un profondo divario tra le alte prestazioni sui benchmark statici e la bassa affidabilità in scenari reali, evidenziando come i punteggi elevati possano riflettere una memorizzazione superficiale piuttosto che una vera competenza clinica.