Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
Questo studio introduce un framework di "red-teaming" dinamico, automatico e sistematico (DAS) che, stressando i modelli linguistici medici su assi di sicurezza critici, rivela un profondo divario tra le alte prestazioni sui benchmark statici e la bassa affidabilità in scenari reali, evidenziando come i punteggi elevati possano riflettere una memorizzazione superficiale piuttosto che una vera competenza clinica.
Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG