Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
Cette étude présente le cadre de « red-teaming » dynamique, automatique et systématique (DAS) qui révèle un écart critique entre les performances statiques et la fiabilité réelle des modèles de langage médicaux, démontrant que la majorité des modèles échouent à des tests de stress continus en matière de robustesse, de confidentialité, d'équité et d'hallucinations malgré leurs scores élevés sur les benchmarks traditionnels.
Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG