Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
O artigo apresenta o framework DAS (Dinâmico, Automático e Sistemático), uma abordagem de red-teaming que revela uma "lacuna de benchmarking" crítica, demonstrando que, apesar de altos desempenhos em testes estáticos, a maioria dos modelos de linguagem médica falha em testes de segurança dinâmicos devido a vulnerabilidades generalizadas em robustez, privacidade, viés e alucinações.
Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG