Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
Cette étude présente le cadre de « red-teaming » dynamique, automatique et systématique (DAS) qui révèle un écart critique entre les performances statiques et la fiabilité réelle des modèles de langage médicaux, démontrant que la majorité des modèles échouent à des tests de stress continus en matière de robustesse, de confidentialité, d'équité et d'hallucinations malgré leurs scores élevés sur les benchmarks traditionnels.