Measuring and Eliminating Refusals in Military Large Language Models
Cette étude présente une nouvelle méthode d'évaluation des taux de refus des modèles de langage militaires, identifie des taux de rejet excessifs sur des requêtes légitimes, et démontre que l'ablation peut significativement réduire ces refus au prix d'une légère baisse de performance sur d'autres tâches, plaidant ainsi pour une spécialisation plus poussée de ces modèles.
Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL