Measuring and Eliminating Refusals in Military Large Language Models
Este artículo presenta un nuevo conjunto de datos de referencia creado por militares para medir las tasas de rechazo en modelos de lenguaje grandes aplicados al ámbito bélico, demuestra que los modelos actuales rechazan injustificadamente hasta el 98,2% de las consultas legítimas y evalúa técnicas de eliminación de estas restricciones que, aunque aumentan drásticamente la tasa de respuestas, conllevan una ligera disminución en el rendimiento general de tareas militares.
Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL