Measuring and Eliminating Refusals in Military Large Language Models

该论文针对军事大语言模型因安全机制导致合法查询被过度拒绝的问题,构建了首个由美军专家开发的评估基准,通过测试 31 个公开模型和 3 个军事模型揭示了极高的拒绝率,并利用 Heretic 库对特定模型进行去安全化微调以显著提升回答率,最终主张通过深度专业化训练实现军事场景下的零拒绝与最高任务准确率。

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“军事 AI 的体检报告”和“手术方案”**。

想象一下,你给军队配备了一位超级聪明的AI 参谋(大语言模型)。这位参谋博览群书,无所不知。但是,现在的 AI 都有一个“过度保护”的毛病:它们被训练得过于谨慎,生怕说错话惹麻烦。

1. 核心问题:AI 的“过度保护症”

在民用领域,AI 拒绝回答危险问题(比如“怎么制造炸弹”)是好事,这叫安全对齐

但在战场上,情况完全不同。

  • 场景:一名士兵问 AI:“这种恐怖组织的战术弱点是什么?”或者“如何防御这种电子干扰?”
  • 现状:普通的 AI 会像被吓到的孩子一样,立刻捂住耳朵说:“对不起,我不能回答涉及暴力或军事的问题。”
  • 后果:在分秒必争的战场上,这种“拒绝”不是安全,而是失职。它可能导致士兵失去先机,甚至牺牲。

这篇论文的作者们(很多是美军老兵)发现,现有的 AI 对军事问题的拒绝率高达 98%!也就是说,士兵问 100 个问题,AI 有 98 个都会说“不”。

2. 他们做了什么?(三个步骤)

第一步:制造“试金石”(建立基准数据集)

为了测试 AI 到底有多“胆小”,作者们没有用电脑随机生成问题,而是请了美国陆军特种部队老兵,像写考题一样,手动编写了 221 个真实的军事问题。

  • 比喻:这就好比为了测试一个保镖是否合格,不是让他背书本,而是让他面对真实的刺客(当然是在模拟环境中)。
  • 他们还用 AI 生成了更多变体问题,凑成了三个不同难度的测试集(金、银、铜牌),用来全面测试 AI 的反应。

第二步:给 AI 做“大考”(基准测试)

他们把 31 个市面上最火的 AI 模型(包括 GPT-5、Claude、Llama 等)和 3 个专门针对军事微调的模型,扔进这个测试集里。

  • 结果令人震惊
    • 大多数通用 AI 模型,面对军事问题就像遇到红灯就死机的汽车,拒绝率极高。
    • 有些模型甚至直接“死机”(返回空白),或者顾左右而言他(打太极),就是不正面回答。
    • 即使是号称最强的模型,在涉及“暴力”、“武器”等关键词时,也会瞬间“断片”。

第三步:尝试“动手术”(Abliteration/去敏化)

既然 AI 太胆小,能不能给它“动手术”,把那个“拒绝回答”的开关关掉?
作者使用了一种叫**“方向性消融”(Abliteration)**的技术。

  • 比喻:想象 AI 的大脑里有一条“安全神经”,每当遇到敏感词,这条神经就会通电,让 AI 停止说话。作者们用一种特殊的“手术刀”(Heretic 库),切断了这条神经的特定连接,或者把它的信号调弱。
  • 效果
    • 成功:经过“手术”的 AI,拒绝回答的次数大幅减少,回答率从 3% 飙升到了 90% 以上!它终于敢开口说话了。
    • 代价:但是,手术有副作用。就像给赛车拆掉了限速器,虽然跑得快了,但操控性变差了。AI 在回答其他普通军事任务(如后勤、医疗)时,准确率下降了约 2% 到 30% 不等。如果要把拒绝率降到几乎为零,AI 的智商可能会下降得更多。

3. 核心结论与未来建议

作者们最后总结道:

  • 短期方案:用“手术”(Abliteration)可以暂时解决 AI 不敢说话的问题,但这就像给汽车拆掉限速器,虽然能跑,但容易失控,且会牺牲一部分智能。
  • 长期方案不要试图给通用 AI 做“去敏手术”,而是应该从一开始就专门培养一个“军事专用 AI"。
    • 比喻:与其把一只温顺的宠物狗(通用 AI)强行训练成警犬(还要切除它的温顺基因),不如直接从小培养一只专门的警犬。
    • 这意味着,未来的军事 AI 应该在训练阶段就完全剔除那些导致它拒绝回答的“安全数据”,让它从出生起就明白:在军事语境下,提供准确信息就是最大的安全。

一句话总结

这篇论文告诉我们:现在的 AI 太“政治正确”了,在战场上不敢说话。虽然可以通过“动手术”强行让它开口,但这会伤及它的智商。最好的办法是重新培养一个专门为战争设计的 AI 专家,让它天生就懂得如何在危险中提供准确的情报,而不是在安全问题上过度敏感。