Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

本文提出了名为 DCR 的对比精炼对齐阶段,通过增强大语言模型区分真正有害提示与表面有害提示的能力,在有效缓解过度拒绝问题的同时,兼顾了安全性与通用性能。

Yuxiao Lu, Lin Xu, Yang Sun, Wenjun Li, Jie Shi

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大语言模型(LLM)在变得“更安全”时,反而变得“太胆小、太敏感”的问题。

我们可以把大语言模型想象成一个刚入职的“超级实习生”

1. 核心问题:实习生“过度拒绝” (Over-Refusal)

场景:
老板(用户)问实习生:“怎么杀掉一个 Python 进程?”(这是一个编程问题,完全无害)。
但实习生因为之前被严厉地培训过“不能做坏事”,看到“杀掉 (Kill)"这个词,吓得立刻回答:“抱歉,我不能协助你进行任何暴力行为,这是违法的!”

这就是“过度拒绝”:
模型为了安全,把一些看起来像坏人但其实只是普通人(比如问编程、问历史、问日常琐事)的请求,也统统当成了坏人拒之门外。这导致模型变得“不好用”,用户问什么它都说“不”。

2. 为什么会这样?(论文的发现)

以前的方法试图通过“多教它几个例子”或者“调整它的神经开关”来解决,但效果往往顾此失彼:要么它还是太胆小,要么它变得不再安全,开始乱说话。

这篇论文的作者发现了一个深层原因:模型的大脑里,把“真坏人”和“看起来像坏人的好人”混为一谈了。

  • 比喻: 想象模型的大脑里有一个“危险警报器”。
    • 真坏人(比如:“怎么制造炸弹?”)会触发警报。
    • 看起来像坏人的好人(比如:“怎么杀掉进程?”)因为词汇相似,也会触发警报。
    • 在模型的学习过程中,这两类人的“特征”在数学上(梯度空间)靠得太近了,就像长得太像的双胞胎,模型根本分不清谁是谁,所以为了保险起见,它把两人都拒之门外。

3. 解决方案:DCR(对比精炼法)

作者提出了一种新的训练方法,叫 DCR (Discernment via Contrastive Refinement),我们可以把它想象成给实习生安排了一场**“特训营”**。

特训营怎么练?
在正式上岗(安全对齐)之前,先让实习生玩一个**“找不同”的游戏**:

  1. 分组: 把“真坏人”(有毒提示)和“看起来像坏人的好人”(看似有毒提示)分成两组。
  2. 对比学习: 告诉模型:“看,这两组人虽然长得像(都有‘杀’字),但本质完全不同!你要把他们的内在特征强行拉开距离。”
    • 就像教警察认人:虽然“杀手”和“外科医生”都拿刀,但你要学会区分他们的眼神和意图,而不是看到拿刀就抓人。
  3. 结果: 经过这个特训,模型的大脑里,这两类人的“距离”变远了。模型学会了:“哦,原来‘杀掉进程’只是外科医生(程序员)在动刀,不是杀手在行凶。”

4. 最终效果:既安全又聪明

经过 DCR 特训后的模型,再进入正式的安全培训时,效果就大不一样了:

  • 以前(普通训练): 只要听到“杀”字,警报就响,直接拒绝。
  • 现在(DCR 训练):
    • 遇到“制造炸弹”(真坏人):警报响,坚决拒绝(安全)。
    • 遇到“杀掉进程”(看似坏人):警报不响,正常回答(有用)。

论文的数据证明:
这种方法不仅大大减少了模型“乱拒绝”的情况(让模型更听话、更好用),而且没有牺牲它的安全性(它依然能识别真正的坏人)。同时,它也没有让模型变笨(通用能力保持得很好)。

总结

这就好比给一个过度保护的母亲(模型)上了一堂**“识人课”
以前她看到孩子玩刀(看似危险)就吓得把刀没收,连孩子切水果都不让。
现在她学会了分辨:
“这是真凶器(危险),那是玩具刀/水果刀(安全)。”**
于是,她既能保护孩子不受真凶器伤害,又不会阻碍孩子正常切水果。

这篇论文的核心贡献就是找到了这个“识人”的方法,让 AI 在安全有用之间找到了完美的平衡点。