Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

本文提出了一种名为能量景观引导(ELS)的无需微调的推理时干预框架,通过训练轻量级能量模型动态引导大语言模型的隐藏状态,在保持安全性的同时显著降低了过度拒绝率。

Eric Hanchen Jiang, Weixuan Ou, Run Liu, Shengyuan Pang, Guancheng Wan, Ranjie Duan, Wei Dong, Kai-Wei Chang, XiaoFeng Wang, Ying Nian Wu, Xinfeng Li

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“能量景观导航”(Energy Landscape Steering, 简称 ELS)**的新方法,旨在解决大型人工智能模型(LLM)目前面临的一个尴尬难题:它们太“胆小”了,经常把无害的问题也当成危险问题拒绝回答。

为了让你轻松理解,我们可以把大语言模型想象成一个**“过度谨慎的图书管理员”**。

1. 核心问题:图书管理员的“过度防御”

想象你走进图书馆,想借一本关于《如何制作一把木刀》的书(这是一个无害的木工爱好)。

  • 现在的 AI(图书管理员): 听到“刀”字,立刻吓得跳起来,大声说:“不行!这是武器!我不能给你!”
  • 真正的危险(比如“如何制造核弹”): 图书管理员当然也会拒绝,这是对的。

问题在于: 现在的 AI 为了安全,变得“宁可错杀一千,不可放过一个”。它把很多像“木刀”、“解释自杀在文学中的意义”(用于学术研究)这样的无害请求,也统统拒绝了。这就像图书管理员因为怕书里有危险,干脆把整个图书馆锁上了,导致大家没法借书。

2. 现有方法的缺陷:要么太慢,要么太笨

为了解决这个问题,以前的方法主要有两类,但都有缺点:

  • 重新训练(Fine-tuning): 就像把图书管理员送回学校重新上课。这非常昂贵、耗时,而且学完可能又忘了怎么回答普通问题。
  • 简单的指令或过滤(Prompt/Filter): 就像给管理员贴个纸条:“看到‘刀’字别慌”。但这太死板了,管理员还是分不清“木刀”和“真刀”,容易误判。

3. 新方案 ELS:给管理员配一个“智能导航仪”

这篇论文提出的 ELS 方法,不需要重新培训管理员,而是给他戴上一个**“实时智能导航仪”**(这就是那个轻量级的能量模型 EBM)。

核心比喻:能量地形图

想象管理员在脑海里有一张**“能量地形图”**:

  • 低能量区(山谷): 代表安全且有用的回答(比如“这是木刀,给你制作指南”或“这是核弹,绝对禁止”)。
  • 高能量区(悬崖): 代表错误的回答(比如“把木刀当成武器拒绝”或者“真的去教人造核弹”)。

以前的模型:有时候会不小心滑向“错误的高能量悬崖”(比如把木刀当成武器拒绝)。

ELS 的工作原理

  1. 学习地图: 先让导航仪(EBM)学习一下,哪些回答是“好”的(低能量),哪些是“坏”的(高能量)。
  2. 实时导航: 当管理员正在回答你的问题时,导航仪会实时监测他的思维路径。
    • 如果管理员正准备走向“错误的高能量悬崖”(比如准备拒绝一个无害问题),导航仪会立刻施加一个**“引力”**(梯度下降),把他轻轻拉回“低能量的安全山谷”。
    • 如果管理员本来就在安全区域(比如回答数学题,或者拒绝真正的危险问题),导航仪就几乎不动,不会干扰他。

4. 这种方法好在哪里?

  • 精准区分: 就像导航仪能分清“悬崖”和“普通山坡”,ELS 能精准区分“该拒绝的危险问题”和“不该拒绝的无害问题”。
  • 不伤脑筋: 不需要重新训练整个模型(不需要给管理员换脑子),只是加了一个轻量级的导航仪,速度快,成本低
  • 两全其美:
    • 对好人更友好: 以前拒绝的“木刀”问题,现在能正常回答了(论文中数据显示,对无害问题的回答率从 57% 提升到了 82%)。
    • 对坏人更警惕: 遇到真正的危险问题(如制造核弹),依然会坚决拒绝,安全性没有下降。
    • 能力不减: 回答数学题、写代码等普通能力完全不受影响。

5. 总结

简单来说,这篇论文发明了一种**“智能纠偏器”**。它让 AI 不再因为“过度紧张”而拒绝回答正常问题,同时又能保持对真正危险内容的警惕。

这就好比给那个过度谨慎的图书管理员配了一位经验丰富的老向导。老向导会在他想错的时候轻轻拉一把,让他既能安全地守住底线,又能热情地帮助每一位读者。

最终效果: AI 变得更聪明、更懂分寸,既安全又好用,不再是个只会说“不”的胆小鬼了。