Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

该论文提出了名为 DIRECTER 的新方法,通过结合注意力敏感性分析与基于合理性的解码循环,动态调节激活引导强度,从而在无需额外数据集的情况下有效缓解大语言模型的过度引导问题,显著提升了指令遵循能力且未牺牲生成质量。

Minjae Kang, Jaehyung Kim

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DIRECTER 的新方法,旨在让大型语言模型(LLM)更听话、更精准地遵循用户的指令,同时避免“矫枉过正”的问题。

为了让你轻松理解,我们可以把大语言模型想象成一位才华横溢但有点固执的“老厨师”

1. 核心问题:厨师太“固执”或太“用力过猛”

  • 现状:现在的厨师(LLM)虽然经过训练,能听懂大部分指令,但如果你要求他“写一首诗,但绝对不能用逗号”,他可能会:

    • 完全忽略:还是老样子,满篇逗号(指令没跟上)。
    • 用力过猛(Oversteering):为了不用逗号,他可能把句子写得支离破碎,甚至开始胡言乱语,完全忘了写诗原本要表达的意思(任务准确性下降,文本质量变差)。
  • 以前的尝试:以前的方法就像给厨师戴上一个固定力度的“紧箍咒”

    • 如果紧箍咒太松,厨师还是乱用逗号。
    • 如果紧箍咒太紧,厨师为了遵守规则,把诗写得乱七八糟。
    • 问题在于,这个“紧箍咒”的力度是固定不变的,不管厨师写到哪一步,力度都一样,无法灵活应对。

2. DIRECTER 的解决方案:智能的“动态纠偏”

DIRECTER 就像是一位经验丰富的“副厨”,他站在老厨师旁边,实时观察厨师的每一个动作,并动态调整“紧箍咒”的力度。

核心机制一:尝一口,再决定(可信度引导循环)

副厨不会盲目地强迫厨师改变。他的工作流程是这样的:

  1. 先试做:厨师先按自己的直觉写下一个词(原始输出)。
  2. 副厨干预:副厨试着用“紧箍咒”调整一下,看看如果强行按指令改,会变成什么样(受控输出)。
  3. 尝味道(可信度检查):副厨把“调整后的词”和“厨师原本想写的词”对比。
    • 如果味道差不多(调整后的词在原本的概率分布里也是合理的):副厨说:“好,就按这个改!”(接受指令)。
    • 如果味道怪了(调整后的词让句子变得不通顺,或者完全偏离了原意):副厨说:“不行,这样改太过了,会毁掉整道菜!”(拒绝过度干预)。

核心机制二:动态松紧带(动态拒绝)

如果副厨发现“用力过猛”了,他不会直接放弃,而是慢慢松开紧箍咒

  • 他就像调节音量旋钮一样,一层一层地减少干预的强度。
  • 比如,原本想控制 32 层“大脑”,发现太过了,就只控制 16 层;还是太过了,就只控制 8 层……直到找到一个既能遵守指令,又不破坏句子通顺的平衡点。

核心机制三:聪明的“排兵布阵”(注意力敏感度排序)

为了知道该控制哪一部分“大脑”,副厨在开始做饭前,会先做一个快速的体检

  • 他测试一下:如果只控制第 1 层大脑,效果如何?只控制第 10 层呢?
  • 根据测试结果,他给每一层大脑排个名:哪一层对改变输出影响最大,就优先控制哪一层
  • 这样,当需要“松紧”时,他就能精准地先松开那些“影响力小”的层,保留那些“关键层”的控制力,效率极高。

3. 为什么这个方法很厉害?(比喻总结)

  • 以前的方法:像是一个死板的教官,不管士兵(模型)在什么情况下,都喊着“向左转!向左转!”,结果士兵可能撞墙或者摔倒。
  • DIRECTER:像是一个灵活的舞蹈教练
    • 当音乐(指令)要求向左转时,教练会观察舞者的动作。
    • 如果舞者转得太猛要摔倒了,教练立刻轻轻扶一把,减少力度。
    • 如果舞者转得不够,教练就稍微推一下。
    • 结果:舞者既完美完成了“向左转”的指令,又保持了舞蹈的优美和流畅,没有摔倒(没有牺牲文本质量)。

4. 实验结果:既听话又聪明

论文通过大量测试证明:

  • 更听话:在严格的指令测试中(比如“不许用逗号”、“必须用 JSON 格式”),DIRECTER 的准确率比之前的方法提高了约 6.5%
  • 不牺牲质量:它不会因为死守规则而把文章写得像乱码。生成的文本依然通顺、自然。
  • 效率高:虽然副厨需要实时观察,但这个“体检”和“调整”的过程非常快,对生成速度的影响很小(仅降低了约 16% 的速度,但在可接受范围内)。

总结

DIRECTER 就像给大语言模型装上了一个智能的“刹车和油门”系统。它不再是一脚油门踩到底(过度干预)或者完全不管(指令失效),而是根据路况(生成过程中的每一步)实时调整力度。

这让 AI 既能严格听从指挥(完成复杂的格式或约束任务),又能保持优雅(不破坏语言的自然流畅度),是让人工智能变得更可靠、更可控的一大步。