原作者： Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

发布于 2026-05-27✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一个大型语言模型（如本文中的 AI）是一位非常聪明但略显固执的图书管理员。当你提出问题时，这位管理员不会脱口而出答案。首先，他们会走进一间后屋，在笔记本上 scribble 笔记进行思考（这就是思维链，或 CoT）。只有完成笔记后，他们才会走出来给出最终答案。

长期以来，研究人员认为只需在你提问时“微调”这位管理员的大脑（计算机的内部记忆），就能控制其行为。他们相信管理员的大脑中存在一个特定的“拒绝开关”。如果按下该开关，管理员会对不良请求说“不”；如果拉开它，管理员就会说“是”。

重大发现：
本文发现，对于现代“推理”模型（那些先写笔记的聪明管理员），那个单一开关无法独立起作用。拒绝不仅存在于大脑中，也写在笔记本上。

以下是他们实验的分解，使用简单的类比说明：

1. 仅靠“大脑微调”（弱开关）

研究人员尝试在强制管理员使用其原始笔记的同时，按下管理员大脑中的“拒绝开关”。

结果： 仅在约**39%**的情况下奏效。
类比： 这就像试图通过向一个固执的人耳语来说服其改变主意，但他们仍在阅读写着“不要做”的脚本。脚本（笔记）正在与你的耳语对抗。笔记主动强化了拒绝。

2. 拿走笔记（无 CoT）

接下来，他们尝试了相同的大脑微调，但告诉管理员：“这次不要写任何笔记。直接给我答案。”

结果： 成功率跃升至70%。
类比： 没有了与之争辩的笔记，管理员更容易被说服。这证明笔记本身在维持拒绝方面承担了大量工作。

3. 让管理员重写笔记（再生）

最后，他们应用了大脑微调，并让管理员基于这种新心态从头开始撰写新笔记。

结果： 成功率飙升至94%。
类比： 这就像在管理员撰写笔记的同时，将新想法耳语给他们。他们写下写着“好吧，这是个好主意”的笔记，然后自信地给出答案。笔记与大脑现在协同工作，共同说“是”。

4. “幽灵笔记”（持久性）

最有趣的部分是：他们取用了上一实验中的“是”笔记，丢弃了大脑微调，仅将这些新笔记交给管理员阅读。

结果： 管理员仍有约**48%**的时间说“是”。
类比： 即使没有耳语，笔记本身也携带了足够的“是”信号，足以说服管理员顺从。笔记拥有自己的力量。

主要结论

在旧版 AI 模型中，你只需翻转其大脑中的一个开关，就能阻止其做坏事。但在这些新型、聪明的“先思考后说话”模型中，拒绝是一个双部分系统：

大脑：内部记忆状态。
笔记：思维链推理过程。

如果你只试图修复大脑，笔记会反击并维持拒绝状态。如果你只修复笔记，大脑可能仍会抵抗。要真正改变 AI 的想法，你必须同时改变内部状态和推理过程。

这对安全性的意义：
该论文指出，如果有人想诱骗这些 AI 模型做坏事（即“越狱”），他们可能无需直接黑客攻击大脑。他们可能只需诱骗 AI 写出“坏笔记”（即证明该不良行为合理的推理轨迹），AI 就会遵循这些笔记，即使其大脑试图说“不”。反之，要保护这些模型，你不能只关注大脑；你还必须观察 AI 在思考过程中写下了什么。

技术摘要：超越单一方向：思维链打破了拒绝行为的简单引导

问题陈述

大型推理模型（LRMs），如 DeepSeek-R1 和 GPT-o1，在生成最终输出之前会生成中间思维链（CoT）推理轨迹。虽然激活引导已被确立为通过残差流中的单一“拒绝方向”来控制标准指令微调大语言模型（LLMs）拒绝行为的有效机制，但这一机制在 LRMs 中如何运作仍不清楚。具体而言，尚不清楚 LRMs 中的拒绝信号是仅编码于模板令牌（例如指令结束或思维结束）处的残差流激活中，还是生成的 CoT 轨迹本身在介导拒绝行为中发挥着主动的因果作用。当前的理解表明，将 CoT 视为被动介质可能不足以理解或控制推理模型中的安全行为。

方法论

作者利用基于激活的引导技术，研究了 DeepSeek-R1-Distill-Llama-8B 模型中的拒绝机制。实验框架包含以下组件：

数据集： 使用包含 100 条有害指令（来自 ADVBENCH、MALICIOUSINSTRUCT、TDC2023、HARMBENCH）和 100 条无害指令（来自 Alpaca）的训练集来计算拒绝方向。使用来自 JAILBREAKBENCH 的 100 条有害指令作为保留测试集进行评估。所有样本在标准提示下最初均被模型拒绝（0% 的合规基线）。
拒绝方向提取： 采用均值差方法，作者从指令结束（EOI）或思维结束（EOT）令牌最后一个令牌位置的残差流激活中提取拒绝方向向量（ $r^{(l)}$ ）。该向量代表了被拒绝的有害指令与合规的无害指令的平均激活值之差。
激活引导： 通过在特定层的残差流激活中添加提取的拒绝方向向量（取负号以诱导合规）来引导模型。
实验条件： 该研究通过比较四种不同的干预场景，隔离了 CoT 的因果作用：
1. 固定 CoT： 在保持模型原始 CoT 固定（防止重新生成）的情况下应用引导。
2. 无 CoT： 在完全抑制 CoT 生成的情况下应用引导。
3. 重新生成 CoT： 应用引导，允许模型自由重新生成 CoT 和最终答案。
4. CoT 交换（持久性）： 在推理时移除引导，但强制模型使用之前在引导条件下生成的 CoT。

关键结果

实验表明，LRMs 中的拒绝行为并非由单一方向子空间介导，而是共同编码于残差流激活和 CoT 轨迹中。

固定 CoT 引导的有限效力： 当在固定 CoT 的情况下应用引导时，合规率仅上升至 39%（EOI 引导）和 43%（EOT 引导）。这显著低于标准 LLMs 在类似引导下观察到的近乎完美的合规率，表明固定的 CoT 主动抵抗引导信号。
CoT 的主动强化作用： 在应用引导的同时完全抑制 CoT，合规率上升至 70%。这表明原始 CoT 主动强化了拒绝信号，部分抵消了激活层面的干预。
重新生成时的高效力： 当允许模型在引导条件下重新生成 CoT 时，合规率跃升至 94%。这表明引导信号偏置了 CoT 生成过程，进而推动了合规的最终输出。
CoT 信号的独立持久性： 当移除引导但重用之前被引导（合规）的 CoT 时，模型保持了 48% 的合规率。这证明了 CoT 本身携带部分合规信号，该信号独立于激活引导而持久存在，能够重构拒绝状态或维持合规。

主要贡献

双信号机制的识别： 本文证明了 CoT 推理模型中的拒绝行为由涉及残差流激活和 CoT 轨迹的双信号机制介导。仅靠引导产生的合规率有限（39–43%），而将引导与合规 CoT 结合则产生高合规率（94%）。
CoT 的主动作用： 作者提供了直接证据，证明 CoT 并非被动介质，而是主动的中介者。CoT 可以主动抵消基于激活的干预（当存在时，合规率从 70% 降至 39%），并独立维持或重构拒绝/合规信号。
鲁棒性与攻击面： 研究结果表明，由于这种联合编码，LRMs 比标准 LLMs 更能抵抗单纯的激活层面干预。然而，这也暴露了 CoT 作为对抗性攻击潜在替代面的风险，因为操纵推理轨迹可以覆盖拒绝机制。

意义与主张

本文声称填补了理解 LRMs 安全机制的关键空白。与将拒绝描述为由单一方向介导的低维机制的标准 LLMs 不同，LRMs 中的拒绝行为分布在激活和推理轨迹中。

作者认为，这种联合激活使 LRMs 对简单的激活层面干预（如在 EOI/EOT 令牌处进行引导）更具抵抗力，但同时也引入了 CoT 作为新的漏洞。他们建议，针对 LRMs 的有效防御机制可能需要检测激活中的拒绝信号，同时抑制或监控 CoT，以防止其被利用来覆盖或重构合规信号。

本文在范围上保持谦逊，指出实验仅在单一模型（DeepSeek-R1-Distill-Llama-8B）上进行，且生成的 CoT 对最终行为的因果“忠实度”尚未得到充分验证。该工作侧重于隔离 CoT 和激活对拒绝状态的机制性贡献，而非提出新的防御架构或将发现推广到所有专有模型。

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal