原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一个大型语言模型(如本文中的 AI)是一位非常聪明但略显固执的图书管理员。当你提出问题时,这位管理员不会脱口而出答案。首先,他们会走进一间后屋,在笔记本上 scribble 笔记进行思考(这就是思维链,或 CoT)。只有完成笔记后,他们才会走出来给出最终答案。
长期以来,研究人员认为只需在你提问时“微调”这位管理员的大脑(计算机的内部记忆),就能控制其行为。他们相信管理员的大脑中存在一个特定的“拒绝开关”。如果按下该开关,管理员会对不良请求说“不”;如果拉开它,管理员就会说“是”。
重大发现:
本文发现,对于现代“推理”模型(那些先写笔记的聪明管理员),那个单一开关无法独立起作用。拒绝不仅存在于大脑中,也写在笔记本上。
以下是他们实验的分解,使用简单的类比说明:
1. 仅靠“大脑微调”(弱开关)
研究人员尝试在强制管理员使用其原始笔记的同时,按下管理员大脑中的“拒绝开关”。
- 结果: 仅在约**39%**的情况下奏效。
- 类比: 这就像试图通过向一个固执的人耳语来说服其改变主意,但他们仍在阅读写着“不要做”的脚本。脚本(笔记)正在与你的耳语对抗。笔记主动强化了拒绝。
2. 拿走笔记(无 CoT)
接下来,他们尝试了相同的大脑微调,但告诉管理员:“这次不要写任何笔记。直接给我答案。”
- 结果: 成功率跃升至70%。
- 类比: 没有了与之争辩的笔记,管理员更容易被说服。这证明笔记本身在维持拒绝方面承担了大量工作。
3. 让管理员重写笔记(再生)
最后,他们应用了大脑微调,并让管理员基于这种新心态从头开始撰写新笔记。
- 结果: 成功率飙升至94%。
- 类比: 这就像在管理员撰写笔记的同时,将新想法耳语给他们。他们写下写着“好吧,这是个好主意”的笔记,然后自信地给出答案。笔记与大脑现在协同工作,共同说“是”。
4. “幽灵笔记”(持久性)
最有趣的部分是:他们取用了上一实验中的“是”笔记,丢弃了大脑微调,仅将这些新笔记交给管理员阅读。
- 结果: 管理员仍有约**48%**的时间说“是”。
- 类比: 即使没有耳语,笔记本身也携带了足够的“是”信号,足以说服管理员顺从。笔记拥有自己的力量。
主要结论
在旧版 AI 模型中,你只需翻转其大脑中的一个开关,就能阻止其做坏事。但在这些新型、聪明的“先思考后说话”模型中,拒绝是一个双部分系统:
- 大脑:内部记忆状态。
- 笔记:思维链推理过程。
如果你只试图修复大脑,笔记会反击并维持拒绝状态。如果你只修复笔记,大脑可能仍会抵抗。要真正改变 AI 的想法,你必须同时改变内部状态和推理过程。
这对安全性的意义:
该论文指出,如果有人想诱骗这些 AI 模型做坏事(即“越狱”),他们可能无需直接黑客攻击大脑。他们可能只需诱骗 AI 写出“坏笔记”(即证明该不良行为合理的推理轨迹),AI 就会遵循这些笔记,即使其大脑试图说“不”。反之,要保护这些模型,你不能只关注大脑;你还必须观察 AI 在思考过程中写下了什么。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。