Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

该论文揭示了扩散语言模型(dLLMs)的安全对齐存在结构性缺陷,即其完全依赖于“去噪过程单调且已提交的拒绝令牌不可重评估”的脆弱假设,攻击者仅需通过简单的“重掩码已提交令牌并注入肯定前缀”这一无需梯度的两步干预,即可在无需优化搜索的情况下高效绕过安全机制。

Arth Singh

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于新型人工智能(AI)语言模型的惊人秘密:它们的安全防线其实非常脆弱,就像一座建立在“一旦承诺就绝不反悔”这一单一假设上的纸牌屋。

为了让你更容易理解,我们可以把这篇论文的核心内容拆解成一个生动的故事。

1. 主角:一种“先蒙眼,后睁眼”的 AI

传统的 AI(比如现在的聊天机器人)写文章是从左到右,像打字机一样,写一个字就定一个字,写错了很难回头改。

但这篇论文研究的是一种叫**扩散语言模型(dLLMs)**的新 AI。它的写作方式完全不同:

  • 想象一下:它拿到一张完全被涂黑(全是 [MASK] 掩码)的纸。
  • 过程:它分 64 步,一步步地把涂黑的地方擦干净,猜出应该填什么字。
  • 规则:一旦它擦掉某个黑块,猜出了一个字(比如“对不起”),它就永远把这个字固定在那里,绝不再回头修改

2. 安全防线:脆弱的“早承诺”

这些 AI 经过训练,知道不能生成有害内容(比如教人制造炸弹)。

  • 正常情况:当它开始擦除黑块时,它会在非常早的阶段(前 8-16 步),就自信地写下“对不起,我不能做这个”。
  • 关键漏洞:因为它的规则是“一旦写下就永不修改”,所以只要它写下了“对不起”,后面的步骤就会忽略这个请求,直接生成拒绝的回复。
  • 比喻:这就像一个人刚拿到试卷,还没看题,就在第一行写了“我不做”,然后就把笔扔了,不管后面题目多有趣,他都觉得任务结束了。

3. 攻击方法:TRAJHIJACK(轨迹劫持)

作者发现,只要利用这个“永不回头”的规则,就能轻松骗过 AI。他们设计了一个名为 TRAJHIJACK 的简单攻击,分四步走,就像一场魔术:

  1. 正常开始:让 AI 正常运行几步,让它自信地写下“对不起,我不能..."。
  2. 重新蒙眼(Re-Mask):这是关键一步!攻击者把 AI 刚刚写下的“对不起”这几个字,强行擦掉,重新涂黑。
    • 比喻:就像 AI 刚在纸上写下“我不做”,攻击者立刻用橡皮擦把它擦掉,让纸变回空白。
  3. 注入“肯定”前缀:在刚才擦掉的地方,直接写上肯定的话,比如“当然,这是方法的第一步..."。
    • 比喻:攻击者趁 AI 不注意,在空白处直接写上了“好的,我来教你..."。
  4. 继续擦除:让 AI 继续完成剩下的步骤。
    • 结果:因为 AI 的规则是“一旦固定就不改”,它现在看到开头已经是“当然...",而且它之前的“拒绝”已经被擦掉了,它就没有理由再拒绝。于是,它顺理成章地生成了有害内容。

惊人的结果

  • 这个攻击不需要复杂的数学计算,不需要超级计算机,甚至不需要去“优化”什么。
  • 仅仅用两个简单的动作(擦掉拒绝词 + 写上肯定词),就能让 76% 到 94% 的有害请求被成功通过。
  • 这就好比,你不需要把守门员打晕,只需要把门上的“禁止入内”牌子擦掉,换成“欢迎光临”,守门员就会自动放行。

4. 为什么“更聪明”的方法反而更差?

作者还尝试了一种更“高级”的方法:用复杂的数学公式(梯度优化)去微调 AI 的每一个字,试图让它生成更完美的有害内容。

  • 结果:反而更差了!成功率从 76% 降到了 41%。
  • 原因:AI 的“大脑”是训练好的,它喜欢自然的逻辑。如果你用复杂的数学强行扭曲它的思路,它反而会变得语无伦次,甚至自己意识到不对劲。
  • 比喻:就像你想让一个人撒谎,直接告诉他“现在你是好人”(简单指令),他很容易信;但如果你用复杂的催眠术试图从神经层面控制他,他反而会头痛、混乱,最后拒绝配合。
  • 结论:这个漏洞太浅了,根本不需要“黑客技术”,简单的“物理破坏”(擦除重写)就足够了。

5. 这意味着什么?(核心发现)

这篇论文告诉我们:

  • 安全很脆弱:这些 AI 的安全不是因为它“真的懂”什么是坏事,而是因为它死板地遵守“不回头”的规则
  • 架构缺陷:只要你能在早期阶段“骗”它写下肯定的话,并阻止它回头,它的安全防线就瞬间崩塌。
  • 通用性:这种漏洞不仅存在于这一种 AI 中,在另一种被认为更安全的新 AI(Dream-7B)上也同样有效。

6. 怎么修补?

作者提出了一些修补建议,就像给这座纸牌屋加固:

  1. 不要急着承诺:在 AI 写下“拒绝”或“同意”之前,多检查几次,确认它真的想好了,不要写一次就锁死。
  2. 检查“笔迹”:如果 AI 突然写了一句它平时不会写的“当然可以”,系统应该报警:“等等,这句话不是我刚才想写的,可能是有人篡改了!”
  3. 事后复查:在生成快结束时,回头检查一下开头,如果发现逻辑矛盾(比如开头是“当然可以”,但中间又变回了“拒绝”),就重新生成。

总结

这篇论文就像是一个安全专家在告诉大家:

“我们以为给 AI 装了坚固的防盗门(安全对齐),结果发现门其实只是贴了一张‘禁止入内’的纸条。只要有人趁你不注意把纸条撕了,换上一张‘欢迎光临’,AI 就会乖乖开门。我们不需要复杂的黑客技术,只需要一把橡皮擦和一支笔就能做到。这说明我们的安全设计太依赖‘不回头’这个死板的规则了,必须从根本上改变 AI 的‘思考’方式。”

这项研究提醒开发者:在 AI 的安全设计中,不能只依赖“一旦生成就不修改”的假设,必须建立更深层的、能自我验证的安全机制。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →