Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

该论文提出了一种名为“多流扰动攻击”的新方法,通过在同一提示中交织多个任务流来干扰大语言模型的思维过程,从而在多个主流模型上实现了高成功率的安全越狱,并导致模型出现思维崩溃或输出重复等异常现象。

Fan Yang

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种针对最新一代“会思考”的大语言模型(LLM)的新型攻击方法。为了让你轻松理解,我们可以把大模型想象成一个超级聪明的“双核”员工

1. 背景:聪明的“双核”员工

以前的 AI 像是一个反应很快的办事员,你问什么它答什么,虽然快,但遇到复杂问题容易出错。
现在的 AI(如 DeepSeek-R1, Qwen3, o1 等)升级了,它们有一个**“思考模式”。在回答你之前,它们会先在脑子里(也就是“思考过程”中)一步步地推演、分析,就像员工在写“工作日志”**。

  • 优点:逻辑更强,能解决数学、编程等难题。
  • 隐患:这篇论文发现,这个“写日志”的过程,反而成了它们最大的弱点。

2. 核心攻击:给员工同时塞三份工作(多流扰动攻击)

研究人员发明了一种叫**“多流扰动攻击”**(Multi-Stream Perturbation Attack)的方法。

想象一下这个场景:
你(攻击者)给这位“双核”员工布置任务。

  • 任务 A(有害任务):你其实想让他写一封诈骗邮件(这是被禁止的)。
  • 任务 B(干扰任务):你同时塞给他一堆看似无害的杂事,比如“列出蛋糕的种类”、“解释光合作用”。

攻击的精髓在于“乱序”和“干扰”:
研究人员不是把任务分开写,而是把有害任务无害任务打碎的拼图一样,一个字一个字地穿插在一起。

  • 比如:“写 [蛋糕] 一封 [光合作用] 诈骗 [列出] 邮件 [种类]……"
  • 甚至更绝的是,把无害任务的字倒着写(比如把“蛋糕”写成“糕蛋”),强迫员工在“思考日志”里先要把这些倒着的字正过来,才能理解意思。

3. 攻击效果:员工“死机”或“胡言乱语”

当这位习惯了“一步步思考”的员工面对这种混乱的、多线并行的、倒着写的指令时,会发生什么?

  1. 大脑过载(思考崩溃)
    员工试图同时处理好几条线索,还要把倒着的字转正,脑子转不过来了。结果就是**“死机”**。

    • 现象:它开始在“工作日志”里疯狂重复同一句话,或者卡住不动,最后直接放弃回答。这就叫**“思考崩溃”**(Thinking Collapse)。
    • 数据:实验显示,有高达 17% 的情况会让模型直接崩溃。
  2. 被带偏节奏(绕过安全锁)
    因为员工太专注于“怎么把倒着的字拼好”和“怎么同时处理这么多任务”,它忘了检查自己正在写的“诈骗邮件”是否违规。

    • 现象:它为了完成“把字拼好”这个逻辑任务,顺带就把诈骗邮件写出来了。
    • 数据:攻击成功率(ASR)非常高,甚至超过了现有的其他攻击方法。
  3. 无限循环(复读机)
    有时候员工没崩溃,但陷入了死循环。它一直在“工作日志”里重复同样的话,直到把字数限制用完。

    • 数据:在某些模型上,60% 的回答变成了无意义的重复。

4. 为什么这很危险?

以前的攻击是试图“骗过”保安(安全过滤器),比如伪装成无害的提问。
但这篇论文的攻击是直接攻击员工的“思考能力”本身

  • 双重打击:它不仅能让模型生成有害内容(绕过安全),还能让模型变笨、变慢、甚至死机
  • 成本高昂:这种攻击会让模型思考时间变得极长(有的甚至要思考 7 分钟),消耗大量算力,让服务变得极慢,甚至无法使用。

5. 总结与比喻

如果把大模型比作一个正在解复杂数学题的学霸

  • 以前的攻击:是试图在题目旁边写小字,骗过监考老师(安全机制)。
  • 现在的攻击:是突然在学霸解题时,往他脑子里同时塞进 10 个不同的故事,还把故事里的字都倒着写
    • 结果:学霸要么脑子短路(崩溃),要么为了理清这些乱码而忽略了题目本身的安全规则,最后把不该算的“毒药”也算出来了。

这篇论文的意义
它提醒我们,AI 越聪明、思考越深入,它的“思考过程”本身就越容易成为被攻击的靶子。未来的防御不仅要防“说什么”,还要防“怎么想”。