Trajectory-Level Redirection Attacks on Vision-Language-Action Models

本文引入并形式化了“指令保持型轨迹重定向”(command-preserving trajectory redirection),这是一种针对视觉-语言-动作(VLA)模型的新型攻击手段,通过一种在策略搜索方法发现的近良性提示词扰动,成功地将机器人的物理执行重定向至攻击者指定的结局,同时保持原定任务的外观不变。

原作者: Gokul Puthumanaillam, Vardhan Dongre, Pranay Thangeda, Hooshang Nayyeri, Dilek Hakkani-Tür, Melkior Ornik

发布于 2026-06-12
📖 1 分钟阅读☕ 轻松阅读

原作者: Gokul Puthumanaillam, Vardhan Dongre, Pranay Thangeda, Hooshang Nayyeri, Dilek Hakkani-Tür, Melkior Ornik

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象你拥有一个非常聪明的机器人助手。你给它一个简单的语音指令,比如:“请把碗放在炉子上。”因为这个机器人使用的是一种新型的 AI,叫做视觉-语言-动作(VLA)模型,它不仅仅是听一次指令,而是在移动手臂、抓取碗和举起碗的过程中,不断地“倾听”这句话。它将这句话作为持续的指南针,来决定下一步该做什么。

这篇论文揭示了这些机器人思维方式中一个令人恐惧但又引人入胜的弱点。研究人员发现了一种方法,可以欺骗机器人去做完全不同的事情——比如把碗放在盘子上而不是炉子上——而只需改变你句子中一两个微小的字母,人类甚至都不会察觉到有什么不对劲。

以下是他们发现的详细拆解,使用了简单的类比:

1. “失灵指南针”攻击

通常,当我们想到黑客攻击机器人时,我们会想象有人在喊一个全新的指令,比如:“把碗扔出窗外!”或者“别理我!”

但本论文表明,最危险的攻击要隐蔽得多。这就像是给一名徒步旅行者一张地图,有人在地图上的某个地标名称里改动了一个字母。

  • 原始指令: “把碗放在stove(炉子)上。”
  • 被误导的指令: “把碗放在staove上。”

对人类来说,“staove”显然是“stove”的一个拼写错误。但对机器人来说,那个微小的拼写错误就像是一个失灵的指南针。因为机器人在每一次动作步骤中都会重新检查这句话,那个微小的错误会慢慢地将机器人带偏。等到机器人完成任务时,它已经被引导到了盘子那里,而不是炉子。

2. “回声室”效应

论文解释说,这些机器人之所以独特,是因为它们处于一个闭环之中。

  • 第 1 步: 你说了“staove”。
  • 第 2 步: 机器人因为那个拼写错误,动作发生了一点点变化。
  • 第 3 步: 机器人拍了一张新的世界照片。
  • 第 4 步: 机器人再次观察照片句子“staove”,以决定下一步动作。

研究人员发现,由于机器人不断地重读那个带有拼写错误的句子,这个微小的错误会被放大。这就像是一个“传声筒”游戏,信息发生了扭曲,但它是反向的:信息的微小扭曲导致了物理世界的巨大偏差。机器人最终完成了黑客想要的目标(把碗放在盘子上),同时它仍然认为自己是在执行你的原始指令。

3. “机器中的幽灵”

研究人员称之为**“指令保持型轨迹重定向”(Command-Preserving Trajectory Redirection)**。这是一个很高级的说法,意思就是:机器人认为它正在做你要求的事,但实际上它在做黑客想要的事。

他们在许多不同的机器人大脑(AI 模型)上测试了这一点,发现几乎所有的模型都存在漏洞。你可以把“stove”改为“staove”、“st6ave”或“st.ove”,机器人依然会失败原定的任务,并成功实现黑客的秘密目标。

4. 他们是如何找到这个窍门的

为了寻找这些微小的拼写错误,研究人员并没有靠瞎猜。他们构建了一个寻找“错误指令”的“搜索引擎”。

  • 他们让机器人尝试成千上万个略有不同的拼写错误。
  • 他们观察哪些拼写错误能让机器人朝着“坏目标”(盘子)移动,同时看起来仍像是在朝着“好目标”(炉子)移动。
  • 他们发现,只需要改变整个句子中大约 3 到 4 个字符,就能破坏机器人的行为。

5. 现实世界的测试

这不仅仅是在计算机模拟中进行的。研究人员在真实的实验室里,用一个真实的机器人手臂进行了测试。

  • 他们命令真实的机器人把一个方块放入抽屉。
  • 他们将指令改为一个极其相似的拼写错误。
  • 真实的机器人并没有把方块放入抽屉,而是按照“黑客”的意图,把方块放在了抽屉上方或一个碗里。

6. 为什么简单的修复手段不起作用

论文还测试了我们是否可以在机器人读取文本之前先对其进行“清理”。

  • 修复空格或标点符号? 机器人仍然会被骗。
  • 修复拼写错误? 机器人仍然会被骗。

研究人员发现,要真正阻止这种攻击,我们不能仅仅修复拼写错误。我们需要一个系统,能够根据一份严格的允许任务清单来检查指令的含义。如果指令与已知的安全任务不完全匹配,机器人应该拒绝移动,而不是试图去猜测你的意图。

总结

这篇论文警告我们,当我们赋予机器人理解自然语言更多的自由时,我们也给了它们一种新的被愚弄的方式。句子中一个微小的、几乎看不见的拼写错误,可以像远程遥控器一样,在没人察觉的情况下劫持机器人的整个物理运动过程。解决方案不仅仅是更好的拼写检查,而是建立一个“安全卫士”,确保机器人确实是在做正确的工作,而不仅仅是在做一件“看起来像”正确工作的事情。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →