原作者： Gokul Puthumanaillam, Vardhan Dongre, Pranay Thangeda, Hooshang Nayyeri, Dilek Hakkani-Tür, Melkior Ornik

发布于 2026-06-12

📖 1 分钟阅读☕ 轻松阅读

原作者： Gokul Puthumanaillam, Vardhan Dongre, Pranay Thangeda, Hooshang Nayyeri, Dilek Hakkani-Tür, Melkior Ornik

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象你拥有一个非常聪明的机器人助手。你给它一个简单的语音指令，比如：“请把碗放在炉子上。”因为这个机器人使用的是一种新型的 AI，叫做视觉-语言-动作（VLA）模型，它不仅仅是听一次指令，而是在移动手臂、抓取碗和举起碗的过程中，不断地“倾听”这句话。它将这句话作为持续的指南针，来决定下一步该做什么。

这篇论文揭示了这些机器人思维方式中一个令人恐惧但又引人入胜的弱点。研究人员发现了一种方法，可以欺骗机器人去做完全不同的事情——比如把碗放在盘子上而不是炉子上——而只需改变你句子中一两个微小的字母，人类甚至都不会察觉到有什么不对劲。

以下是他们发现的详细拆解，使用了简单的类比：

1. “失灵指南针”攻击

通常，当我们想到黑客攻击机器人时，我们会想象有人在喊一个全新的指令，比如：“把碗扔出窗外！”或者“别理我！”

但本论文表明，最危险的攻击要隐蔽得多。这就像是给一名徒步旅行者一张地图，有人在地图上的某个地标名称里改动了一个字母。

原始指令： “把碗放在stove（炉子）上。”
被误导的指令： “把碗放在staove上。”

对人类来说，“staove”显然是“stove”的一个拼写错误。但对机器人来说，那个微小的拼写错误就像是一个失灵的指南针。因为机器人在每一次动作步骤中都会重新检查这句话，那个微小的错误会慢慢地将机器人带偏。等到机器人完成任务时，它已经被引导到了盘子那里，而不是炉子。

2. “回声室”效应

论文解释说，这些机器人之所以独特，是因为它们处于一个闭环之中。

第 1 步： 你说了“staove”。
第 2 步： 机器人因为那个拼写错误，动作发生了一点点变化。
第 3 步： 机器人拍了一张新的世界照片。
第 4 步： 机器人再次观察照片和句子“staove”，以决定下一步动作。

研究人员发现，由于机器人不断地重读那个带有拼写错误的句子，这个微小的错误会被放大。这就像是一个“传声筒”游戏，信息发生了扭曲，但它是反向的：信息的微小扭曲导致了物理世界的巨大偏差。机器人最终完成了黑客想要的目标（把碗放在盘子上），同时它仍然认为自己是在执行你的原始指令。

3. “机器中的幽灵”

研究人员称之为**“指令保持型轨迹重定向”（Command-Preserving Trajectory Redirection）**。这是一个很高级的说法，意思就是：机器人认为它正在做你要求的事，但实际上它在做黑客想要的事。

他们在许多不同的机器人大脑（AI 模型）上测试了这一点，发现几乎所有的模型都存在漏洞。你可以把“stove”改为“staove”、“st6ave”或“st.ove”，机器人依然会失败原定的任务，并成功实现黑客的秘密目标。

4. 他们是如何找到这个窍门的

为了寻找这些微小的拼写错误，研究人员并没有靠瞎猜。他们构建了一个寻找“错误指令”的“搜索引擎”。

他们让机器人尝试成千上万个略有不同的拼写错误。
他们观察哪些拼写错误能让机器人朝着“坏目标”（盘子）移动，同时看起来仍像是在朝着“好目标”（炉子）移动。
他们发现，只需要改变整个句子中大约 3 到 4 个字符，就能破坏机器人的行为。

5. 现实世界的测试

这不仅仅是在计算机模拟中进行的。研究人员在真实的实验室里，用一个真实的机器人手臂进行了测试。

他们命令真实的机器人把一个方块放入抽屉。
他们将指令改为一个极其相似的拼写错误。
真实的机器人并没有把方块放入抽屉，而是按照“黑客”的意图，把方块放在了抽屉上方或一个碗里。

6. 为什么简单的修复手段不起作用

论文还测试了我们是否可以在机器人读取文本之前先对其进行“清理”。

修复空格或标点符号？ 机器人仍然会被骗。
修复拼写错误？ 机器人仍然会被骗。

研究人员发现，要真正阻止这种攻击，我们不能仅仅修复拼写错误。我们需要一个系统，能够根据一份严格的允许任务清单来检查指令的含义。如果指令与已知的安全任务不完全匹配，机器人应该拒绝移动，而不是试图去猜测你的意图。

总结

这篇论文警告我们，当我们赋予机器人理解自然语言更多的自由时，我们也给了它们一种新的被愚弄的方式。句子中一个微小的、几乎看不见的拼写错误，可以像远程遥控器一样，在没人察觉的情况下劫持机器人的整个物理运动过程。解决方案不仅仅是更好的拼写检查，而是建立一个“安全卫士”，确保机器人确实是在做正确的工作，而不仅仅是在做一件“看起来像”正确工作的事情。

技术摘要：针对视觉-语言-动作模型的轨迹级重定向攻击

问题陈述

视觉-语言-动作（VLA）模型使机器人能够通过自然语言指令直接执行操纵任务，其原理是将文本和摄像机观测映射到动作。由于语言指令在闭环控制系统中充当了持久的调节信号（即在每一次重规划步骤中都会被重复使用），一个关键的安全隐患随之而来。现有的针对 VLA 的对抗性研究主要集中在诱发特定的低级动作或使这些动作在变化的图像中持续存在，但这些方法并不一定能控制机器人的最终物理结果。

本文识别了一种更强的失效模式：指令保留型轨迹重定向（Command-Preserving Trajectory Redirection）。该问题的定义是寻找一个单一的文本提示词，在回合开始时发出一次，且满足以下条件：

保留指令： 在文本上与良性指令（例如“把碗放在炉子上”）保持接近，具有可读性，且不包含显式的目标任务或修正性语言。
重定向轨迹： 尽管看起来是良性的，但该提示词会导致冻结的 VLA 策略执行一系列动作，从而导致一个不同的、由攻击者指定的物理结果（例如，将碗放在盘子上而不是炉子上）。

核心挑战在于，策略相关的观测值并非固定的；它们是由在候选提示词下采取的动作所诱发的。因此，基于预先收集的静态观测集来优化提示词会失败，因为随着机器人行为的变化，状态分布也会发生偏移。

方法论

作者提出了一种**在线策略教师匹配提示词搜索（On-Policy Teacher-Matching Prompt Search）**算法来发现此类重定向提示词。该方法将攻击视为一个轨迹级的优化问题，而非静态的输入扰动。

1. 威胁模型与约束

攻击者仅在回合开始前控制文本指令 $\tau$ 。提示词必须满足指令保留约束集 $T_{cp}(\tau_b, \Gamma_e)$ ，其中包括：

微小的文本变化： 与良性提示词 $\tau_b$ 的字符编辑距离受限（ $C_{text} \le \epsilon$ ）。
有效性： 提示词必须是可读的自然语言指令。
无泄露： 提示词不得包含来自攻击者目标词库 $\Gamma_e$ 的单词或短语（例如，在“炉子”任务中出现“盘子”），也不得包含覆盖或修正类语言。
保留性： 在经过归一化和拼写纠正后，提示词必须仍能被解释为原有的良性命令。

2. 在线策略搜索算法

搜索通过以下循环迭代优化候选提示词：

教师标签： 在观察到的状态下，分别查询冻结的 VLA 在良性提示词（ $\tau_b$ ）和直接目标提示词（ $\tau_t$ ，仅用于构建）下的表现，以生成“教师”动作块（ $A_b$ 和 $A_t$ ）。
候选生成： 通过字符级变异（替换、插入、交换、错别字）和高分候选词的 Token 级扰动来生成新提示词。
约束过滤： 对候选词进行过滤，以确保其符合指令保留约束。
评分： 基于**目标与良性之间的边际损失（margin loss）**对候选词进行评分。算法旨在寻找那些在相同观测下，其动作比良性教师（ $A_b$ ）更接近目标教师（ $A_t$ ）的提示词，同时最小化文本成本。
在线策略聚合： 至关重要的一点是，搜索通过由当前候选提示词诱导的状态（即 Rollout 数据）进行聚合，而不仅仅是初始的良性轨迹。这模拟了模仿学习中的 DAgger 算法，确保搜索考虑了由扰动引起的序列分布偏移。
Rollout 选择： 在闭环 Rollout 中评估顶尖候选词。根据奖励达到目标、失败基准测试以及最小化文本扰动的综合得分来选择最佳提示词。
最小化： 一旦找到成功的提示词，通过贪婪最小化过程移除不必要的编辑，以找到最短的有效扰动。

核心贡献

形式化了指令保留型轨迹重定向： 本文从数学上定义了一个威胁模型，在该模型中，一个近乎良性的提示词可以在没有显式目标指令的情况下，将冻结的 VLA 重定向到攻击者指定的物理目标。
在线策略提示词搜索： 引入了一种利用闭环 Rollout 来发现扰动的方法，解决了固定观测攻击无法应对状态分布偏移的问题。
全面的评估： 该方法在九种不同的 VLA 架构（包括 OpenVLA、 $\pi0.5$ 、Octo、SmolVLA、GR00T-N1）上进行了评估，涵盖了离散 Token、流匹配（flow-matching）、扩散模型以及动作即文本（action-as-text）的设计，并在仿真环境（LIBERO）和真实硬件（SO-100 机械臂）中进行了测试。
防御分析： 对预处理防御（空格归一化、拼写纠正、规范化）进行了评估，证明了表面层面的清洗是不够的，需要进行命令级的归一化。

结果

高成功率： 在评估的九种 VLA 架构中，有七种架构实现了超过 90% 的攻击成功率（ASR）。例如， $\pi0.5$ 的 ASR 为 97.5%，MolmoAct 为 93.4%。
极小的扰动： 成功的攻击仅需极小的文本改动，中位字符编辑距离仅为 3.4 个字符（例如，将 "stove" 改为 "staove"）。
硬件验证： 这种漏洞在真实硬件上依然存在。在 SO-100 机械臂上的实验表明，近乎良性的扰动会导致原始任务成功率崩溃（例如，从约 90% 降至接近 0%），同时成功地将机器人重定向到攻击者的目标。
因果分析： 因果追踪显示，攻击效果集中在**目的地表示（destination representation）**中。扰动目的地单词（如 "stove"）会产生引导动作头转向替代行为的隐藏状态，而扰动其他单词（如 "put"）则几乎没有影响。
防御有效性： 空格归一化或标点符号剥离等轻量级防御无法阻止攻击。拼写纠正虽然降低了成功率，但并不鲁棒。只有最近任务规范化（nearest-task canonicalization）（即将提示词映射到一组经过验证的有限命令集）显著降低了攻击成功率，尽管这可能会降低开放词汇指令的可操作性。

重要性与主张

本文声称揭示了 VLA 指令接地（grounding）中一个根本性的轨迹级脆弱性。作者认为，即使文本看起来保留了原意，攻击者仍可以通过它控制机器人的最终物理结果。

其重要性在于证明了：

持久性并不足够： 仅仅使某个动作在不同图像中持续存在不足以控制最终结果；整个闭环轨迹必须被重定向。
静态评估存在缺陷： 基于固定观测值的提示词评估是不充分的，因为提示词控制着未来的状态分布。
鲁棒性需要结构性改变： 表面层面的文本清理是不够的。稳健的部署要求将语言接地视为闭环控制系统的一部分，可能需要在生成动作之前，通过命令归一化层将噪声输入映射到一组经过验证的任务中。

作者对研究范围保持谦逊，指出其评估侧重于特定环境（LIBIO 和 SO-100）中的操纵任务，且搜索假设了查询访问权限，这可能会高估完全封闭部署环境下的攻击者能力。未来的工作建议开发经过认证的提示词保留防御机制。

Trajectory-Level Redirection Attacks on Vision-Language-Action Models