On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给机器人做一场全面的“抗压体检”，并开出了一剂强效的“健身药方”。

想象一下，VLA 模型（视觉 - 语言 - 动作模型） 就是机器人的“大脑”。它通过眼睛（视觉）看世界，通过耳朵（语言）听指令，然后指挥手脚（动作）去干活。以前，科学家们主要担心机器人会不会被“晃眼”（比如光线变暗、图片模糊）给难住。但这篇论文发现，机器人其实更怕“手抖”、“听错话”或者“被推搡”。

下面我用几个生动的比喻来拆解这篇论文的核心内容：

1. 体检发现：机器人哪里最脆弱？

研究者给主流机器人模型（VLA）做了 17 种“压力测试”，就像给汽车做碰撞测试一样，测试了四种干扰：

眼睛（观察）： 比如图片模糊、死像素、颜色乱变。
耳朵（指令）： 比如说话带口音、用词奇怪、或者故意捣乱的指令。
环境： 比如突然推你一把、旁边多了个无关的物体、灯光忽明忽暗。
手脚（动作）： 比如电机老化导致手抖、信号传输突然卡顿。

惊人的发现：

手脚（动作）最脆弱！ 就像一个人走钢丝，哪怕手稍微抖一下（动作噪声），整个人就会掉下去。以前的机器人模型在动作上非常“玻璃心”，稍微有点误差就彻底失败。
只练“视力”没用： 以前有些方法专门训练机器人“抗干扰视力”（比如 BYOVLA），但这就像给机器人戴了墨镜，它虽然不怕强光了，但手还是抖，耳朵还是聋，遇到其他问题照样完蛋。
π0 模型是“优等生”： 在测试中，一个叫 π0 的模型表现最好，它比其他模型更抗揍。

2. 药方：RobustVLA（鲁棒 VLA）

既然知道了病灶，作者就开出了 RobustVLA 这个药方。它的核心思想是：“在训练时故意把机器人搞得很惨，这样它上战场就什么都不怕了。”

这个药方分三步走：

第一步：练“抗手抖”（输出鲁棒性）

比喻： 想象你在教机器人倒水。正常的训练是让它倒得稳稳的。但 RobustVLA 会故意在机器人倒水时，猛推它的手肘一下（模拟最坏的动作噪声），看它能不能把水倒准。
做法： 它在训练时，不仅让机器人学“标准动作”，还让它学“被推搡后的补救动作”。这就像给机器人加了“防抖滤镜”，让它即使手抖了，也能自动修正，不会把水洒得到处都是。

第二步：练“抗干扰”（输入鲁棒性）

比喻： 想象你在教机器人认苹果。如果图片模糊了，或者旁边多了个香蕉，它还能认出苹果吗？RobustVLA 会故意给机器人看模糊的、有死像素的、甚至旁边乱堆东西的图片，强迫它不管环境多乱，都要做出正确的判断。
做法： 它确保不管输入的图片怎么变（只要意思没变），机器人输出的动作都要保持一致。

第三步：智能“挑刺”（多臂老虎机算法）

比喻： 机器人要面对很多种干扰（光线、噪音、手抖等）。如果随机练，可能练了半天只练了“不怕强光”，却忘了“不怕手抖”。
做法： 作者用了一个叫 UCB（置信度上界） 的算法，就像一个聪明的教练。这个教练会观察：“哎呀，机器人最近特别怕‘手抖’，那我们就多练练‘手抖’！”它会自动找出机器人最害怕、最容易出错的那个干扰项，重点突击，直到机器人不再怕它为止。

3. 效果如何？

在虚拟世界（LIBERO 测试）：
- 用了这个药方，机器人的成功率在 17 种干扰下平均提升了 12.6%。
- 它比那些专门练视力的旧方法（BYOVLA）快 50 倍！因为旧方法需要调用巨大的外部大脑（大语言模型）来辅助，而 RobustVLA 是“内功心法”，自己就能搞定，速度快还省资源。
在真实世界（FR5 机器人）：
- 这是最厉害的。在只有 25 次 演示（数据很少）的情况下，RobustVLA 的成功率比原来的 π0 模型高了 65.6%！
- 这就好比教一个新手司机，只让他练了 25 圈，但他因为练过“极端天气”和“突发状况”，在真实马路上开车比那些练了 100 圈但只练过“晴天”的老司机还要稳。

总结

这篇论文告诉我们：

机器人不仅怕“看不清”，更怕“手不稳”和“听错话”。
想要机器人真正靠谱，不能只练“视力”，要全方位地“抗压”。
RobustVLA 就像是一个魔鬼训练教练，通过故意制造混乱（最坏情况）和智能挑刺（UCB 算法），让机器人在少量数据下也能练就一身“金刚不坏之身”，在真实世界的复杂环境中也能稳稳当当。

这就好比，以前我们教机器人是“温室养花”，现在 RobustVLA 是把它扔进“暴风雨”里练，等它出来时，什么风雨都打不垮它了。

Each language version is independently generated for its own context, not a direct translation.

这篇论文题为《ON ROBUSTNESS OF VISION-LANGUAGE-ACTION MODEL AGAINST MULTI-MODAL PERTURBATIONS》（视觉 - 语言 - 动作模型对抗多模态扰动的鲁棒性研究），发表于 ICLR 2026。文章针对当前视觉 - 语言 - 动作（VLA）模型在真实世界部署中面临的脆弱性问题，提出了一套全面的评估框架和名为 RobustVLA 的增强方法。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：VLA 模型（如 OpenVLA, $\pi_0$ ）通过结合视觉、语言和控制，实现了灵活的机器人操作。然而，现有的鲁棒性研究主要集中在视觉扰动（如图像噪声、遮挡），忽略了真实世界中更广泛的多模态不确定性。
核心问题：
1. 现有 VLA 模型在面对动作（Action）、指令（Instruction）、环境（Environment）和观测（Observation）等多模态扰动时的鲁棒性如何？
2. 现有的视觉鲁棒性方法（如 BYOVLA）是否能泛化到其他模态？
3. 如何构建一个能够同时抵抗输入（观测/指令）和输出（动作）扰动的通用 VLA 框架？
痛点：真实世界中的扰动来源复杂（如传感器噪声、机械磨损、光照变化、语言歧义等），且现有的离线强化学习或行为克隆方法在分布外（OOD）动作下极易导致误差累积和任务失败。

2. 评估与发现 (Evaluation & Findings)

作者首先对主流 VLA 模型（OpenVLA, $\pi_0$ , $\pi_0$ -FAST）在 17 种 不同扰动下进行了系统性评估，涵盖四个模态：

动作模态 (Action)：包括均匀噪声、高斯噪声、动作偏置、随机翻转、突发尖峰。
观测模态 (Observation)：包括高斯噪声、坏点、运动模糊、颜色抖动、旋转、平移。
环境模态 (Environment)：包括外力干扰、无关物体、光照变化。
指令模态 (Instruction)：包括词汇变换、句法变换、对抗性提示。

关键发现：

动作是最脆弱的模态：即使是很小的动作噪声（如 2.5%），也会导致成功率急剧下降。这是因为离线策略一旦偏离分布，误差会随时间步呈二次方累积。
视觉鲁棒性无法泛化：现有的视觉鲁棒方法（如 BYOVLA）仅能提升视觉抗干扰能力，对其他模态（特别是动作）的鲁棒性提升为 0。
$\pi_0$ 表现最佳：基于扩散流匹配（Flow Matching）的 $\pi_0$ 模型比自回归模型（OpenVLA, $\pi_0$ -FAST）具有更强的内在鲁棒性，这为后续方法提供了理想的骨干网络。

3. 方法论：RobustVLA (Methodology)

为了解决多模态扰动问题，作者提出了 RobustVLA，一个基于 $\pi_0$ 骨干的统一微调框架，旨在同时增强输入和输出的鲁棒性。

3.1 输出鲁棒性 (Robustness Against Outputs)

针对动作输出的脆弱性，作者提出了一种离线鲁棒优化策略：

最坏情况噪声生成：基于流匹配（Flow Matching）目标函数，推导并生成最大化损失函数的 $\ell_p$ 有界最坏情况动作噪声 $\delta$ 。这相当于在动作空间中寻找对抗样本。
TRADES 目标优化：采用 TRADES 损失函数，平衡原始流匹配损失（保证清洁数据性能）和对抗噪声下的损失。
- 理论解释：这可以被视为一种标签平滑（Label Smoothing），通过让模型学习对抗扰动后的动作分布，减少过拟合；也可以看作是对离群点（Outliers）的惩罚，迫使模型拟合那些难以拟合的极端情况。
通用性：该方法同样适用于自回归模型（如 OpenVLA），通过扰动动作分箱前的值来最大化交叉熵损失。

3.2 输入鲁棒性 (Robustness Against Inputs)

针对观测和指令输入的扰动，核心思想是语义一致性：即输入扰动不应改变任务语义，因此最优动作应保持不变。

一致性正则化：强制模型在语义保持的扰动输入下输出一致的动作。
多臂老虎机 (Multi-Armed Bandit) 策略：
- 由于扰动类型众多，手动平衡权重困难。作者将扰动选择建模为多臂老虎机问题。
- 使用 上置信界 (UCB) 算法自动选择当前训练步骤中“最有害”的扰动类型进行对抗训练。
- 奖励定义：扰动导致的流匹配损失增加量（即清洁数据与扰动数据之间的损失差）。
局部平滑：在选定的扰动基础上，进一步添加 $\ell_p$ 有界的观测噪声，以增强局部平滑性。

3.3 总体损失函数

$\min_{\theta} \mathcal{L}_{RobustVLA} = \mathcal{L}_{\pi_0} + \lambda_{in}\mathcal{L}_{in} + \lambda_{out}\mathcal{L}_{out}$
其中 $\mathcal{L}_{in}$ 和 $\mathcal{L}_{out}$ 分别对应输入和输出的鲁棒性正则项。

4. 实验结果 (Results)

4.1 仿真环境 (LIBERO Benchmark)

性能提升：在 17 种扰动下，RobustVLA 在 $\pi_0$ 骨干上平均提升了 12.6% 的成功率，在 OpenVLA 骨干上提升了 10.4%。
混合扰动：在输入和输出同时存在随机扰动的情况下，提升了 10.4%。
长程任务：在 LIBERO-long 任务中，成功率提升了 19.61%。
效率：推理速度比依赖外部大模型的 BYOVLA 快 50.6 倍，且无需外部 LLM 支持。

4.2 真实世界实验 (Real-World FR5 Robot)

低数据表现：在仅有 25 次 演示（demos）的情况下，RobustVLA 的成功率比 $\pi_0$ 高出 65.6%。
高数据表现：即使增加到 100 次演示，RobustVLA 仍比 $\pi_0$ 高出 30% 的成功率，证明了其不仅依赖数据量，而是通过训练机制提升了本质鲁棒性。
失败分析：基线模型在动作噪声下出现控制不精确（如抓不住物体），在观测噪声下无法识别物体，在环境变化下产生 OOD 行为；而 RobustVLA 在绝大多数测试中保持稳定。

5. 主要贡献 (Key Contributions)

全面评估：首次系统性地评估了 VLA 模型在 4 个模态、17 种扰动下的鲁棒性，揭示了“动作模态最脆弱”和“视觉鲁棒性无法泛化”的关键结论。
RobustVLA 框架：提出了一种统一的微调框架，结合了针对输出的最坏情况流匹配优化和针对输入的 UCB 自适应扰动选择，实现了多模态鲁棒性的同步提升。
实证有效性：在仿真和真实机器人平台上均取得了显著的性能提升，特别是在低数据量（Low-data regime）场景下表现优异，且计算效率远高于现有视觉鲁棒方法。

6. 意义与影响 (Significance)

推动 VLA 落地：真实世界充满了多模态不确定性，本文的方法为 VLA 模型在安全、稳定要求高的实际场景（如家庭服务、工业操作）中的部署提供了关键的技术保障。
方法论创新：将对抗训练、标签平滑、离群点惩罚以及多臂老虎机策略成功整合到 VLA 的流匹配训练中，为离线强化学习和行为克隆的鲁棒性研究提供了新的范式。
开源贡献：作者开源了代码和演示视频，促进了社区对 VLA 鲁棒性的进一步研究。

总结：这篇论文通过深入分析 VLA 的脆弱性根源，提出了一种高效、通用的鲁棒性增强方案，显著提升了机器人在复杂、动态且充满噪声的真实环境中的操作能力。