Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是在给机器人做一场全面的“抗压体检”,并开出了一剂强效的“健身药方”。
想象一下,VLA 模型(视觉 - 语言 - 动作模型) 就是机器人的“大脑”。它通过眼睛(视觉)看世界,通过耳朵(语言)听指令,然后指挥手脚(动作)去干活。以前,科学家们主要担心机器人会不会被“晃眼”(比如光线变暗、图片模糊)给难住。但这篇论文发现,机器人其实更怕“手抖”、“听错话”或者“被推搡”。
下面我用几个生动的比喻来拆解这篇论文的核心内容:
1. 体检发现:机器人哪里最脆弱?
研究者给主流机器人模型(VLA)做了 17 种“压力测试”,就像给汽车做碰撞测试一样,测试了四种干扰:
- 眼睛(观察): 比如图片模糊、死像素、颜色乱变。
- 耳朵(指令): 比如说话带口音、用词奇怪、或者故意捣乱的指令。
- 环境: 比如突然推你一把、旁边多了个无关的物体、灯光忽明忽暗。
- 手脚(动作): 比如电机老化导致手抖、信号传输突然卡顿。
惊人的发现:
- 手脚(动作)最脆弱! 就像一个人走钢丝,哪怕手稍微抖一下(动作噪声),整个人就会掉下去。以前的机器人模型在动作上非常“玻璃心”,稍微有点误差就彻底失败。
- 只练“视力”没用: 以前有些方法专门训练机器人“抗干扰视力”(比如 BYOVLA),但这就像给机器人戴了墨镜,它虽然不怕强光了,但手还是抖,耳朵还是聋,遇到其他问题照样完蛋。
- π0 模型是“优等生”: 在测试中,一个叫 π0 的模型表现最好,它比其他模型更抗揍。
2. 药方:RobustVLA(鲁棒 VLA)
既然知道了病灶,作者就开出了 RobustVLA 这个药方。它的核心思想是:“在训练时故意把机器人搞得很惨,这样它上战场就什么都不怕了。”
这个药方分三步走:
第一步:练“抗手抖”(输出鲁棒性)
- 比喻: 想象你在教机器人倒水。正常的训练是让它倒得稳稳的。但 RobustVLA 会故意在机器人倒水时,猛推它的手肘一下(模拟最坏的动作噪声),看它能不能把水倒准。
- 做法: 它在训练时,不仅让机器人学“标准动作”,还让它学“被推搡后的补救动作”。这就像给机器人加了“防抖滤镜”,让它即使手抖了,也能自动修正,不会把水洒得到处都是。
第二步:练“抗干扰”(输入鲁棒性)
- 比喻: 想象你在教机器人认苹果。如果图片模糊了,或者旁边多了个香蕉,它还能认出苹果吗?RobustVLA 会故意给机器人看模糊的、有死像素的、甚至旁边乱堆东西的图片,强迫它不管环境多乱,都要做出正确的判断。
- 做法: 它确保不管输入的图片怎么变(只要意思没变),机器人输出的动作都要保持一致。
第三步:智能“挑刺”(多臂老虎机算法)
- 比喻: 机器人要面对很多种干扰(光线、噪音、手抖等)。如果随机练,可能练了半天只练了“不怕强光”,却忘了“不怕手抖”。
- 做法: 作者用了一个叫 UCB(置信度上界) 的算法,就像一个聪明的教练。这个教练会观察:“哎呀,机器人最近特别怕‘手抖’,那我们就多练练‘手抖’!”它会自动找出机器人最害怕、最容易出错的那个干扰项,重点突击,直到机器人不再怕它为止。
3. 效果如何?
- 在虚拟世界(LIBERO 测试):
- 用了这个药方,机器人的成功率在 17 种干扰下平均提升了 12.6%。
- 它比那些专门练视力的旧方法(BYOVLA)快 50 倍!因为旧方法需要调用巨大的外部大脑(大语言模型)来辅助,而 RobustVLA 是“内功心法”,自己就能搞定,速度快还省资源。
- 在真实世界(FR5 机器人):
- 这是最厉害的。在只有 25 次 演示(数据很少)的情况下,RobustVLA 的成功率比原来的 π0 模型高了 65.6%!
- 这就好比教一个新手司机,只让他练了 25 圈,但他因为练过“极端天气”和“突发状况”,在真实马路上开车比那些练了 100 圈但只练过“晴天”的老司机还要稳。
总结
这篇论文告诉我们:
- 机器人不仅怕“看不清”,更怕“手不稳”和“听错话”。
- 想要机器人真正靠谱,不能只练“视力”,要全方位地“抗压”。
- RobustVLA 就像是一个魔鬼训练教练,通过故意制造混乱(最坏情况)和智能挑刺(UCB 算法),让机器人在少量数据下也能练就一身“金刚不坏之身”,在真实世界的复杂环境中也能稳稳当当。
这就好比,以前我们教机器人是“温室养花”,现在 RobustVLA 是把它扔进“暴风雨”里练,等它出来时,什么风雨都打不垮它了。
Each language version is independently generated for its own context, not a direct translation.
这篇论文题为《ON ROBUSTNESS OF VISION-LANGUAGE-ACTION MODEL AGAINST MULTI-MODAL PERTURBATIONS》(视觉 - 语言 - 动作模型对抗多模态扰动的鲁棒性研究),发表于 ICLR 2026。文章针对当前视觉 - 语言 - 动作(VLA)模型在真实世界部署中面临的脆弱性问题,提出了一套全面的评估框架和名为 RobustVLA 的增强方法。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- 背景:VLA 模型(如 OpenVLA, π0)通过结合视觉、语言和控制,实现了灵活的机器人操作。然而,现有的鲁棒性研究主要集中在视觉扰动(如图像噪声、遮挡),忽略了真实世界中更广泛的多模态不确定性。
- 核心问题:
- 现有 VLA 模型在面对动作(Action)、指令(Instruction)、环境(Environment)和观测(Observation)等多模态扰动时的鲁棒性如何?
- 现有的视觉鲁棒性方法(如 BYOVLA)是否能泛化到其他模态?
- 如何构建一个能够同时抵抗输入(观测/指令)和输出(动作)扰动的通用 VLA 框架?
- 痛点:真实世界中的扰动来源复杂(如传感器噪声、机械磨损、光照变化、语言歧义等),且现有的离线强化学习或行为克隆方法在分布外(OOD)动作下极易导致误差累积和任务失败。
2. 评估与发现 (Evaluation & Findings)
作者首先对主流 VLA 模型(OpenVLA, π0, π0-FAST)在 17 种 不同扰动下进行了系统性评估,涵盖四个模态:
- 动作模态 (Action):包括均匀噪声、高斯噪声、动作偏置、随机翻转、突发尖峰。
- 观测模态 (Observation):包括高斯噪声、坏点、运动模糊、颜色抖动、旋转、平移。
- 环境模态 (Environment):包括外力干扰、无关物体、光照变化。
- 指令模态 (Instruction):包括词汇变换、句法变换、对抗性提示。
关键发现:
- 动作是最脆弱的模态:即使是很小的动作噪声(如 2.5%),也会导致成功率急剧下降。这是因为离线策略一旦偏离分布,误差会随时间步呈二次方累积。
- 视觉鲁棒性无法泛化:现有的视觉鲁棒方法(如 BYOVLA)仅能提升视觉抗干扰能力,对其他模态(特别是动作)的鲁棒性提升为 0。
- π0 表现最佳:基于扩散流匹配(Flow Matching)的 π0 模型比自回归模型(OpenVLA, π0-FAST)具有更强的内在鲁棒性,这为后续方法提供了理想的骨干网络。
3. 方法论:RobustVLA (Methodology)
为了解决多模态扰动问题,作者提出了 RobustVLA,一个基于 π0 骨干的统一微调框架,旨在同时增强输入和输出的鲁棒性。
3.1 输出鲁棒性 (Robustness Against Outputs)
针对动作输出的脆弱性,作者提出了一种离线鲁棒优化策略:
- 最坏情况噪声生成:基于流匹配(Flow Matching)目标函数,推导并生成最大化损失函数的 ℓp 有界最坏情况动作噪声 δ。这相当于在动作空间中寻找对抗样本。
- TRADES 目标优化:采用 TRADES 损失函数,平衡原始流匹配损失(保证清洁数据性能)和对抗噪声下的损失。
- 理论解释:这可以被视为一种标签平滑(Label Smoothing),通过让模型学习对抗扰动后的动作分布,减少过拟合;也可以看作是对离群点(Outliers)的惩罚,迫使模型拟合那些难以拟合的极端情况。
- 通用性:该方法同样适用于自回归模型(如 OpenVLA),通过扰动动作分箱前的值来最大化交叉熵损失。
3.2 输入鲁棒性 (Robustness Against Inputs)
针对观测和指令输入的扰动,核心思想是语义一致性:即输入扰动不应改变任务语义,因此最优动作应保持不变。
- 一致性正则化:强制模型在语义保持的扰动输入下输出一致的动作。
- 多臂老虎机 (Multi-Armed Bandit) 策略:
- 由于扰动类型众多,手动平衡权重困难。作者将扰动选择建模为多臂老虎机问题。
- 使用 上置信界 (UCB) 算法自动选择当前训练步骤中“最有害”的扰动类型进行对抗训练。
- 奖励定义:扰动导致的流匹配损失增加量(即清洁数据与扰动数据之间的损失差)。
- 局部平滑:在选定的扰动基础上,进一步添加 ℓp 有界的观测噪声,以增强局部平滑性。
3.3 总体损失函数
θminLRobustVLA=Lπ0+λinLin+λoutLout
其中 Lin 和 Lout 分别对应输入和输出的鲁棒性正则项。
4. 实验结果 (Results)
4.1 仿真环境 (LIBERO Benchmark)
- 性能提升:在 17 种扰动下,RobustVLA 在 π0 骨干上平均提升了 12.6% 的成功率,在 OpenVLA 骨干上提升了 10.4%。
- 混合扰动:在输入和输出同时存在随机扰动的情况下,提升了 10.4%。
- 长程任务:在 LIBERO-long 任务中,成功率提升了 19.61%。
- 效率:推理速度比依赖外部大模型的 BYOVLA 快 50.6 倍,且无需外部 LLM 支持。
4.2 真实世界实验 (Real-World FR5 Robot)
- 低数据表现:在仅有 25 次 演示(demos)的情况下,RobustVLA 的成功率比 π0 高出 65.6%。
- 高数据表现:即使增加到 100 次演示,RobustVLA 仍比 π0 高出 30% 的成功率,证明了其不仅依赖数据量,而是通过训练机制提升了本质鲁棒性。
- 失败分析:基线模型在动作噪声下出现控制不精确(如抓不住物体),在观测噪声下无法识别物体,在环境变化下产生 OOD 行为;而 RobustVLA 在绝大多数测试中保持稳定。
5. 主要贡献 (Key Contributions)
- 全面评估:首次系统性地评估了 VLA 模型在 4 个模态、17 种扰动下的鲁棒性,揭示了“动作模态最脆弱”和“视觉鲁棒性无法泛化”的关键结论。
- RobustVLA 框架:提出了一种统一的微调框架,结合了针对输出的最坏情况流匹配优化和针对输入的 UCB 自适应扰动选择,实现了多模态鲁棒性的同步提升。
- 实证有效性:在仿真和真实机器人平台上均取得了显著的性能提升,特别是在低数据量(Low-data regime)场景下表现优异,且计算效率远高于现有视觉鲁棒方法。
6. 意义与影响 (Significance)
- 推动 VLA 落地:真实世界充满了多模态不确定性,本文的方法为 VLA 模型在安全、稳定要求高的实际场景(如家庭服务、工业操作)中的部署提供了关键的技术保障。
- 方法论创新:将对抗训练、标签平滑、离群点惩罚以及多臂老虎机策略成功整合到 VLA 的流匹配训练中,为离线强化学习和行为克隆的鲁棒性研究提供了新的范式。
- 开源贡献:作者开源了代码和演示视频,促进了社区对 VLA 鲁棒性的进一步研究。
总结:这篇论文通过深入分析 VLA 的脆弱性根源,提出了一种高效、通用的鲁棒性增强方案,显著提升了机器人在复杂、动态且充满噪声的真实环境中的操作能力。