On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

本文针对视觉 - 语言 - 动作(VLA)模型在动作、指令、环境和观测等多模态扰动下的脆弱性,提出了一种名为 RobustVLA 的新方法,通过结合输出端的对抗优化与输入端的一致性约束,并利用多臂老虎机算法自动识别最有害噪声,在 LIBERO 基准和真实机器人 FR5 上显著提升了模型在各类扰动下的鲁棒性与成功率。

Jianing Guo, Zhenhong Wu, Chang Tu, Yiyao Ma, Xiangqi Kong, Zhiqian Liu, Jiaming Ji, Shuning Zhang, Yuanpei Chen, Kai Chen, Qi Dou, Yaodong Yang, Xianglong Liu, Huijie Zhao, Weifeng Lv, Simin Li

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给机器人做一场全面的“抗压体检”,并开出了一剂强效的“健身药方”。

想象一下,VLA 模型(视觉 - 语言 - 动作模型) 就是机器人的“大脑”。它通过眼睛(视觉)看世界,通过耳朵(语言)听指令,然后指挥手脚(动作)去干活。以前,科学家们主要担心机器人会不会被“晃眼”(比如光线变暗、图片模糊)给难住。但这篇论文发现,机器人其实更怕“手抖”、“听错话”或者“被推搡”。

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 体检发现:机器人哪里最脆弱?

研究者给主流机器人模型(VLA)做了 17 种“压力测试”,就像给汽车做碰撞测试一样,测试了四种干扰:

  • 眼睛(观察): 比如图片模糊、死像素、颜色乱变。
  • 耳朵(指令): 比如说话带口音、用词奇怪、或者故意捣乱的指令。
  • 环境: 比如突然推你一把、旁边多了个无关的物体、灯光忽明忽暗。
  • 手脚(动作): 比如电机老化导致手抖、信号传输突然卡顿。

惊人的发现:

  • 手脚(动作)最脆弱! 就像一个人走钢丝,哪怕手稍微抖一下(动作噪声),整个人就会掉下去。以前的机器人模型在动作上非常“玻璃心”,稍微有点误差就彻底失败。
  • 只练“视力”没用: 以前有些方法专门训练机器人“抗干扰视力”(比如 BYOVLA),但这就像给机器人戴了墨镜,它虽然不怕强光了,但手还是抖,耳朵还是聋,遇到其他问题照样完蛋。
  • π0 模型是“优等生”: 在测试中,一个叫 π0 的模型表现最好,它比其他模型更抗揍。

2. 药方:RobustVLA(鲁棒 VLA)

既然知道了病灶,作者就开出了 RobustVLA 这个药方。它的核心思想是:“在训练时故意把机器人搞得很惨,这样它上战场就什么都不怕了。”

这个药方分三步走:

第一步:练“抗手抖”(输出鲁棒性)

  • 比喻: 想象你在教机器人倒水。正常的训练是让它倒得稳稳的。但 RobustVLA 会故意在机器人倒水时,猛推它的手肘一下(模拟最坏的动作噪声),看它能不能把水倒准。
  • 做法: 它在训练时,不仅让机器人学“标准动作”,还让它学“被推搡后的补救动作”。这就像给机器人加了“防抖滤镜”,让它即使手抖了,也能自动修正,不会把水洒得到处都是。

第二步:练“抗干扰”(输入鲁棒性)

  • 比喻: 想象你在教机器人认苹果。如果图片模糊了,或者旁边多了个香蕉,它还能认出苹果吗?RobustVLA 会故意给机器人看模糊的、有死像素的、甚至旁边乱堆东西的图片,强迫它不管环境多乱,都要做出正确的判断。
  • 做法: 它确保不管输入的图片怎么变(只要意思没变),机器人输出的动作都要保持一致。

第三步:智能“挑刺”(多臂老虎机算法)

  • 比喻: 机器人要面对很多种干扰(光线、噪音、手抖等)。如果随机练,可能练了半天只练了“不怕强光”,却忘了“不怕手抖”。
  • 做法: 作者用了一个叫 UCB(置信度上界) 的算法,就像一个聪明的教练。这个教练会观察:“哎呀,机器人最近特别怕‘手抖’,那我们就多练练‘手抖’!”它会自动找出机器人最害怕、最容易出错的那个干扰项,重点突击,直到机器人不再怕它为止。

3. 效果如何?

  • 在虚拟世界(LIBERO 测试):
    • 用了这个药方,机器人的成功率在 17 种干扰下平均提升了 12.6%
    • 它比那些专门练视力的旧方法(BYOVLA)快 50 倍!因为旧方法需要调用巨大的外部大脑(大语言模型)来辅助,而 RobustVLA 是“内功心法”,自己就能搞定,速度快还省资源。
  • 在真实世界(FR5 机器人):
    • 这是最厉害的。在只有 25 次 演示(数据很少)的情况下,RobustVLA 的成功率比原来的 π0 模型高了 65.6%
    • 这就好比教一个新手司机,只让他练了 25 圈,但他因为练过“极端天气”和“突发状况”,在真实马路上开车比那些练了 100 圈但只练过“晴天”的老司机还要稳。

总结

这篇论文告诉我们:

  1. 机器人不仅怕“看不清”,更怕“手不稳”和“听错话”。
  2. 想要机器人真正靠谱,不能只练“视力”,要全方位地“抗压”。
  3. RobustVLA 就像是一个魔鬼训练教练,通过故意制造混乱(最坏情况)和智能挑刺(UCB 算法),让机器人在少量数据下也能练就一身“金刚不坏之身”,在真实世界的复杂环境中也能稳稳当当。

这就好比,以前我们教机器人是“温室养花”,现在 RobustVLA 是把它扔进“暴风雨”里练,等它出来时,什么风雨都打不垮它了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →