When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

本文针对视觉 - 语言 - 动作模型(VLAs)因数据偏差而忽视语言指令、过度依赖视觉捷径的“反事实失败”问题,提出了首个反事实基准 LIBERO-CF,并设计了一种无需额外训练或修改架构的双分支推理方案 CAG,通过显式正则化语言条件显著提升了模型在未见任务中的语言遵循能力与任务成功率。

Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个机器人领域的“大聪明”问题:机器人太依赖“眼力见”,却忽略了“听指挥”。

为了让你轻松理解,我们可以把现在的机器人(VLA 模型)想象成一个刚入职的“超级实习生”

1. 核心问题:实习生的“经验主义”陷阱

场景设定:
老板(用户)对实习生说:“去把那个芥末酱拿过来。”
但在桌子上,除了芥末酱,还有一个胶带,而且这个胶带是老板以前最常让实习生拿的东西。

实习生的反应(Counterfactual Failure):

  • 理想情况: 实习生听到“芥末酱”,立刻去拿芥末酱。
  • 实际情况(论文指出的问题): 实习生虽然听到了“芥末酱”,但他的眼睛看到了胶带。因为以前拿胶带的次数太多了,他的脑子里形成了一个“肌肉记忆”:只要看到桌子,就默认去拿胶带。
  • 结果: 他完全忽略了老板的指令,顺手把胶带拿了过来。

论文发现:
现在的先进机器人模型(VLA)都有这个毛病。它们太依赖视觉上的“捷径”(Visual Shortcuts)。如果训练时某个场景里总是出现“拿胶带”的任务,机器人就会把“拿胶带”和“这个场景”死死绑定。哪怕你让它拿别的,它也会因为视觉惯性,自动执行那个最熟悉的动作。

这就好比一个老练的出租车司机,你让他去“机场”,但他看到你坐在后座(视觉特征),就自动把你拉到了他最熟悉的“老地方”,完全不管你的目的地是哪里。

2. 解决方案:给机器人装个“双核大脑” (CAG)

为了解决这个问题,作者提出了一个叫 CAG (Counterfactual Action Guidance,反事实行动引导) 的方法。

通俗比喻:双核决策法

想象一下,我们给机器人装了两个“大脑”同时工作:

  1. 大脑 A(老习惯脑): 只负责看眼睛(视觉)。它不看指令,只根据眼前的景象说:“哦,这里有个胶带,按经验应该拿胶带。”
  2. 大脑 B(听话脑): 既看眼睛又听指令。它说:“老板说要拿芥末酱,虽然胶带在那,但我们要拿芥末酱。”

CAG 的魔法操作:
在机器人做决定之前,CAG 会做一个简单的数学运算:

最终决定 = 大脑 B 的想法 - 大脑 A 的想法 + 大脑 B 的想法

或者更形象地说,CAG 会问大脑 A:“如果我不说话,你会做什么?”(拿胶带)。然后它再问大脑 B:“如果我说话,你会做什么?”(拿芥末酱)。
CAG 会计算这两个答案的差值。如果大脑 B 因为听了指令而改变了主意,这个“差值”就是指令的力量。CAG 会放大这个力量,强行把机器人的手从“胶带”上拉走,推向“芥末酱”。

关键点:

  • 不需要重新培训: 这个方法不需要把机器人重新教一遍(不需要额外的训练数据),只需要在机器人执行任务的那一瞬间,用这个“双核”逻辑算一下就行。
  • 即插即用: 就像给旧手机装个新 APP,不用换手机。

3. 实验结果:从“装聋作哑”到“耳听八方”

作者做了一个专门的测试场(LIBERO-CF),专门给机器人出“反直觉”的题:

  • 题目: 桌上有胶带和芥末酱,指令是“拿芥末酱”。
  • 旧机器人: 90% 的概率拿胶带(因为它觉得胶带才是主角)。
  • 用了 CAG 的机器人: 拿对芥末酱的概率大幅提升,而且即使是在完全没见过的物体(比如魔方、篮球)面前,也能听懂指令去拿,而不是瞎抓。

真实世界测试:
在真实的机械臂上,CAG 让机器人执行任务的成功率提高了近 20%。最神奇的是,它既能让机器人听懂新指令,又不会让它忘记以前学会的老任务。

4. 总结:这篇论文说了什么?

  1. 发现问题: 现在的机器人太“自作聪明”,太依赖视觉经验,经常不听人话(Counterfactual Failures)。
  2. 提出工具: 发明了一个叫 CAG 的“外挂”。它通过对比“有指令”和“没指令”时的反应差异,强行纠正机器人的坏习惯。
  3. 效果显著: 这是一个简单、不需要重新训练、且通用的方法,能让各种机器人模型瞬间变“听话”,大大提升了它们在实际生活中的可靠性。

一句话总结:
这篇论文给机器人装了一个“纠错器”,防止它们因为太依赖“眼熟”而忽略了“耳熟”,让机器人真正从“只会照搬经验的老油条”变成了“真正听指挥的乖员工”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →