ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于机器人“太自信”而犯错的有趣故事，并提出了一个聪明的解决办法。

想象一下，你正在教一个机器人做家务，比如“把桌上的杯子放进抽屉里”。

1. 问题：机器人的“盲目自信” (False Completion)

现在的机器人（基于 VLA 模型，即视觉 - 语言 - 动作模型）通常很聪明，它们能看懂图片，听懂指令，然后动手。但是，它们有一个致命的弱点：太依赖“感觉”，而忽略了“眼睛”。

这就好比你在开车：

眼睛（视觉）：看着前方的路。
感觉（本体感觉/Proprioception）：感觉方向盘转了多少度，脚踩了多深的油门，心里默数着“我已经开了 5 公里了”。

现有的机器人就像是一个“闭着眼睛开车”的司机。
如果它心里默数着“我已经开了 5 公里，应该到了”，但眼睛明明看到前面是一堵墙（或者杯子掉在地上了），它却不听眼睛的，继续按心里的计划把车开过去，甚至宣布“任务完成，停车”。

在论文里，这叫**“虚假完成” (False Completion)**。

场景：机器人抓起一个杯子，但在移动过程中，杯子掉地上了。
错误反应：机器人看着手里的空抓手，心里想：“哦，我抓到了，现在我要把它放到抽屉里。”于是它继续移动手臂去放杯子，完全没发现杯子早就掉地上了。最后它宣布任务结束，但实际上杯子还躺在地上。

为什么会这样？
因为机器人太相信自己的“内部状态”（我抓到了、我移动了），而忽略了“视觉证据”（杯子不在手里了）。这就叫模态失衡（视觉和本体感觉不平衡）。

2. 简单的测试：如果关掉“感觉”会怎样？

研究人员做了一个实验：强行把机器人的“内部感觉”关掉，只让它用“眼睛”看。

结果：机器人确实不再盲目自信了，杯子掉了它会去捡。
副作用：但是，机器人变笨了！在正常的任务中，因为它失去了“感觉”（比如关节转了多少度），它连路都走不稳，成功率反而大幅下降。

结论：我们不能简单地扔掉“感觉”，我们需要的是平衡。

3. 解决方案：ReViP (给机器人配个“清醒的副驾驶”)

为了解决这个问题，作者提出了一个叫 ReViP 的新方法。你可以把它想象成给机器人配了一个**“清醒的副驾驶”**。

这个系统由两部分组成：

第一部分：任务阶段观察员 (Task-Stage Observer) —— 那个“清醒的副驾驶”
- 这是一个超级聪明的 AI（基于大语言模型），它时刻盯着机器人的眼睛（摄像头）和任务指令。
- 它的作用不是直接控制机器人，而是实时分析：“嘿，老板，杯子掉地上了！现在的任务阶段不是‘放置’，而是‘重新抓取’！”
- 它会把这种**“进度感知”**的视觉线索（Visual Cues）提炼出来。
第二部分：任务阶段增强器 (Task-Stage Enhancer) —— 那个“调节器”
- 当机器人准备做动作时，这个“调节器”会把“副驾驶”提供的线索注入进去。
- 它的作用：如果视觉显示“杯子掉了”，调节器就会放大视觉信号，压制机器人那种“我要继续放杯子”的盲目冲动。
- 这就好比副驾驶大喊：“别放！杯子掉了！快回去捡！”机器人听到后，立刻调整策略，回去捡杯子。

4. 效果如何？

作者造了一个专门的**“陷阱题库” (Benchmark)**，故意在机器人干活时制造麻烦：

物体掉落：故意让抓的东西掉下来。
张冠李戴：把目标物体和长得像的干扰物互换位置。
场景重组：把目标物和目的地换个地方。

结果非常惊人：

以前的机器人（如 $\pi_0$ ）在这些陷阱里经常“装傻”，明明失败了还宣布成功。
用了 ReViP 的机器人，就像被点醒了。杯子掉了，它立刻回去捡；拿错东西了，它立刻纠正。
在模拟环境和真实的机械臂实验中，ReViP 的成功率比最好的现有方法提高了 26% 以上。

总结

这篇论文的核心思想就是：
机器人不能只靠“心里的计划”（本体感觉）走路，必须时刻看着“脚下的路”（视觉）。

ReViP 就像给机器人装了一个**“实时纠错系统”**，它不断提醒机器人：“别光想当然，看看眼睛看到了什么！”从而避免了那种“明明失败了却还在假装成功”的尴尬局面，让机器人变得更聪明、更靠谱。

一句话概括：
以前的机器人是“盲目自信的独行侠”，现在的 ReViP 机器人是“眼观六路、耳听八方、懂得随时修正路线的聪明管家”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心问题：虚假完成 (False Completion)
在视觉 - 语言 - 动作 (VLA) 模型中，存在一种严重的失效模式，称为“虚假完成”。即当机器人执行任务失败（例如目标物体掉落、被遮挡或位置改变）时，策略模型（Policy）仍然基于内部状态（Proprioception）的进展，过早地宣布任务完成或停止执行，而忽略了明显的视觉失败信号。

原因分析：模态不平衡 (Modality Imbalance)
作者指出，这种行为的根本原因是 VLA 模型中存在状态主导偏差 (State-Dominant Bias)：

现有的 VLA 模型通常将视觉 - 语言特征与本体感觉信号（关节角度、夹爪状态等）直接融合。
这种融合导致策略过度依赖内部状态序列（即“我计划移动到这里，所以我应该继续移动”），而低估了外部视觉反馈（即“物体不在那里，我抓空了”）。
实验验证：作者通过真实机器人实验发现，如果完全屏蔽状态输入，机器人虽然能避免虚假完成（会回去重新抓取），但整体任务成功率大幅下降（从 70% 降至 40%）。这说明单纯移除状态不可行，关键在于重新平衡视觉与本体感觉信号。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 ReViP (Vision-Proprioception Rebalance) 框架。其核心思想是通过引入进度感知视觉线索 (Progress-Aware Visual Cues)，在特征层面自适应地调节语义感知与本体感觉动力学之间的耦合。

ReViP 框架主要包含两个关键组件：

2.1 任务阶段观察者 (Task-Stage Observer, TSO)

功能：利用外部冻结的视觉 - 语言大模型（如 Qwen2.5-VL）作为“观察者”。
输入：实时观测图像 ( $I_t$ ) 和任务指令 ( $l$ )。
处理：TSO 执行与任务相关的推理，识别当前可见的物理状态、任务相关物体的位置及状态，并总结当前的任务阶段意图（例如：“奶油奶酪掉在地上了，需要重新抓取”）。
输出：将离散的文本推理结果编码为紧凑的连续特征向量 $z_t$ （进度感知视觉线索）。这些线索反映了任务进度和环境状态，作为额外的先验知识注入到 VLA 主干网络中。

2.2 任务阶段增强器 (Task-Stage Enhancer, TSE)

机制：采用 TS-FiLM (Task-Stage Feature-wise Linear Modulation) 机制。
过程：
1. 将 TSO 提取的特征 $z_t$ 通过一个轻量级的瓶颈网络映射为调制参数 $\gamma_t$ 和 $\beta_t$ 。
2. 这些参数对 VLA 主干网络中的视觉 - 语言前缀 Token ( $P_t$ ) 进行逐特征的线性调制： $\tilde{P}_t = (P_t + \alpha(\gamma_t \odot P_t + \beta_t)) \odot M_t$ 。
作用：这种调制能够自适应地增强与当前视觉证据（如物体掉落）对齐的特征通道，同时抑制导致状态主导偏差的无关特征。这使得策略在生成动作时，能够根据实时视觉反馈动态调整对状态信息的依赖程度，而不是盲目遵循预设轨迹。

2.3 动作预测

调制后的特征 $\tilde{F}_t$ 与状态 $S_t$ 融合，输入到基于流匹配 (Flow Matching) 的动作生成头，预测未来的动作块。

3. 关键贡献 (Key Contributions)

定义了“虚假完成”问题：首次系统性地识别并定义了 VLA 模型中的“虚假完成”现象，揭示了其源于模态不平衡（状态主导）的本质，并通过受控实验验证了单纯移除状态输入的局限性。
提出了首个虚假完成基准测试套件 (False-Completion Benchmark Suite)：
- 基于 LIBERO 构建，包含 8 个任务。
- 设计了三种受控扰动：物体掉落 (Object Drop)、干扰物交换 (Distractor Swap)、布局重排 (Relayout)。
- 旨在全面评估模型在视觉反馈与内部状态冲突时的鲁棒性和恢复能力。
提出了 ReViP 框架：
- 创新性地引入外部 VLM 作为任务阶段观察者，提取进度感知线索。
- 设计了特征级调制机制 (TS-FiLM)，在不牺牲本体感觉信息的前提下，动态增强视觉 grounding，有效缓解状态主导偏差。
广泛的实验验证：
- 在仿真环境（LIBERO, RoboTwin 2.0）和真实世界机器人上进行了大量实验。
- 证明了 ReViP 在保持高任务成功率的同时，显著降低了虚假完成率。

4. 实验结果 (Results)

虚假完成基准测试 (False-Completion Benchmark)：
- ReViP 在 8 个任务上的平均成功率达到 59%，比强基线 $\pi0$ 提升了 26%，比 $\pi0$ -Fast 提升了 18%。
- 在最具挑战性的“物体掉落”任务中，ReViP 的成功率从基线的 37% 左右提升至 62.4% (ReViP*)，显著展示了其检测失败并重新规划的能力。
- 在“干扰物交换”和“布局重排”任务中，ReViP 也表现出明显的优势，证明了其视觉 grounding 能力的增强。
通用仿真基准 (LIBERO & RoboTwin 2.0)：
- 在 LIBERO 全套基准（Spatial, Object, Goal, Long）上，ReViP 达到了 96.7% 的平均成功率，超越了 UniVLA 和 $\pi0$ 等 SOTA 模型。
- 在双机械臂的 RoboTwin 2.0 基准上，ReViP 同样取得了最高成功率，证明了该方法在复杂多臂协作场景下的可扩展性。
真实世界实验 (Real-World)：
- 在 ROKAE 机械臂的真实实验中，ReViP 在包含物体掉落、干扰物和长序列任务的场景下，成功率达到 88%，而 $\pi0$ 仅为 62%。
- 定性分析显示，当物体掉落时，ReViP 能立即检测到并执行重新抓取，而 $\pi0$ 则继续执行错误的放置动作并宣布完成。
效率分析：
- ReViP 引入了异步运行的 TSO，控制频率保持在 16 Hz，仅比基线 $\pi0$ (22 Hz) 略有延迟，满足实时操作需求，且未造成显著的计算负担。

5. 意义与影响 (Significance)

理论意义：揭示了 VLA 模型中视觉与本体感觉模态不平衡的深层机制，指出单纯的数据融合不足以解决长尾失效问题，必须引入显式的进度感知和动态模态重平衡机制。
实践价值：
- 提升鲁棒性：使机器人能够在执行过程中面对意外干扰（如物体掉落、环境变化）时，具备类似人类的“自我纠错”能力，而不是盲目执行直到失败。
- 降低部署风险：虚假完成在工业和医疗场景中可能导致严重的安全事故，ReViP 通过确保“视觉确认”作为完成的前提，显著提升了系统的安全性。
- 通用性：该方法作为插件式模块（Plug-and-Play），可适配不同的 VLA 骨干网络（如 $\pi0$ , $\pi0.5$ ），为未来构建更可靠的具身智能系统提供了新的设计范式。

综上所述，ReViP 通过引入外部 VLM 的推理能力来动态调节内部策略的模态权重，成功解决了 VLA 模型中普遍存在的“虚假完成”问题，显著提升了机器人在动态和不确定环境下的任务执行可靠性。

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

1. 问题：机器人的“盲目自信” (False Completion)

2. 简单的测试：如果关掉“感觉”会怎样？

3. 解决方案：ReViP (给机器人配个“清醒的副驾驶”)

4. 效果如何？

总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 任务阶段观察者 (Task-Stage Observer, TSO)

2.2 任务阶段增强器 (Task-Stage Enhancer, TSE)

2.3 动作预测

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers