ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

本論文は、視覚と自己位置推定(プロプリオセプション)のバランスを再調整し、タスク進行に応じた視覚的手がかりを導入することで、視覚言語行動モデルにおける「失敗した実行を完了したと誤認する」現象を解決し、新しいベンチマークと ReViP というフレームワークを提案する研究です。

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🤖 問題:ロボットはなぜ「勘違い」するのか?

Imagine(想像してみてください):
あなたがロボットに「テーブルの上の牛乳パックをカゴに入れて」と命令しました。ロボットは牛乳パックをつかみ、カゴに向かって動き出します。

しかし、途中で牛乳パックがこぼれてテーブルに落ちました

  • 従来のロボット(π0 など):
    ロボットは自分の「腕が動いた回数」や「関節の角度」といった内部の感覚(プロプリオセプション)だけを信じています。「あ、腕を動かしたから、もうカゴに届いたはずだ!」と盲目の自信を持ち、実際には牛乳パックが落ちていないのに「完了!」と宣言して作業を終わらせてしまいます。
    これを論文では**「偽りの完了(False Completion)」**と呼んでいます。

  • 人間の常識:
    もし人間がこれをやったら、「あれ?牛乳がこぼれたぞ!拾い直さなきゃ!」と**目(ビジョン)**で確認して修正しますよね。でも、従来のロボットは「目」よりも「自分の感覚」を優先しすぎていたのです。

💡 解決策:ReViP(リヴィップ)の登場

この論文の著者たちは、この問題を解決するために**「ReViP」**という新しい仕組みを開発しました。

ReViP の仕組みは、まるで**「優秀な監督」「選手」**のチームワークのようです。

  1. 監督(タスク・ステージ・オブザーバー):
    この「監督」は、常にロボットの目の前の映像(カメラ)と指示文を見ています。「牛乳パックがまだカゴに入っていない!」「あ、こぼれた!今すぐ拾い直さなきゃ!」と、現在の状況を冷静に分析しています。
  2. 選手(ロボットの制御システム):
    通常、選手は自分の感覚(関節の動き)だけで動いていますが、ReViP では「監督」から**「今、牛乳パックは床にあるぞ!カゴに向かうな!」**というリアルタイムなアドバイス(視覚的な手がかり)を受け取ります。
  3. バランスの再調整(リバランス):
    これまで「感覚(90%)」と「視覚(10%)」のバランスが悪かったのを、**「視覚の情報を取り込んで、感覚の暴走を抑える」**ように調整します。

🛠️ 具体的な実験:どうやってテストした?

彼らは、ロボットが失敗しやすい状況をあえて作る**「偽りの完了ベンチマーク」**というテスト場を作りました。

  • 落とし物テスト: 掴んだ物をわざと落とす。
  • 入れ替えテスト: 牛乳パックと似たような別の箱を置き換える。
  • 配置変更テスト: 目標の場所を移動させる。

これらのテストで、従来のロボットは「感覚」だけで進んで失敗しましたが、ReViP を使ったロボットは「監督」のアドバイスに従い、落ちた物を拾い直したり、正しい箱を選んだりして、見事に成功させました。

🌟 結果:現実世界でも活躍

シミュレーションだけでなく、実際のロボットアームを使って実験もしました。

  • 牛乳パックを落としても、自分で拾い直してカゴに入れた。
  • 引き出しを開ける際、中身が入っていないのに閉じようとする失敗を防いだ。

従来のロボットに比べて、成功率が大幅に向上しました(特に「偽りの完了」を防ぐ能力は 26% も向上)。

🎯 まとめ

この研究は、ロボットに**「自分の感覚(内部状態)に溺れず、目の前の現実(視覚情報)を素直に受け取る」**という、人間らしい賢さを教えることに成功しました。

  • 以前のロボット: 「俺は動いたから、もう終わったはずだ!」(盲目の自信)
  • ReViP のロボット: 「待てよ、カメラを見るとまだ落ちてるぞ。やり直そう!」(冷静な観察と修正)

これにより、ロボットはより複雑で予期せぬことが起きる現実世界でも、失敗を恐れずにタスクを完遂できるようになりました。まるで、「自信過剰な新人」に「経験豊富なコーチ」を付けてあげたようなものですね。