When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

この論文は、視覚言語行動モデル(VLA)が視覚的なバイアスに依存して言語指示を無視する「反事実的失敗」の問題を初めて体系的に評価するベンチマーク「LIBERO-CF」を提案し、追加学習やモデル変更なしに言語条件付けを強化する「Counterfactual Action Guidance(CAG)」という手法を開発することで、言語指示への追従性とタスク成功率を大幅に向上させることを示しています。

Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding

公開日 2026-02-20
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🤖 ロボットの「目」が暴走する問題

Imagine(想像してみてください):
あなたはロボットに**「赤いリンゴを取って」**と指示しました。
しかし、テーブルの上には「赤いリンゴ」と「黄色いバナナ」が並んでいます。

本来ならロボットは「赤いリンゴ」を選ぶはずです。
でも、この最新のロボット(VLA モデルと呼ばれるもの)は、**「バナナ」**を選んでしまいます。

なぜ?
実は、このロボットは訓練中に「バナナを取る練習」を何千回もさせられていたからです。
ロボットは**「バナナがある=バナナを取る」というパターンを「目」だけで覚えてしまい、あなたの「赤いリンゴ」という「言葉」の指示を無視**して、いつもの癖(バナナ)に従って動いてしまいます。

これを論文では**「カウンターファクトル(反事実)の失敗」**と呼んでいます。
つまり、「もしも(もしリンゴを取れと言われたら)」という状況に対して、ロボットが「でも、いつもはバナナだよ!」と勝手に判断してしまう状態です。

  • 原因: ロボットは「言葉」よりも「目(視覚)」の情報を過信しすぎています。
  • 結果: 指示されたことと違うことをやってしまい、危険だったり、役に立たなかったりします。

🔍 発見:「目」のクセを暴く実験

研究者たちは、この問題を詳しく調べるために**「LIBERO-CF」**という新しいテストを作りました。
これは、ロボットに「いつもの練習とは違う、でもありそうな指示」を出して、どう反応するかを見るテストです。

実験の結果:

  • 最新のロボットたちは、指示された新しいタスク(例:「テープを拾って」)に対して、90% の確率で失敗しました。
  • 代わりに、訓練中に覚えた「いつものタスク(例:「マスタードを拾って」)」を勝手にやってしまいました。
  • 言葉の指示を無視して、視覚的な「癖」に頼りすぎていることが明らかになりました。

✨ 解決策:CAG(カウンターファクトル・アクション・ガイダンス)

では、どうすればいいのでしょうか?
研究者たちは**「CAG(カウンターファクトル・アクション・ガイダンス)」**という新しい方法を提案しました。

これを**「二つの脳を持つロボット」**と想像してみてください。

  1. 脳 A(言葉の脳): 「指示された通りに動け!」と言います。
  2. 脳 B(癖の脳): 「いつもの通り、目に見えるものに従って動け!」と言います。

CAG の仕組み:
ロボットは行動を決める時、この 2 つの脳を同時に動かします。

  • 「脳 B(癖)」が「いつものようにバナナを取れ」と提案します。
  • 「脳 A(言葉)」が「いや、リンゴを取れ」と提案します。
  • CAG は、この 2 つの意見を比べて、「言葉(脳 A)」の意見が勝つように調整します。

イメージ:

  • CAG なし: ロボットは「癖」の脳に支配され、指示を無視してバナナを取ります。
  • CAG あり: 「待て待て!今回は『リンゴ』と言われたぞ!」と、言葉の声を大きくして、ロボットを正しい方向へ導きます。

この方法は、ロボットをゼロから作り直す必要はありません。既存のロボットに、この「調整機能」を後付けでつけるだけで、**プラグ&プレイ(差し込むだけ)**で使えます。


📊 結果:ロボットが「耳」を澄ませる

この新しい方法(CAG)を試したところ、劇的な改善が見られました。

  • シミュレーション(仮想空間):
    • 指示に従う正解率が、13% から 21% へ向上しました。
    • 失敗(いつもの癖に戻ってしまうこと)が大幅に減りました。
  • 実世界(実際のロボット):
    • 実際の部屋で実験しても、ロボットは指示された「テープ」や「マスタード」を正しく取るようになりました。
    • 失敗率が9% 減り、成功率が17% 向上しました。

特に、ロボットが一度も見たことのない新しい物体(例:ボールやサイコロ)に対しても、言葉の指示に従って行動できるようになりました。


💡 まとめ

この論文が伝えていることはシンプルです。

「最新のロボットは、目(視覚)の癖が強すぎて、言葉(指示)を聞き流してしまっている。でも、2 つの脳をバランスよく使う『CAG』という方法を使えば、ロボットは再びあなたの言葉を聞いてくれるようになる!」

これは、ロボットが私達の生活に安全に溶け込むために、非常に重要な一歩です。ロボットが「自分のやり方」ではなく「あなたの言い分」を聞いてくれるようになれば、家や工場での活躍がさらに期待できるでしょう。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →