When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Each language version is independently generated for its own context, not a direct translation.

🤖 ロボットの「目」が暴走する問題

Imagine（想像してみてください）：
あなたはロボットに**「赤いリンゴを取って」**と指示しました。
しかし、テーブルの上には「赤いリンゴ」と「黄色いバナナ」が並んでいます。

本来ならロボットは「赤いリンゴ」を選ぶはずです。
でも、この最新のロボット（VLA モデルと呼ばれるもの）は、**「バナナ」**を選んでしまいます。

なぜ？
実は、このロボットは訓練中に「バナナを取る練習」を何千回もさせられていたからです。
ロボットは**「バナナがある＝バナナを取る」というパターンを「目」だけで覚えてしまい、あなたの「赤いリンゴ」という「言葉」の指示を無視**して、いつもの癖（バナナ）に従って動いてしまいます。

これを論文では**「カウンターファクトル（反事実）の失敗」**と呼んでいます。
つまり、「もしも（もしリンゴを取れと言われたら）」という状況に対して、ロボットが「でも、いつもはバナナだよ！」と勝手に判断してしまう状態です。

原因： ロボットは「言葉」よりも「目（視覚）」の情報を過信しすぎています。
結果： 指示されたことと違うことをやってしまい、危険だったり、役に立たなかったりします。

🔍 発見：「目」のクセを暴く実験

研究者たちは、この問題を詳しく調べるために**「LIBERO-CF」**という新しいテストを作りました。
これは、ロボットに「いつもの練習とは違う、でもありそうな指示」を出して、どう反応するかを見るテストです。

実験の結果：

最新のロボットたちは、指示された新しいタスク（例：「テープを拾って」）に対して、90% の確率で失敗しました。
代わりに、訓練中に覚えた「いつものタスク（例：「マスタードを拾って」）」を勝手にやってしまいました。
言葉の指示を無視して、視覚的な「癖」に頼りすぎていることが明らかになりました。

✨ 解決策：CAG（カウンターファクトル・アクション・ガイダンス）

では、どうすればいいのでしょうか？
研究者たちは**「CAG（カウンターファクトル・アクション・ガイダンス）」**という新しい方法を提案しました。

これを**「二つの脳を持つロボット」**と想像してみてください。

脳 A（言葉の脳）： 「指示された通りに動け！」と言います。
脳 B（癖の脳）： 「いつもの通り、目に見えるものに従って動け！」と言います。

CAG の仕組み：
ロボットは行動を決める時、この 2 つの脳を同時に動かします。

「脳 B（癖）」が「いつものようにバナナを取れ」と提案します。
「脳 A（言葉）」が「いや、リンゴを取れ」と提案します。
CAG は、この 2 つの意見を比べて、「言葉（脳 A）」の意見が勝つように調整します。

イメージ：

CAG なし： ロボットは「癖」の脳に支配され、指示を無視してバナナを取ります。
CAG あり： 「待て待て！今回は『リンゴ』と言われたぞ！」と、言葉の声を大きくして、ロボットを正しい方向へ導きます。

この方法は、ロボットをゼロから作り直す必要はありません。既存のロボットに、この「調整機能」を後付けでつけるだけで、**プラグ＆プレイ（差し込むだけ）**で使えます。

📊 結果：ロボットが「耳」を澄ませる

この新しい方法（CAG）を試したところ、劇的な改善が見られました。

シミュレーション（仮想空間）：
- 指示に従う正解率が、13% から 21% へ向上しました。
- 失敗（いつもの癖に戻ってしまうこと）が大幅に減りました。
実世界（実際のロボット）：
- 実際の部屋で実験しても、ロボットは指示された「テープ」や「マスタード」を正しく取るようになりました。
- 失敗率が9% 減り、成功率が17% 向上しました。

特に、ロボットが一度も見たことのない新しい物体（例：ボールやサイコロ）に対しても、言葉の指示に従って行動できるようになりました。

💡 まとめ

この論文が伝えていることはシンプルです。

「最新のロボットは、目（視覚）の癖が強すぎて、言葉（指示）を聞き流してしまっている。でも、2 つの脳をバランスよく使う『CAG』という方法を使えば、ロボットは再びあなたの言葉を聞いてくれるようになる！」

これは、ロボットが私達の生活に安全に溶け込むために、非常に重要な一歩です。ロボットが「自分のやり方」ではなく「あなたの言い分」を聞いてくれるようになれば、家や工場での活躍がさらに期待できるでしょう。

Each language version is independently generated for its own context, not a direct translation.

この論文「When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs（視覚が言語を上書きする：VLAs における反事実的失敗の評価と軽減）」の技術的な要約を以下に記します。

1. 問題定義：視覚的ショートカットと反事実的失敗

Vision-Language-Action モデル（VLA）は、言語指示をロボットの制御に統合することを約束していますが、実際には指示を忠実にfollow（追従）できない「反事実的失敗（Counterfactual Failures）」が頻発しています。

現象: 視覚的にあり得るが、言語指示とは異なるタスク（例：訓練データで頻繁に見た「テープ」を拾う指示に対し、実際には「マスタード」を拾うよう指示された場合）に対して、VLA は言語を無視し、視覚的な手がかり（ショートカット）に基づいて、訓練時に学習した既知の行動や頻出オブジェクトを選択してしまいます。
原因:
1. データの不均衡: ロボット学習データセットはタスク特異的であり、視覚情報が言語情報よりも圧倒的に多い（モダリティの不均衡）。
2. アーキテクチャのバイアス: 視覚トークン数が言語トークン数を大きく上回るため、言語の条件付けが弱まり、視覚的な事前分布（Vision-only prior）に事後分布が収束してしまいます。
3. 結果: 言語指示が「反事実的（Counterfactual）」である場合（訓練タスクと異なる指示）、モデルは指示を無視し、視覚的に最も確からしい既知のタスクを実行してしまいます。

2. 提案手法：LIBERO-CF ベンチマークと CAG

A. LIBERO-CF ベンチマーク

この問題を体系的に評価するために、既存の LIBERO ベンチマークを拡張した新しい評価基準「LIBERO-CF」を提案しました。

目的: 視覚的に妥当だが、言語的に異なる指示に対する VLA の追従能力を評価する。
構成: 4 つのタスクスイートで構成されます。
1. CF-Spatial: 背景オブジェクトをターゲットにする空間的指示。
2. CF-Object: 異なるオブジェクトをターゲットにする指示。
3. CF-Long: 多段階の長期タスクにおける指示追従。
4. CF-OOD: 訓練時に一度も観測されなかった分布外（OOD）オブジェクトに対する指示。
評価指標: 「Grounding（指示されたオブジェクトにグリッパーが接触したか）」と「Success（タスク完了）」の 2 つを測定し、さらに「Faithful（指示通り）」と「Biased（訓練タスク通り）」の成功率を区別して評価します。

B. Counterfactual Action Guidance (CAG)

視覚的ショートカットを軽減し、言語条件付けを強化するための推論時の手法として CAG を提案しました。これは既存のモデル構造や重みを変更せず、プラグ＆プレイで適用可能です。

基本原理: 分類器フリー・ガイダンス（Classifier-Free Guidance, CFG）の概念を VLA に応用します。
仕組み: 推論時に以下の 2 つのポリシーを組み合わせます。
1. 条件付きポリシー ( $\pi_{cond}$ ): 標準的な VLA（視覚 + 言語入力）。
2. 無条件ポリシー ( $\pi_{uncond}$ ): 言語を無視した Vision-Action (VA) モデル（視覚のみ入力）。
数式: 最終的なアクション分布は、無条件の視覚事前分布に対して、言語の尤度を重み付け（ $\omega$ ）して強化する形で計算されます。
$\pi_{CAG}(a | o, l) = \pi_{uncond}(a | o, \emptyset) + \omega \cdot (\pi_{cond}(a | o, l) - \pi_{uncond}(a | o, \emptyset))$
実装戦略:
1. Training-Free (TF): 既存の VLA モデルを推論時に言語入力を drop することで、無条件ポリシーを近似する（追加学習不要）。
2. Vision-Action (VA): 言語入力を除いて別途 VA モデルを学習させ、よりクリーンな視覚事前分布を提供する（より高い性能）。

3. 実験結果

シミュレーション実験 (LIBERO-CF)

ベースラインの性能: OpenVLA, $\pi_0$ , $\pi_{0.5}$ などの最先端 VLA は、反事実的指示に対して極めて低い成功率（例： $\pi_{0.5}$ で平均 13.2%）を示し、視覚的ショートカットに陥ることが確認されました。
CAG の効果:
- CAG（特に VA 併用）を適用することで、反事実的タスクでの「Grounding」精度が大幅に向上しました（ $\pi_{0.5}$ で 30.8% → 46.3%）。
- 「Success」率も 13.2% → 21.7% に向上しました。
- 同時に、元の訓練タスクへのバイアス（Biased）は大幅に減少しました。
- 訓練不要の TF 戦略でも改善が見られましたが、VA モデル併用の方がさらに高い性能を発揮しました。

実世界実験

設定: Franka Research 3 ロボットアームを使用し、物体認識、空間推論、目標指向、OOD 一般化、長期推論などのタスクで評価。
結果:
- 実世界でも VLA は視覚的ショートカットにより、指示された物体ではなく訓練タスクの物体を操作する失敗が多発しました。
- CAG を適用することで、すべてのタスクカテゴリにおいて Grounding と Success 率が向上しました（例：実世界での平均タスク成功率 17.2% 向上）。
- 長期推論タスク（例：「コークスを注ぐ」代わりに「ファンタを注ぐ」）において、CAG は視覚的バイアスが時間経過とともに蓄積するのを防ぎ、言語指示の追従を維持しました。

4. 主要な貢献と意義

LIBERO-CF ベンチマークの提案: VLA の言語追従能力、特に反事実的状況下での評価を可能にする最初の標準化されたベンチマークです。これにより、VLA の「見かけの性能」と「真の指示追従能力」のギャップを可視化しました。
CAG 手法の開発: 既存のアーキテクチャや事前学習済みモデルを変更することなく、推論時のみで言語条件付けを強化する汎用的な手法を提供しました。これは、大規模な再学習やデータ拡張なしに VLA の信頼性を高める実用的なソリューションです。
VLA の限界と解決策の示唆: 現在の VLA が視覚的ショートカットに依存しているという根本的な課題を明らかにし、モダリティ不均衡を推論段階で補正するアプローチの有効性を証明しました。

結論:
この研究は、VLA が「視覚が言語を上書きする」現象に直面していることを実証し、CAG という簡潔かつ効果的な手法によって、ロボットの指示追従能力と安全性を向上させる道筋を示しました。これは、実世界でのロボット展開における信頼性向上に寄与する重要なステップです。