Decision-Aware Uncertainty Evaluation of Vision-Language Model-Based Early Action Anticipation for Human-Robot Interaction

Each language version is independently generated for its own context, not a direct translation.

🤖 ロボットと「半分しか見えない」未来

想像してみてください。あなたがキッチンで冷蔵庫を開けようとしています。
ロボットがあなたの横に立っていて、「今から何をする？」と聞いてきたとします。

しかし、ロボットは**「冷蔵庫のドアが少し開いた瞬間」しか見ていません**。
「冷蔵庫を開ける」のか、「冷蔵庫の奥にあるものを取る」のか、あるいは「冷蔵庫を閉める」のか、まだはっきりしません。

ここで、ロボットが**「90% の自信で『冷蔵庫を開ける』と答えて、勢いよくドアを開けようとした」とします。
でも、実はあなたは「冷蔵庫の奥の野菜を取りたいだけ」だった場合、ロボットは邪魔をしてしまいます。これが「過信（Overconfidence）」**による失敗です。

逆に、ロボットが**「何をするか全然わからないから、何も言わずにじっとしている」**のも困ります。

🔍 この論文が解決しようとしていること

最近の AI（ビジョン・ランゲージモデル）は、画像を見て「何をするか」を言葉で説明するのが得意です。でも、「半分しか見えていない状態」での予測において、AI が言う「自信度（確信度）」が本当に信頼できるのか、誰もちゃんとチェックしていませんでした。

この論文は、**「AI の『自信』を測る新しいものさし」**を作りました。

1. 「水晶玉」ではなく「複数の未来」を見る

従来の AI は、一度に「一番可能性が高い未来」だけを言います。
でも、この研究では、**「同じ映像を 5 回、5 回と AI に見せて、5 通りの答えを出させる」**という実験をしました。

AI が毎回同じ答え（「冷蔵庫を開ける」）を出せば → 「あ、これは本当に自信があるんだな」とわかります。
AI が答えをコロコロ変える（「開ける」「閉める」「取る」）」 → 「あ、これはまだよくわからないな（不確実性が高い）」とわかります。

これを**「複数の未来を並べて見る」**という方法で、AI の「本当の不安定さ」を測っています。

2. 「まとめ方」で性格が変わる

5 回分の答えをどうまとめるかによって、AI の「性格」が変わることがわかりました。

タイプ A（鋭い性格）： 一番多い答えを「絶対これだ！」と強く主張します。
- メリット： 自信があれば即座に動けます。
- デメリット： 間違っていた場合、**「自信満々に大失敗」**します。
タイプ B（慎重な性格）： 「A も B も C も可能性がある」と、複数の答えを並列に扱います。
- メリット： 間違っても「あ、他にも可能性があるから、もう一度聞いてみよう」と安全に待機できます。
- デメリット： 判断が遅れるかもしれません。

この研究は、「どのまとめ方を選ぶか」が、ロボットの安全性や人間との付き合い方（「聞くべきか」「待つべきか」）を決定することを発見しました。

🎯 人間とロボットが仲良くするための「安全装置」

この研究の最大のポイントは、「正解かどうか」だけでなく、「AI がその答えにどれくらい自信を持っているか」を人間が理解できる形にすることです。

AI が「自信がある！」と言った時： ロボットは「よし、実行する！」と動きます。
AI が「自信がない（答えがバラバラ）」と言った時： ロボットは「待て、よくわからないな。人間に『何をするつもりですか？』と聞いてみよう」と止まります。

この「止まる」判断ができるかどうかで、ロボットが人間を邪魔したり、危険なことをしたりするのを防げます。

🌟 まとめ：何がすごいのか？

この論文は、**「AI が『わかった！』と叫ぶ声の大きさ（自信度）が、本当に『わかった』ことを意味しているか」**を、人間とロボットが一緒に働く現場（共有スペース）に合わせてチェックするルールを作りました。

従来の考え方： 「正解率が高い AI が一番良い」。
この論文の考え方： 「正解率も大事だけど、**『わからない時に素直に『わからない』と言える AI』**の方が、人間と安全に働ける」。

まるで、**「自信過剰な新人社員」ではなく、「自分の限界を知り、必要なら上司に確認する慎重な社員」**を育てるためのマニュアルのようなものです。これにより、ロボットが人間とより安全に、そしてスムーズに協力できるようになるのです。

Each language version is independently generated for its own context, not a direct translation.

論文概要

この論文は、人間とロボットが共有空間で協働する際、ロボットの「早期行動予測（Early Action Anticipation）」における視覚言語モデル（VLM）の不確実性評価に焦点を当てた研究です。特に、観測データが不完全な状態（時間的前綴：temporal-prefix）での予測において、単なる予測精度だけでなく、その予測に対する**信頼性（不確実性の定量化）**が人間 - ロボット相互作用（HRI）の安全性と効率性にどう影響するかを体系的に評価しています。

1. 背景と問題提起

課題: 共有作業空間では、ロボットは人間の意図を部分的で曖昧な観測データから早期に解釈する必要があります。従来のアプローチは予測精度（Top-K 精度）を重視しますが、VLM が部分的な観測に対して過信（Overconfidence）を持つと、誤った行動や安全上のリスクを招きます。
現状の限界: 既存の VLM ベースの早期行動予測研究は、ランキング精度の評価に留まっており、時間的前綴（予測時点での観測が不完全な状態）における不確実性の信頼性や、その不確実性が意思決定（実行、待機、確認の要求など）にどう活用できるかは未解明です。
必要性: HRI システムでは、予測結果そのものだけでなく、「その予測がどの程度信頼できるか」という確信度（Confidence）に基づいたゲート制御（例：確信度が低い場合は実行を保留し、人間に確認を求める）が不可欠です。

2. 提案手法と評価フレームワーク

本研究は、VLM の出力から不確実性を推定し、それを HRI 意思決定に適合する形で評価するための新しいプロトコルと指標を提案しています。

A. 不確実性の生成：確率的マルチランサンプリング

VLM は内部の確率分布を直接提供しないため、以下の手法で不確実性を近似します。

同じ入力動画クリップに対して、温度パラメータ（Temperature）を用いた確率的デコーディングを $M$ 回独立して実行します。
各ランで得られる Top-K 行動予測セットのばらつき（Variability）をモデルの不確実性の代理指標として利用します。

B. 集約戦略（Aggregation Strategies）

複数のランで得られた不安定な Top-K 予測を、構造化された確信度分布に変換するために 3 つの集約手法を比較検討しました。

一貫性ベース（Consistency-Based）: 各ランクの行動がラン間で一致する頻度（多数決）に基づき、予測と確信度を算出。
確信度重み付き（Confidence-Weighted）: モデルが出力する言語化された確信度（Verbalized Confidence）を重みとして投票に組み込む。
ペアランキング（PairRank）: 各ランでの行動間の相対的順序（ペアワイズ比較）を Bradley-Terry モデルで集約し、潜在効用スコアから確率分布を生成する。

C. 意思決定を意識した評価フレームワーク

従来の精度評価に加え、HRI における意思決定の有効性を測る 4 つの次元で評価を行います。

正解性（Correctness）: 予測セットに正解が含まれるか（Recall@K, Top-1 Accuracy）。
不確実性の信頼性（Uncertainty Reliability）: 確信度が実際の正解率と一致しているか（ECE: Expected Calibration Error）。特に、Top-1 だけでなく、Top-K セット全体としての校正（Set-ECE）を評価。
選択的決定有用性（Selective Decision Utility）: 確信度閾値（ $\tau$ ）に基づいて実行を保留（Abstention）した場合、残ったサンプルの精度が向上するか（Coverage-Accuracy 曲線）。
確信度の幾何学（Confidence Geometry）: Top-K 内の確信度の分布形状（エントロピー、ランクごとの分布）。曖昧な状況で確信度が適切に分散しているか、あるいは過剰に集中していないかを分析。

3. 主要な実験結果

EGTEA Gaze+ と EPIC-KITCHENS-100 の 2 つの Egocentric（一人称視点）データセットを用いた実験結果は以下の通りです。

予測精度への影響: 集約手法によって Top-1 精度や Recall@K に劇的な変化は見られず、ランキング性能自体は類似していました。
校正（Calibration）のトレードオフ:
- Single-run（単一実行）: Top-1 における校正誤差（ECE）は最も低かったが、セットレベルの校正は限定的でした。
- PairRank: Top-1 校正は劣っていましたが、K（候補数）が増えるにつれてセットレベルの校正（Set-ECE）が急速に改善しました。
選択的決定の性能: PairRank は、確信度閾値を上げるとカバー率（Coverage）が急激に低下し、残ったサンプルの精度が維持される「鋭い閾値分離性」を示しました。これは、安全上のリスクを避けるために曖昧な予測を明確に除外したい HRI システムにとって望ましい特性です。
確信度の幾何学:
- PairRank は確信度を上位ランクに強く集中させ（低エントロピー）、明確な意図を示す傾向があります。
- 一貫性ベースや確信度重み付き手法は、確信度をより均等に分散させ（高エントロピー）、複数の可能性を保持する曖昧な状態を反映します。

4. 主要な貢献

問題の再定義: 早期行動予測を単なる「ランキング問題」ではなく、HRI 環境における「信頼性問題」として再定義し、部分的な観測下での不確実性評価の必要性を説きました。
評価フレームワークの提案: Top-K 出力に対する、正解性、不確実性信頼性、選択的決定有用性、確信度幾何学を含む、意思決定を意識した包括的な評価枠組みを構築しました。
集約戦略の影響の解明: 集約戦略が単に順位を変えるだけでなく、不確実性の幾何学を根本的に再構築し、「校正の忠実度」と「意思決定レベルの分離性」の間にトレードオフを生むことを実証しました。精度が高いからといって、必ずしも HRI 向けの信頼性が高いとは限らないことを示しました。

5. 意義と結論

本研究は、VLM を HRI システムに統合する際に、単なる予測精度だけでなく、**「どの程度確信を持って行動するか」**という不確実性の評価が不可欠であることを実証しました。

実用的な示唆: 安全重視のロボット制御では、PairRank のような「確信度が低い場合は明確に除外する」手法が有効である一方、曖昧さを保持して人間との対話を促す必要がある場面では、より平滑な確信度分布を持つ手法が適している可能性があります。
将来展望: 提案されたフレームワークは、特定の VLM アーキテクチャに依存せず、ブラックボックスモデルに対しても適用可能です。将来的には、この評価基準に基づいて、ロボットがリアルタイムで「実行」「待機」「確認要求」を自律的に選択するシステムの実装が期待されます。

結論として、VLM ベースの早期行動予測を HRI に安全に導入するには、予測の「正しさ」だけでなく、その「不確実性の構造」を評価し、意思決定プロセスに組み込むことが必須であるという重要な知見を提供しています。