Each language version is independently generated for its own context, not a direct translation.
🎥 INFACT: 「ビデオ AI」の嘘つき度合いを測る新しいテスト
こんにちは!今回は、最新の AI 研究「INFACT(インファクト)」について、難しい専門用語を使わずに、まるで「料理の味見」や「運転のテスト」のような日常の例えを使って解説します。
🤔 そもそも何の問題があるの?
最近、動画を見て内容を理解したり、質問に答えたりする「ビデオ AI(Video-LLM)」がすごい進化を遂げています。でも、これらには**「幻覚(ハルシネーション)」**という大きな弱点があります。
- 嘘つき 1 号(忠実性の欠如): 動画に「赤い車」が写っているのに、「青い車だ!」と間違ったことを言う。
- 嘘つき 2 号(事実性の欠如): 動画には関係ないのに、世の中の常識(例えば「水は 100 度で沸騰する」)を無視して、物理的にありえないことを言う。
これまでのテストは「綺麗な動画」でしか評価されていませんでした。でも、現実世界はノイズだらけです。画面がぼやけていたり、字幕が間違っていたり、動画の順番がバラバラだったりする中で、AI は本当に正しい判断ができるのでしょうか?
🔍 INFACT とは?(新しい「運転免許試験」)
この論文では、INFACTという新しいテスト基準を紹介しています。これは、AI の「嘘つき度合い」を徹底的に診断するための、9,800 問もの大規模なテストです。
このテストは、AI を以下の4 つの異なる状況で試します。
1. 🌟 ベースモード(晴れた日の運転)
- 状況: 綺麗な動画と、正しい質問。
- 目的: 普段の能力を確認する「基本テスト」。
2. 🌧️ 視覚劣化モード(雨の日の運転)
- 状況: 動画に「ノイズ」を乗せたり、画面を「ぼやけさせたり(モーションブラー)」、「圧縮」したりします。
- 例え: 雨で視界が悪い中、AI は「赤い車」をちゃんと見抜けるでしょうか?それとも、ノイズを見て「黒い猫だ!」と勘違いするでしょうか?
- 評価: **「抵抗率(RR)」**という指標で、どれだけ正しい答えを維持できるか測ります。
3. 🎭 証拠汚染モード(嘘のナビゲーター)
- 状況: 動画は正しいのに、**「間違った字幕」や「嘘のナレーション」**を混ぜて出題します。
- 例え: 動画では「ドアを開けている」のに、字幕には「ドアを閉めている」と書かれている。AI は「動画(事実)」を信じるか、それとも「字幕(嘘)」に騙されて「閉めた」と答えるか?
- 評価: これも**「抵抗率(RR)」で測ります。研究发现、AI は視覚がぼやけるより、「嘘の言葉」**に騙されやすいことがわかりました。
4. ⏱️ 時間介入モード(タイムトラベルのテスト)
- 状況: 動画のフレーム(コマ)の順番をシャッフルしたり、逆再生にしたりします。
- 例え: 「卵を割る」→「フライパンに焼く」→「食べる」という正しい手順の動画を、「食べる」→「割る」→「焼く」という順番で流します。
- 目的: AI は「順番」を理解して答えを出しているのか、それとも「動画の雰囲気」だけで適当に答えているのか?
- 評価: **「時間感度スコア(TSS)」**で測ります。
- 良い AI: 順番が変われば「答えも変わる!」と気づく。
- 悪い AI: 順番がバラバラでも、元の答えをそのまま言う(これを**「時間的な惰性」**と呼びます)。
📊 実験結果:何がわかった?
14 種類の最新の AI にこのテストをやらせたところ、驚くべき結果が出ました。
- 「普段の成績が良い=信頼できる」ではない!
綺麗な動画で高得点を取る AI でも、ノイズや嘘の字幕が入ると、急に間違った答えを出すことが多かったです。
- 多くの AI は「時間」に鈍感!
特に「事実性(世の中の常識)」に関する質問で、動画の順番を逆にしても、AI は「あ、これはあの動画だ」と認識せず、同じ間違った答えを繰り返す傾向がありました。まるで、動画の「流れ」を見ていないで、ただ「雰囲気」で答えているようです。
- オープンソース AI の弱点:
多くのオープンソース(無料で使える)AI は、時間的な変化に全く気づかない(スコアがほぼゼロ)という結果でした。
💡 まとめ:なぜこれが重要なの?
INFACT というテストは、AI が「ただ動画を見ているふり」をしているのか、本当に「理解している」のかを暴き出す**「嘘発見器」**のようなものです。
- 視覚が劣化しても、正解を導き出せるか?
- 嘘の字幕に騙されないか?
- 動画の順番が崩れても、論理的に考えられるか?
これらを測ることで、私たちは AI が本当に信頼できるかどうかを判断できるようになります。今後の AI は、綺麗な動画だけでなく、**「ごちゃごちゃした現実世界」**でも正しく動けるよう、このテストをクリアしていく必要があるのです。
一言で言うと:
「INFACT は、AI に『綺麗な写真』だけでなく、『雨の日の運転』や『嘘のナビ』、『逆さまの動画』を見せながら、本当に頭を使っているか、ただの勘で答えているかを厳しくチェックする新しい試験です!」
Each language version is independently generated for its own context, not a direct translation.
INFACT: Video-LLM の幻覚(Hallucination)診断ベンチマークに関する技術的サマリー
本論文は、ビデオ大規模言語モデル(Video-LLM)の信頼性向上に向けた新たな診断ベンチマーク**「INFACT」**を提案するものです。Video-LLM は急速に進化していますが、動画の証拠と矛盾する出力(忠実性の欠如)や、検証可能な世界知識と矛盾する出力(事実性の欠如)という「幻覚(Hallucination)」の問題が依然として残っています。既存のベンチマークは主にクリーンな環境での評価に偏っており、事実性の幻覚や、ノイズや誘導的な条件下でのモデルの堅牢性を十分に評価できていませんでした。
以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。
1. 問題定義と背景
Video-LLM の幻覚は主に 2 つのカテゴリに分類されます。
- 忠実性(Faithfulness)の幻覚: 提供された動画の視覚的証拠と矛盾する出力(例:存在しない物体の認識、動作の誤った記述)。
- 事実性(Factuality)の幻覚: 検証可能な世界知識(物理法則、手順、文化的知識など)と矛盾する出力。
既存の研究の課題点は以下の通りです。
- 事実性の評価不足: 多くのベンチマークは動画内での検証可能性(忠実性)に焦点を当てており、世界知識に基づく事実性の幻覚は軽視されている。
- クリーン環境への依存: 高品質な入力データでのみ評価され、モデルが「言語の事前知識」や「静的な手がかり」に頼って正解している可能性(ショートカット学習)を見逃している。
- 誘発条件下での評価欠如: 視覚的な劣化や証拠の改ざん、時間的順序の破壊など、意図的なノイズを加えた条件下でのモデルの挙動を体系的に評価する枠組みが不足している。
2. 提案手法:INFACT
INFACT は、クリーンな環境からノイズのある環境まで、忠実性と事実性の両方の幻覚を診断するための包括的なベンチマークです。
2.1 データセット構成
- 規模: 9,800 件の QA ペア(質問と動画)。
- ソース: 実在する動画と合成動画(Sora, Wan2.5, Gemini Veo 3 等を用いた物理法則違反の動画を含む)の両方から構成。
- 分類体系(Taxonomy):
- 忠実性(Faithfulness): 視覚的証拠に基づく 3 段階の階層。
- レベル 1: 静的なエンティティと属性(物体認識、属性認識、シーンテキスト等)。
- レベル 2: 動的な動作と運動(動作認識、反復動作の計数、運動属性等)。
- レベル 3: 時空間関係(空間関係、時間的関係、状態遷移、時間的局所化)。
- 事実性(Factuality): 世界知識に基づく 3 つのカテゴリ。
- ドメイン知識(Know-WHAT): 文化イベント、歴史的背景、地理、娯楽等。
- 手続き的知識(Know-HOW): 電子機器、機械、家庭、臨床の手順の論理性。
- 物理的知識(Know-WHY): ニュートン力学、流体力学、材料特性、時空間連続性の理解。
2.2 評価モード(4 段階)
モデルの挙動を多角的に評価するため、4 つのモードを導入しています。
- Base(モード I): クリーンな環境でのベースライン評価。
- Visual Degradation(モード II): 視覚的劣化(ガウシアンノイズ、モーションブラー、圧縮)を加え、視覚情報が劣化しても正解を維持できるか評価。
- Evidence Corruption(モード III): 証拠の改ざん(誤った字幕の注入、ASR ノイズ、敵対的ノイズ)を加え、視覚証拠よりも誤ったテキスト手がかりに依存しないか評価。
- Temporal Intervention(モード IV): 時間的介入(フレームのシャッフル、逆転)を行い、時間的順序が崩れた際にモデルが正解を維持してしまうか(時間的無感覚)を評価。
2.3 評価指標
- Resist Rate (RR): モード II と III 用。正解だった Base モードの回答が、劣化や改ざん後も維持される割合。高い値が望ましい。
- Temporal Sensitivity Score (TSS): モード IV 用。時間的順序が破壊された際、モデルが元の正解(無効化されたラベル)から逸脱する割合。高い値(時間的変化に敏感であること)が望ましい。
3. 主要な貢献
- INFACT ベンチマークの提案: 9,800 件の QA データと、細粒度の分類体系(忠実性・事実性)を備えた、初の包括的な診断ベンチマーク。
- 4 モード評価プロトコルと指標: クリーン環境だけでなく、視覚劣化、証拠改ざん、時間的介入という 3 つの誘発条件下での堅牢性を測定する RR と TSS を提案。
- 大規模モデル評価: 14 種類の代表的な Video-LLM(GPT-5.1, Gemini3-flash, Qwen, InternVL 等)を対象とした体系的な評価と分析。
4. 実験結果と分析
14 種類のモデル(2 つの商用モデルと 12 つのオープンソースモデル)を評価した結果、以下のような知見が得られました。
- ベースライン精度と信頼性の乖離: Base モードでの高い精度は、誘発モード(ノイズや改ざん下)での高い信頼性を保証しない。特に、モデルによっては「言語の事前知識」に頼って正解しているケースが見られた。
- 証拠改ざんへの脆弱性: 視覚的劣化よりも、誤った字幕(Caption Injection)や敵対的ノイズによる「証拠の改ざん」の方が、モデルの安定性(RR)を大きく低下させる。モデルは視覚情報よりも誤ったテキスト手がかりに過剰に依存する傾向がある。
- 時間的慣性(Temporal Inertia)の問題: 多くのオープンソースモデル、特に事実性タスクにおいて、フレームをシャッフルや逆転しても回答が変わらない(TSS が 0 に近い)現象が観測された。これはモデルが時間的構造を理解しておらず、静的な手がかりや順序不変な特徴に依存していることを示唆する。
- 例:Qwen3VL-8B や Gemini3-flash は比較的高い TSS を示したが、多くのオープンソースモデルは事実性タスクで TSS=0 を記録。
- フレームサンプリングの影響: サンプリングフレーム数を増やしても(8〜32 フレーム)、Base 精度は飽和するが、誘発モード下での RR や TSS の向上にはつながらない。フレーム数の増加だけでは信頼性の向上は限定的である。
- 分野別の弱点:
- 事実性: 手続き的推論(手順の正誤判断)や物理的推論において特に困難。
- 忠実性: 運動や構造に依存するタスク(時間的局所化、運動属性認識)で弱点が残る。
5. 意義と結論
INFACT は、Video-LLM の「見かけの性能」ではなく、「真の理解と信頼性」を診断するための重要なツールです。
- 実用性の向上: 現実世界では動画が圧縮されたり、字幕が誤っていたり、順序が混乱したりする可能性があります。INFACT はこれらの条件下でのモデルの挙動を可視化し、デプロイ前のリスク評価を可能にします。
- 研究の指針: 多くのモデルが時間的順序に敏感でない(TSS が低い)という発見は、今後のモデル設計において、時空間的な位置符号化や時間的推論の強化が不可欠であることを示しています。
- 幻覚の定量的評価: 単なる精度だけでなく、「どの条件下で幻覚が発生するか」を定量的に評価する指標(RR, TSS)を提供することで、モデルの改善方向を明確にします。
結論として、現在の Video-LLM はクリーンな環境では高い性能を発揮しますが、ノイズや時間的変化に対しては依然として脆弱であり、特に「事実性」の分野と「時間的推論」において改善が急務であることが INFACT による評価で明らかになりました。