INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

本論文は、動画大規模言語モデル(Video-LLM)の「忠実性」と「事実性」に関するハルシネーションを包括的に診断し、視覚劣化や証拠改ざんなどの誘発条件下でのモデルの信頼性を評価する新しいベンチマーク「INFACT」を提案し、ベースモードでの高精度が誘発モードでの安定性を保証しないことを実証しています。

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎥 INFACT: 「ビデオ AI」の嘘つき度合いを測る新しいテスト

こんにちは!今回は、最新の AI 研究「INFACT(インファクト)」について、難しい専門用語を使わずに、まるで「料理の味見」や「運転のテスト」のような日常の例えを使って解説します。

🤔 そもそも何の問題があるの?

最近、動画を見て内容を理解したり、質問に答えたりする「ビデオ AI(Video-LLM)」がすごい進化を遂げています。でも、これらには**「幻覚(ハルシネーション)」**という大きな弱点があります。

  • 嘘つき 1 号(忠実性の欠如): 動画に「赤い車」が写っているのに、「青い車だ!」と間違ったことを言う。
  • 嘘つき 2 号(事実性の欠如): 動画には関係ないのに、世の中の常識(例えば「水は 100 度で沸騰する」)を無視して、物理的にありえないことを言う。

これまでのテストは「綺麗な動画」でしか評価されていませんでした。でも、現実世界はノイズだらけです。画面がぼやけていたり、字幕が間違っていたり、動画の順番がバラバラだったりする中で、AI は本当に正しい判断ができるのでしょうか?

🔍 INFACT とは?(新しい「運転免許試験」)

この論文では、INFACTという新しいテスト基準を紹介しています。これは、AI の「嘘つき度合い」を徹底的に診断するための、9,800 問もの大規模なテストです。

このテストは、AI を以下の4 つの異なる状況で試します。

1. 🌟 ベースモード(晴れた日の運転)

  • 状況: 綺麗な動画と、正しい質問。
  • 目的: 普段の能力を確認する「基本テスト」。

2. 🌧️ 視覚劣化モード(雨の日の運転)

  • 状況: 動画に「ノイズ」を乗せたり、画面を「ぼやけさせたり(モーションブラー)」、「圧縮」したりします。
  • 例え: 雨で視界が悪い中、AI は「赤い車」をちゃんと見抜けるでしょうか?それとも、ノイズを見て「黒い猫だ!」と勘違いするでしょうか?
  • 評価: **「抵抗率(RR)」**という指標で、どれだけ正しい答えを維持できるか測ります。

3. 🎭 証拠汚染モード(嘘のナビゲーター)

  • 状況: 動画は正しいのに、**「間違った字幕」「嘘のナレーション」**を混ぜて出題します。
  • 例え: 動画では「ドアを開けている」のに、字幕には「ドアを閉めている」と書かれている。AI は「動画(事実)」を信じるか、それとも「字幕(嘘)」に騙されて「閉めた」と答えるか?
  • 評価: これも**「抵抗率(RR)」で測ります。研究发现、AI は視覚がぼやけるより、「嘘の言葉」**に騙されやすいことがわかりました。

4. ⏱️ 時間介入モード(タイムトラベルのテスト)

  • 状況: 動画のフレーム(コマ)の順番をシャッフルしたり、逆再生にしたりします。
  • 例え: 「卵を割る」→「フライパンに焼く」→「食べる」という正しい手順の動画を、「食べる」→「割る」→「焼く」という順番で流します。
  • 目的: AI は「順番」を理解して答えを出しているのか、それとも「動画の雰囲気」だけで適当に答えているのか?
  • 評価: **「時間感度スコア(TSS)」**で測ります。
    • 良い AI: 順番が変われば「答えも変わる!」と気づく。
    • 悪い AI: 順番がバラバラでも、元の答えをそのまま言う(これを**「時間的な惰性」**と呼びます)。

📊 実験結果:何がわかった?

14 種類の最新の AI にこのテストをやらせたところ、驚くべき結果が出ました。

  • 「普段の成績が良い=信頼できる」ではない!
    綺麗な動画で高得点を取る AI でも、ノイズや嘘の字幕が入ると、急に間違った答えを出すことが多かったです。
  • 多くの AI は「時間」に鈍感!
    特に「事実性(世の中の常識)」に関する質問で、動画の順番を逆にしても、AI は「あ、これはあの動画だ」と認識せず、同じ間違った答えを繰り返す傾向がありました。まるで、動画の「流れ」を見ていないで、ただ「雰囲気」で答えているようです。
  • オープンソース AI の弱点:
    多くのオープンソース(無料で使える)AI は、時間的な変化に全く気づかない(スコアがほぼゼロ)という結果でした。

💡 まとめ:なぜこれが重要なの?

INFACT というテストは、AI が「ただ動画を見ているふり」をしているのか、本当に「理解している」のかを暴き出す**「嘘発見器」**のようなものです。

  • 視覚が劣化しても、正解を導き出せるか?
  • 嘘の字幕に騙されないか?
  • 動画の順番が崩れても、論理的に考えられるか?

これらを測ることで、私たちは AI が本当に信頼できるかどうかを判断できるようになります。今後の AI は、綺麗な動画だけでなく、**「ごちゃごちゃした現実世界」**でも正しく動けるよう、このテストをクリアしていく必要があるのです。


一言で言うと:
「INFACT は、AI に『綺麗な写真』だけでなく、『雨の日の運転』や『嘘のナビ』、『逆さまの動画』を見せながら、本当に頭を使っているか、ただの勘で答えているかを厳しくチェックする新しい試験です!」