OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

本論文は、音声と視覚の相補性と論理的整合性に焦点を当て、1000 の高品質な QA ペアと詳細な推論トレースを含む大規模ベンチマーク「OmniVideoBench」を提案し、現在のマルチモーダル大規模言語モデルにおける真の音声・視覚推論能力の限界を明らかにするものです。

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧐 問題:今の AI は「耳」か「目」しか使えていない?

最近の AI(マルチモーダル大規模言語モデル)は、画像を見て言葉を話したり、動画を見て内容を理解したりする能力がすごく向上しています。でも、ここには大きな**「穴」**がありました。

これまでのテストは、以下のような問題点があったんです:

  • 短い動画しか見ていない: 映画の一場面だけを見て、全体を理解したつもりになっている。
  • 音声を無視している: 「映像だけ見れば OK!」という感じで、音声(会話や効果音)を補助的にしか扱っていない。
  • 論理が飛んでいる: 映像と音が矛盾していても、無理やりつじつまを合わせている。

つまり、「映像(目)」と「音声(耳)」を同時に使って、論理的に深く考える力が、まだ十分に測られていなかったのです。


🏆 解決策:OmniVideoBench(オムニ・ビデオ・ベンチ)とは?

そこで登場するのが、この新しいテスト**「OmniVideoBench」**です。

これを**「AI 向けの、超ハードモードの『耳と目』の連携テスト」**と想像してください。

📦 このテストの中身は?

  • 628 本の動画: 数秒から 30 分まで、ニュース、ドキュメンタリー、スポーツ、日常の Vlog など、多様なジャンル。
  • 1,000 問のクイズ: 映像と音声を両方使わないと解けない、質の高い質問。
  • 正解への「思考の道しるべ」: 単に正解だけでなく、「なぜその答えなのか」を、映像のどこを見て、音のどこを聞いて、どう推理したかという**「ステップバイステップの思考プロセス」**も付いています。

🎯 テストの目的

AI が、**「映像と音が互いに補い合い(相補性)」、矛盾なく論理的に(論理的一貫性)**理解できているかを厳しくチェックすることです。


🔍 具体的なテスト例:AI はどう答える?

論文の図 1 にある例を見てみましょう。

【質問 1】

「『NO ONE FIGHT ALONE(誰も一人で戦わない)』というポスターは、Culein-Anbar を配置した人のどこにありますか?」

  • A. 左の壁
  • B. 奥の壁
  • C. 右の壁
  • D. 手前の壁

【AI の思考プロセス(例:Gemini-2.0-Flash)】

  1. 目(V): 「NO ONE FIGHT ALONE」というポスターを探す。
  2. 耳(A): 「Culein-Anbar を配置した」というセリフを聞き、誰が言ったか特定する。
  3. 目(V): 全体像を見て、ポスターと配置した人の位置関係を把握する。
    • 正解: B(奥の壁)

【質問 2】

「スティーブンが止めなかったら、その若者は何をする?」

  • A. クッキーの秘密を話す
  • B. クッキーを食べてみる
  • C. みんなに食べたことを話す
  • D. 彼女にサプライズをあげる

【AI の思考プロセス】

  1. 耳(A): スティーブンが「クッキーに関わるな」と言っているのを聞く。
  2. 耳(A): 若者が「台所で話したい」と言っているのを聞く。
  3. 目(V): 若者が指輪の箱を持っていて、真剣な表情をしているのを見る。
    • 推理: 指輪+真剣な表情=プロポーズのサプライズ!
    • 正解: D

このように、**「音で文脈を掴み、映像で証拠を見つけ、最後に論理でつなぐ」**という複雑な作業ができるかが問われます。


📉 結果:AI はまだ「人間」には遠い

このテストで、世界中のトップ AI を試したところ、衝撃的な結果が出ました。

  • 合格ライン(60%)に達した AI は一人もいない!
  • 最強の AI(Gemini-2.0-Pro)でも、**58.9%**という微妙なスコア。
  • オープンソースの AI は、ほぼ**「ランダムに答えを当てるレベル(30% 前後)」**でした。
  • 人間は**82.69%**の正解率。

🎵 特に苦手な分野

  • 音楽: 音楽の雰囲気やテンポの変化から感情を読み取るのが苦手(正解率 38% 台)。
  • 長い動画: 30 分近い動画になると、途中で内容を忘れたり、論理が破綻したりする。

これは、AI がまだ**「映像と音の深い意味を結びつける力」「長い物語を頭の中に保持する力」**が不足していることを示しています。


🚀 まとめ:なぜこれが重要なのか?

OmniVideoBench は、単なる「AI の成績表」ではありません。

  • AI の弱点を可視化する: 今の AI がどこでつまずいているか(特に音楽理解や長い動画の論理)を明確にしました。
  • 次の進化の道しるべ: 「耳と目」を本当に連携させた、人間のように柔軟に考える AI を作るための目標となりました。

「OmniVideoBench」は、AI に「ただ見る・聞く」ではなく、「見て、聞いて、考えて、理解する」ことを教えるための、新しいトレーニングジムなのです。

このテストを通じて、将来的には、映画の伏線を察知したり、複雑な事件を推理したりできる、本当に賢い AI が生まれることを期待しましょう!