WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本論文は、視覚・聴覚・テキスト入力を同時に評価する初のオムニモーダル動画理解ベンチマーク「WorldSense」を提案し、既存モデルが現実世界のシナリオ理解において依然として課題を抱えていることを示すとともに、今後の開発指針を提供することを目的としています。

Jack Hong, Shilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

こんにちは!この論文「WorldSense」について、難しい専門用語を使わずに、まるで**「AI のための新しい運転免許試験」**の話のようにお話しします。

🌍 世界を「全感覚」で理解するテスト「WorldSense」

皆さんは、車を運転するときにどうやって安全に進んでいるか想像してみてください。

  • で信号や歩行者を見る(映像)。
  • でクラクションやサイレンの音に気づく(音声)。
  • でハンドルやブレーキの感触を感じる(触覚)。

人間はこれらをすべて組み合わせて「今、何が起こっているか」を瞬時に判断しています。しかし、最新の AI(マルチモーダル大規模言語モデル)は、「目(映像)」と「口(テキスト)」は得意だけど、「耳(音声)」はあまり聞いていないという状態でした。

この論文は、「AI が本当に現実世界を理解できているか」を測る、世界初の『全感覚テスト』「WorldSense」を発表しました。


🎯 このテストの 3 つのすごい特徴

このテストは、これまでの AI の試験とは全く違う、3 つのルールで構成されています。

1. 🎵 映像と音が「セット」でないと解けない(オムニモーダル)

これまでの AI のテストは、映像だけを見て「何が見えているか」を答えるものがほとんどでした。
でも、このテストでは**「映像と音が密接に絡み合っている」**問題を出します。

  • 例え話:
    • 映像:男の人が手にお菓子を持っています。
    • 音声:「このブルーベリー、クォーター(1/4)ドル硬貨より大きいんだよ!」という声。
    • 質問: 「男の人が何をしているか?」
    • 正解: 映像だけ見ると「お菓子を見せている」ですが、音声を聞かないと「サイズを比較している」という意味が分かりません。
    • 逆に、音だけ聞くと「お菓子の話」ですが、映像を見ないと「何のサイズ?」が分かりません。
    • つまり、映像と音を「同時に」理解して初めて正解できるのです。

2. 🎬 1,662 本の動画と 3,172 問の多様な問題

このテストには、8 つの大きな分野(科学、文化、日常生活、スポーツなど)に分類された1,662 本の動画と、それに関連する3,172 個の質問が含まれています。

  • 音楽のジャンルを当てる問題。
  • 背景の騒音から場所を推測する問題。
  • 感情のこもった声のトーンを理解する問題。
    など、現実世界の「ざわざわした」状況をそのまま再現しています。

3. 📝 専門家による「超」高品質な採点

すべての質問と答えは、80 人の専門家が何度もチェックして作りました。

  • 「この質問は本当に映像と音の両方が必要か?」
  • 「難しすぎないか?簡単すぎないか?」
  • 「AI が適当に答えられないか?」
    を厳しくチェックしています。まるで、**「AI がうっかり正解しないように、ひねくれた問題を作る」**ようなレベルの品質です。

📉 結果:AI はまだ「初心者」レベルでした

このテストで、世界中の最先端 AI を試してみたところ、衝撃的な結果が出ました。

  • オープンソースの AI(無料で使えるもの):
    多くの AI は、**「ランダムに選ぶのと同じ(25% 前後)」**しか正解できませんでした。

    • 理由: 映像と音を「別々のもの」として処理してしまい、**「音と映像を結びつけて考える」ことができていませんでした。まるで、「音楽を聴きながら映画を見る」のではなく、「映画を見ている最中に音楽を無視して別々のことを考えている」**ような状態です。
  • 大手企業の AI(Gemini 2.5 Pro など):
    一番できた AI でも、正解率は**65.1%**でした。

    • これは人間なら「合格」ですが、「現実世界で自動運転や救命活動ができるレベル」にはまだ遠いことを示しています。
    • 特に、**「音そのもの(生の音声)」**を直接理解する能力は弱く、字幕(テキスト)に頼りすぎている傾向がありました。

🔍 なぜ AI はつまずいているの?

論文では、AI が間違える理由を 3 つにまとめました。

  1. 耳が聞こえていない: 映像はよく見ているのに、音声を「ただのノイズ」や「テキスト化された文字」としてしか扱えていません。
  2. つなぎ方が下手: 映像と音を「別々のパズル」として扱って、最後に無理やりつなげようとしています。本当は、最初から**「映像と音が一体になったもの」**として捉える必要があります。
  3. 推論が甘い: 「音がしているから、ここは騒がしい」という単純な判断はできても、「その音が悲しげな音楽だから、このシーンは悲劇だ」といった複雑な文脈の理解が苦手です。

🚀 未来へのメッセージ

この「WorldSense」は、AI 開発者への**「道しるべ」**です。

  • 「映像だけよくすればいい」時代は終わりました。
  • 「耳と目と心(文脈)」を同時に使う新しい AI の作り方が必要です。

このテストを通じて、AI が人間のように、**「車のクラクションを聞いて危険を感じたり、音楽の雰囲気で場の空気を察したり」**できる、本当の意味で「世界を理解する」AI が生まれることを期待しています。

一言で言うと:

「これまでの AI は『目が見えるけど耳が聞こえない』状態でした。『WorldSense』は、耳も目も心も使って、リアルな世界を理解できるかどうかを測る、新しい『運転免許試験』なのです。」