Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

本論文は、クロスモーダルな時間的推論を明示的に必要とするオーディオ・ビジュアル QA ベンチマーク「Daily-Omni」を提案し、多数の基盤モデルを評価することで、現在のマルチモーダル大規模言語モデルがモダリティ間の時間的整合性の確立において依然として課題を抱えていることを明らかにしています。

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Daily-Omni(デイリー・オムニ)」**という新しいテストと、それを使って行われた実験について書かれています。

これをわかりやすく説明するために、**「耳と目を使って、リアルな世界を理解する AI のテスト」**というイメージを持ってください。

1. 何が問題だったの?(背景)

最近の AI(マルチモーダル大規模言語モデル)は、**「目(画像・動画)」を見るのが得意になったり、「耳(音声)」を聞くのが得意になったりしています。
しかし、これらは
「別々に」得意なだけで、「目と耳を同時に使って、時間の流れの中で何が起こっているかを理解する」**という作業は、まだあまり上手ではありません。

  • 例え話:
    料理番組を見て、「包丁で野菜を切っている(目)」と「カチャカチャという音(耳)」が同時に起こっていることを理解するのは人間には簡単ですが、今の AI は「野菜が切れている」という映像だけを見て答えたり、「カチャカチャ」という音だけ聞いて答えたりして、**「今、包丁で野菜を切っている瞬間だ!」という「タイミングの一致」**を見抜くのが苦手なのです。

2. 彼らが作ったもの:Daily-Omni(デイリー・オムニ)

研究者たちは、この「タイミングの一致」を測るための新しいテスト「Daily-Omni」を作りました。

  • 中身: 684 本のリアルな日常動画(YouTube などから)と、それに関する 1,197 個の質問です。
  • 特徴:
    • 「誰が話しているか」と「誰が手を振っているか」が同じ瞬間に一致しているか?
    • 「ドアが閉まる音」と「ドアが閉まる映像」が同時に起きているか?
    • 「前のシーン」と「後のシーン」で、音がどう変わったか?
    • など、**「耳と目の情報を、時間の流れに合わせてつなげる」**ことが必須の質問ばかりです。

3. 彼らがやったこと:AI をテストした

このテストを使って、世界中の 24 種類の最新の AI を試しました。

  • 結果:
    • 多くの AI は、**「目だけ」または「耳だけ」**の情報ではそこそこできました。
    • しかし、**「目と耳を両方使って、タイミングを合わせて考える」**問題になると、多くの AI はつまずいてしまいました。
    • 驚いたことに、**「特別な学習をさせていない、単純な仕組みの AI(Daily-Omni エージェント)」**の方が、最新の複雑な AI よりも良い成績を出したこともあります。これは、最新の AI が「タイミングを合わせる」ことにまだ慣れていないことを示しています。

4. 彼らが提案した「解決策のヒント」

彼らは、AI が失敗する理由を分析しました。

  • 発見: AI は「映像」と「音声」を別々に処理して、最後に無理やりつなげようとしています。でも、それでは「今、この音がこの映像に合っている!」という**「瞬間の結びつき」**が見えません。
  • 提案:
    • AI に「この 10 秒間では、この音とこの映像がセットだ」と明示的に教えてあげることや、
    • 「音と映像のタイミングを合わせる」という特別な仕組みを AI の中に組み込むこと
    • が、AI をもっと賢くする鍵だとわかりました。

まとめ:この論文のメッセージ

「今の AI は、目と耳の情報を『別々に』見ることはできますが、それを『同時に』理解して、リアルな世界の出来事を正しく把握するのはまだ苦手です。」

この「Daily-Omni」というテストは、AI が**「耳と目で、時間の流れを正しく感じ取る」**能力を鍛えるための、新しい「練習用ドリル」と「成績表」です。

これからの AI 研究は、単に「見る」「聞く」だけでなく、**「いつ、何が、どうつながっているか」**を深く理解できるようになることが重要だと、この論文は伝えています。