Agentic Very Long Video Understanding

本論文は、スマートグラスなどのウェアラブルデバイスによる常時オン型個人 AI アシスタントの実現に向け、数日〜数週間にわたる連続的な egocentric ビデオを理解するために、エンティティ・シーングラフを中核とした計画エージェントと構造化検索・推論ツールを組み合わせた「EGAgent」を提案し、長期ビデオ理解タスクにおいて最先端の性能を達成したことを報告しています。

Aniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ずっとつけっぱなしのスマートグラス(メガネ型 AI)」が、あなたの「数日〜数週間分のすべての生活」**を完璧に理解し、質問に答えられるようにするための新しい技術「EGAgent」について書かれています。

これをわかりやすく説明するために、**「巨大な図書館」と「賢い司書」**の話をしてみましょう。

1. 問題:「思い出」が散らばっている巨大な図書館

想像してみてください。あなたが 1 週間、24 時間ずっとスマートグラスをつけて生活したとします。その結果、**「1 週間分の動画」**という、とてつもなく巨大なデータが生まれます。

  • 従来の AI(図書館の司書):
    今までの AI は、この巨大な図書館に「昨日の朝、コーヒーを飲んだのは誰?」と聞くと、**「本を全部読み直して、該当するページを探さないと答えられない」**という弱点がありました。
    • 本(動画)が長すぎると、司書の頭(AI の記憶容量)に入りきらないのです。
    • 「先週の水曜日に、誰とどこで会って、その後何を話した?」といった**「複数の出来事をつなげて考える(多段推論)」**質問には、全く答えられませんでした。

2. 解決策:EGAgent(超・賢い司書と「人物関係図」)

この論文が提案する**「EGAgent」は、ただ本を読み直すのではなく、「人物関係図(エンティティ・シーン・グラフ)」という「超・簡易な地図」**を作ってから探す、新しいアプローチです。

① 地図を作る(エンティティ・シーン・グラフ)

EGAgent は、1 週間分の動画をただ眺めるのではなく、まず**「誰が、いつ、誰と、何をして、どこにいたか」を整理した「人物関係の地図」**を作ります。

  • ノード(点): 「私(Jake)」、「Shure(友人)」、「コーヒーカップ」、「キッチン」など。
  • エッジ(線): 「Shure と話した(10 時〜10 時 10 分)」、「コーヒーを使った(11 時)」など。
  • 特徴: この地図には**「時間」という情報が付いています。「誰と会ったか」だけでなく「いつ会ったか」**まで記録されているのです。

アナロジー:
普通の AI は、**「1 週間分の日記をすべて読み返して、キーワードを探す」作業をしています。
EGAgent は、
「誰がいつどこにいたか」をまとめた「人物関係のタイムライン表」**を事前に作っておき、そこから必要な情報だけをピンポイントで引き出します。

② 3 つの道具を使って探す(エージェントのツール)

EGAgent は、この「人物関係の地図」だけでなく、以下の 3 つの道具を組み合わせて質問に答えます。

  1. 人物関係の地図(Entity Graph):
    「先週、私が誰と何回会ったか?」といった**「関係性」**を問う質問に最強です。地図を見れば、誰と誰が繋がっているかが一目でわかります。
  2. 音声の検索(Audio Transcript):
    「誰が何を言ったか?」という**「会話の内容」**を探すのに使います。
  3. 映像の検索(Visual Search):
    「どんな風景だったか?」という**「視覚的な情報」**を探すのに使います。

③ 賢い計画を立てる(プランニング・エージェント)

質問が来ると、EGAgent の頭脳(プランニング・エージェント)は、**「この質問に答えるには、まず地図を見て、次に音声をチェックして、最後に映像を確認しよう」と、「作業の手順(プラン)」**を自分で考えます。

例え話:
質問:「先週、私がカフェで誰と会ったか?」

  • 悪い AI: 1 週間分のカフェの映像をすべて見ながら、「あ、誰だっけ?」と迷走する。
  • EGAgent:
    1. 「まず、人物関係の地図で『カフェ』と『私』が繋がっている日付を探す」→「火曜日と木曜日が見つかった!」
    2. 「次に、その日の音声データで『誰と会話したか』を確認」→「火曜日は Shure、木曜日は Lucia と話していた!」
    3. 「最後に、映像で確認して、間違いがないかチェック」→「OK、正解は Shure と Lucia だ!」

このように、**「地図(関係性)」+「音声(会話)」+「映像(風景)」**を組み合わせることで、複雑な質問にも正解を出せるのです。

3. なぜこれがすごいのか?(結果)

実験では、この EGAgent が**「EgoLifeQA」**という、非常に長い動画の理解をテストする難しい試験で、世界最高レベルの成績を収めました。

  • 特に**「誰と誰がいつ会ったか」「習慣(毎日何をしているか)」といった、「複数の情報を繋げて考える」**質問において、従来の AI を大きく引き離しました。
  • 従来の AI が「100 枚の画像を全部見せて」と言っていたところ、EGAgent は**「必要な 50 枚だけ」を賢く選び出し、かつ「10 倍以上少ないデータ量」**で同じ精度を達成しました。

まとめ

この論文は、**「AI があなたの人生を忘れないようにする」**ための新しい仕組みを提案しています。

  • 昔の AI: 「全部覚えておこうとして、頭がパンクする」
  • EGAgent:『誰と誰がいつ何をしたか』という地図を作り、必要な時だけその地図と会話録、写真を照らし合わせて答える」

まるで、**「あなたの人生を記録する、超・賢いアシスタント」が、散らばった思い出を「整理された地図」**に変えて、いつでも「あの時のあの人は誰だったっけ?」と聞かれたら、瞬時に答えられるようになるようなものです。

これからのスマートグラスや AI 助手は、単に「今」を見るだけでなく、**「あなたの長い人生の文脈」**を理解できるようになるための第一歩と言えるでしょう。