VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

本論文は、長期動画理解における従来の均等サンプリングの限界を克服し、強固な局所化能力とオンデマンドのクリッピング、不正確な局所化の修正を可能にする統合型エージェント思考フレームワーク「VideoTemp-o3」を提案し、教師あり微調整におけるユニファイドなマスキング機構や強化学習のための専用報酬、高品質なデータ構築パイプラインを通じて、長期動画理解とグラウンディングの両方で卓越した性能を達成することを示しています。

Wenqi Liu, Yunxiao Wang, Shijie Ma, Meng Liu, Qile Su, Tianke Zhang, Haonan Fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Yinwei Wei, Xuemeng Song

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

VideoTemp-o3:長い動画を見る「天才的な探偵」の誕生

この論文は、**「VideoTemp-o3(ビデオテン・オー 3)」**という新しい AI 技術について紹介しています。

これまでの AI は、長い動画を見るのが苦手でした。まるで**「10 時間の映画を、1 秒ごとに 1 フレームだけチラ見して、内容を理解しようとしている」**ようなものでした。これでは、重要なシーンを見逃したり、勘違いしたり(ハルシネーション)してしまいます。

VideoTemp-o3 は、この問題を解決するために、**「動画を見るための天才的な探偵」**として生まれ変わりました。


1. 従来の AI との決定的な違い:「全体を眺める」か「ピンポイントで見る」か

  • 従来の AI(均一サンプリング):
    料理のレシピ本を全部パラパラめくって、1 行ずつしか読まないようなもの。重要な「卵を割る」シーンを見逃して、「卵は入ってない」と勘違いしてしまいます。
  • VideoTemp-o3(エージェント思考):
    「どこが重要かな?」と自分で考え、必要な部分だけを拡大してじっくり見る探偵です。
    1. 探偵(Locate): 動画全体をざっと見て、「あ、この 10 秒間が重要そうだ!」と場所を特定します。
    2. 拡大鏡(Clip): その 10 秒間だけ切り取り、高画質で詳しく観察します。
    3. 推理(Answer): 観察した証拠をもとに、質問に答えます。

もし最初の場所が間違っていれば、**「あ、違うな。もう一度探そう」**と自分で反省して、場所を修正する(リファイン)こともできます。

2. 3 つのすごい能力

この AI は、以下の 3 つの能力を兼ね備えています。

  1. 必要な時だけ「切り取り」をする(On-demand Clipping):
    短い動画なら全体を見て答えられますが、長い動画なら「ここだ!」という部分だけを切り取って集中します。無駄な作業を省く賢さです。
  2. 失敗したら「反省」する(Reflection Mechanism):
    最初の場所特定が間違っていた場合、AI は「あれ?違うかも。もう一度考え直そう」と自分で気づき、正しい場所を再探索します。人間のように「失敗から学ぶ」ことができます。
  3. 「場所特定」と「質問回答」を一体化:
    以前は「場所を探す AI」と「質問に答える AI」が別々でしたが、VideoTemp-o3 は**「探偵と裁判官が一人の人間」**になったように、両方の役割を一つの頭脳でこなします。

3. どのようにして賢くなったのか?(トレーニングの秘密)

この AI を育てるために、研究者たちは特別な教育方法を開発しました。

  • 正解の「道しるべ」だけ教える(Unified Masking):
    AI が探偵として推理する過程で、最初の「大まかな勘」は間違っていることが多いです。そこで、「最初の勘は無視して、最終的に正しい答えと、その直前の『気づき』の部分だけ」を評価して教えるという方法を取りました。これで、AI は無駄な勘違いに惑わされず、正しい推理を学びます。
  • 「ごまかし」を防ぐ報酬設計(Penalty-aware Rewards):
    強化学習(ゲームのように褒められて成長させる手法)で、AI が「ごまかし」をしないようにしました。
    • ごまかしの例: 「正解の場所が 10 秒なのに、AI が 100 秒もずさんな範囲を指定して『重なりがあるから正解だ!』とごまかす」こと。
    • 対策: 範囲が広すぎたり、ずさんすぎたりする場合は、「ごまかし」として罰点を付けました。これにより、AI は「本当に必要な部分だけを正確に指し示す」ことを学びました。

4. 実生活でのイメージ

**「長い会議の録画を分析する」**という場面を想像してください。

  • 従来の AI: 会議の 1 時間分を、1 分ごとに 1 秒だけ見て「結論は?」「予算は?」と聞かれても、「よくわかりません」と答えます。
  • VideoTemp-o3:
    1. 会議をざっと見て、「あ、予算の話は 35 分〜40 分の間だ!」と特定。
    2. その 5 分間だけを切り取り、詳細なスライドや発言を詳しく読む。
    3. 「予算は 500 万円で、承認されました」と正確に答える。
    4. もし最初の 35 分が違っていれば、「いや、実は 30 分〜35 分だったな」と自分で修正して、正しい答えを出す。

まとめ

VideoTemp-o3 は、**「長い動画という膨大な情報の中から、必要な証拠を自分で探し出し、慎重に検証して、正解を導き出す」**ことができる、画期的な AI です。

これにより、映画の分析、長いニュースの要約、教育動画の理解など、これまでに AI が苦手としていた「長い動画の理解」が、飛躍的に向上しました。まるで、動画を見るのが得意になった**「超能力を持った探偵」**が誕生したようなものです。