EVA: Efficient Reinforcement Learning for End-to-End Video Agent

この論文は、動画の冗長性を克服し、効率的な理解を実現するために、計画先行型の反復推論と段階的な強化学習パイプラインを採用したエンドツーエンドの動画エージェント「EVA」を提案し、既存の手法を大幅に上回る性能を達成したことを示しています。

Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu

公開日 2026-03-25
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文「EVA」は、**「長い動画を見るのが得意な、賢くて省エネな AI 助手」**を作るための新しい方法を紹介しています。

従来の AI は、長い動画を見る際、まるで**「映画館でスクリーン全体を一度に、そして同じ速さで、何千枚もの写真としてスキャンする」**ようなやり方をしていました。これでは、重要なシーンを見逃したり、無駄な処理で時間とエネルギーを浪費したりしてしまいます。

EVA は、これを**「探偵が事件を解決する」**ような新しいアプローチに変えました。

🕵️‍♂️ EVA の仕組み:探偵の思考プロセス

EVA は、動画を見る前にまず**「計画(プラン)」**を立てます。これを「見る前に考える(Plan-before-Perception)」と呼びます。

  1. 質問を聞く(事件の発生):
    ユーザーから「動画のどこでゴールが決まった?」という質問をもらいます。
  2. 計画を立てる(推理):
    動画を見ずに、「ゴールのシーンなら、おそらく後半の 3 分間あたりだろう。まずは全体を低画質でざっと見て、そのあたりを特定しよう」と考えます。
  3. 行動する(証拠収集):
    動画の「3 分間だけ」を、必要な解像度で切り取って見てみます。
  4. 振り返る(検証):
    「これで十分か?もっと詳しく見る必要があるか?」と自問自答します。もし不十分なら、さらに詳しく見る場所を指定して、また行動します。

このように、**「必要なところだけ、必要なだけ、必要な解像度で見る」**ことができるため、無駄な処理が全くありません。

🎓 3 段階のトレーニング:天才探偵への道

EVA をこのように賢くするために、3 つの段階で教育(トレーニング)を行いました。

  1. 第 1 段階:模倣学習(SFT)——「見習い探偵」
    最初に、優秀な先生(他の AI)が作った「正解の行動パターン」を大量に見せて、基本的なルール(「質問を聞いてから動画を見る」「ツールを使う形式」など)を教えます。
  2. 第 2 段階:KTO 学習(Kahneman-Tversky 最適化)——「失敗からの学習」
    ここが重要なんです。単に「正解」を教えるだけでなく、**「失敗した例」**も一緒に教えます。
    • 「動画を見ずに答えを言おうとした失敗」
    • 「無駄に高画質で全部見てしまった失敗」
      これらを「これはダメな手だ」と学習させることで、AI が間違った方向に進むのを防ぎます。
  3. 第 3 段階:強化学習(GRPO)——「実戦訓練」
    最後に、AI 自身に何度も試行錯誤させます。「正解ならご褒美(ポイント)、不正解なら減点」というルールで、自分自身で「どうすれば最も効率的に正解にたどり着けるか」を学びます。
    • 従来の AI は「全部見てから考える」でしたが、EVA は「考えてから、必要な部分だけ見て、また考えて…」と能動的に動き回るようになります。

🌟 EVA がすごい点(メリット)

  • 超・省エネ: 動画の 100% を見る必要がありません。必要な部分だけをピンポイントで見るので、計算コストが大幅に減ります。
  • 長い動画も得意: 従来の AI は長い動画だと「記憶容量」が足りなくなったり、重要な瞬間を見逃したりしましたが、EVA は「探偵」のように戦略的に動くため、長い動画でも正確に答えられます。
  • 柔軟性: 「低画質で全体をざっと見る」こともあれば、「高画質で特定の 1 秒間を詳しく見る」ことも、AI 自身が状況に合わせて判断できます。

📊 結果

実験の結果、EVA は既存の AI に比べて6〜12% 以上の精度向上を達成しました。特に、長い動画や複雑な質問に対して、無駄な処理をせず、的確に答えを導き出す能力が飛躍的に向上しました。

まとめ

一言で言えば、EVA は**「動画を見るのが面倒な AI」から、「動画のどこを見るべきかを自分で考え、効率的に解決する賢い探偵 AI」へと進化させたもの**です。

これからは、AI が動画を見る際も、ただ漫然と見ているのではなく、私たちが本を読むときのように「目次を見て、必要な章だけ詳しく読む」ような、賢い読み方ができるようになるのです。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →