Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

本論文は、連続的な動画ストリームの理解において、既存の KV キャッシュ手法が抱える細部情報の欠落やフレーム選択の偏りを解決し、適応的なトークン選択とトレーニング不要の検索混合エキスパートモデルを導入した「MemStream」を提案することで、長編動画の質問応答タスクにおいて顕著な性能向上を実現したことを報告しています。

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam, Pulkit Kumar, Abhinav Shrivastava

公開日 2026-02-23
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 物語:長い動画を見る AI の悩み

想像してください。AI が**「図書館の司書」**だとします。
今、お客様(ユーザー)が「この 1 時間の映画の中で、主人公が 2 回目にきゅうりを 3 本取ったのはいつ?」と質問しました。

従来の司書(既存の AI)は、以下のような問題を抱えていました。

  1. メモ帳が小さすぎる(トークン制限):
    映画の 1 秒分をメモする際、「重要な部分だけ」を 1 行でまとめようとしていました。でも、それだと「きゅうりの色」や「背景の動き」などの細かいディテールが抜け落ちてしまいます。
  2. 思い出が混ざり合う(重複とバイアス):
    映画が進むにつれて、司書が持っていたメモ帳(KV-Cache)に情報が溜まっていきます。しかし、**「後半のシーンほど、メモの内容が似てくる」**という奇妙な現象が起きました。
    • 結果: 司書は「あ、後半のシーンが似ているから、ここが正解だ!」と勘違いしてしまい、動画の最後の方ばかりを見てしまうようになりました。
  3. 記憶の検索が不安定:
    司書の頭の中(レイヤー)によって、どこを思い出せるかがバラバラでした。ある時は正解を見つけられ、ある時は全く見つけられませんでした。

💡 新しい解決策:MemStream(メモストリーム)

この論文の著者たちは、この問題を解決するために**「MemStream」**という新しいシステムを開発しました。2 つの大きな工夫があります。

1. 「思い出のアルバム」の整理術(Adaptive Key Selection / AKS)

【従来のやり方】
映画の 1 秒分をメモする際、**「全部を同じように細かく」**書き留めようとしていました。でも、同じようなシーン(例えば、ただの空や壁)を何回も書き写すと、メモ帳がパンクして、肝心な「きゅうりを取る瞬間」の情報が埋もれてしまいます。

【MemStream のやり方】
**「必要なものだけを残し、似たものは消す」**という整理術を使います。

  • アナロジー: 思い出のアルバムを作る時、同じような「晴れた空」の写真は 1 枚だけ残して、他の 10 枚は捨てます。でも、「きゅうりを手に取った瞬間」や「表情が変わった瞬間」のような**「ユニークで重要な写真」**は、すべてきれいに残します。
  • 効果: これにより、メモ帳(KV-Cache)の容量を無駄に使わず、「細かいディテール」を失わずに、重要な情報だけを圧縮して保存できるようになりました。

2. 「複数の専門家」による共同作業(Mixture-of-Experts / MoE)

【従来のやり方】
司書(AI モデル)が一人で「どこにきゅうりがあったか」を探していました。でも、司書は「後半のシーン」に引きずられやすく、間違えることがありました。

【MemStream のやり方】
**「外部の専門家」**を呼んで、司書と協力させます。

  • アナロジー:
    • 司書(内部の AI): 全体の文脈やストーリーの流れを把握するのが得意。
    • 写真家(外部の AI): 「きゅうり」という物体や「手」の動きを、ピタッと見つけるのが得意。
    • 共同作業: 司書と写真家がそれぞれ「ここだ!」と指差した場所を、**「多数決」ではなく「順位を合わせて」**最終的に決定します。
  • 効果: どちらか一方が間違えても、もう一方が補ってくれるので、**「きゅうりを 3 本取った瞬間」**を、動画のどの部分でも正確に見つけられるようになりました。

🏆 結果:どれくらい良くなった?

この新しい方法(MemStream)を試したところ、既存の最高峰の技術(ReKV)と比べて、以下のような劇的な改善が見られました。

  • CG-Bench(複雑な動画の理解): 8.0% 向上
  • LVBench(超長編動画): 8.5% 向上
  • VideoMME(長い動画): 2.4% 向上

具体的な例(図 7):

  • 質問: 「主人公が 2 回目にきゅうりを何本取った?」
  • 古い AI(ReKV): 「6 本」と間違った答えを出しました(後半のシーンと混同したため)。
  • 新しい AI(MemStream): 「3 本」と正解しました(重要な瞬間を正確に捉えたため)。

📝 まとめ

この論文は、**「長い動画を見る AI」**に対して、以下の 2 つのアドバイスを与えています。

  1. メモの取り方を変える: 全部を細かく書くのではなく、**「似ているものは省いて、ユニークな情報だけを残す」**ことで、記憶の質を高める。
  2. チームワークを重視する: 1 人の天才に頼るのではなく、「文脈が得意な人」と「細部が得意な人」を組ませて、一緒に正解を探させる。

これにより、AI はまるで**「思い出深い映画を、鮮明に、そして正確に思い出せる人」**になったのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →