Stateful Token Reduction for Long-Video Hybrid VLMs

本論文は、アテンションと状態空間モデル(Mamba)を混在させるハイブリッド型長動画 VLM において、トークンの重要度が層間で変動する特性を踏まえ、段階的な削減スケジュールと言語意識型スコアリングを導入することで、精度を維持しつつプリフィル速度を大幅に向上させる手法を提案しています。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko, Karan Sapra, Zhiding Yu, Guilin Liu, Andrew Tao, Pavlo Molchanov, Jan Kautz, Wonmin Byeon

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

長い動画を賢く見るための「メモ帳と要約術」

~NVIDIA の新しい研究「Stateful Token Reduction」をわかりやすく解説~

みなさん、長い動画を AI に見せて「この動画のあらすじを教えてください」と頼んだことはありますか?
AI が長い動画(例えば 1 時間ものドキュメンタリーなど)を理解しようとするとき、実は**「情報量が多すぎて頭がパンクしそう」**になっているんです。

この論文は、その問題を解決するために、**「新しいタイプの AI(ハイブリッド型)」に特化した、「賢い情報整理術」**を提案しています。


1. 問題:動画は「情報過多」の嵐

長い動画は、フレーム(映像の切り取り)が数千枚あります。AI はこれをすべて「トークン(単語のような単位)」として処理します。

  • 従来の方法: 動画のすべての情報を一度に読み込もうとするので、計算が重くて時間がかかり、メモリが足りなくなります。
  • 既存の解決策: 「重要そうな部分だけ残して、他は捨てよう」という方法(トークン削減)がありますが、これまでの技術は**「最初の段階で思い切り捨ててしまう」**傾向がありました。

【悪い例】
まるで、**「映画の冒頭 5 分だけ見て、残りの 2 時間は全部捨てて、あらすじを推測する」**ようなものです。重要な伏線や結末を見逃してしまいます。


2. 発見:AI の「記憶」には 2 種類ある

この研究では、AI の内部構造を 2 つのタイプに分けて分析しました。

  1. 従来の AI(Transformer):
    • 特徴: 一時的な記憶しか持たない。
    • 例: 「その場限りのメモ」。一度捨てた情報は、二度と戻ってきません。
  2. 新しい AI(ハイブリッド型:Mamba + Transformer):
    • 特徴: **持続的な記憶(状態空間)**を持っている。
    • 例: 「賢い秘書のノート」。情報を捨てても、その「要約」がノートの奥底に蓄積され、後で必要な時に引き出せます。

【重要な発見】

  • 最初の段階では、何が重要か分からない。 動画の前半と後半で、重要な場面は変わります。
  • 従来の AIは、最初の段階で間違って捨てると、取り返しがつかない(記憶がないから)。
  • 新しい AIは、最初の段階で捨てても、その「要約」が記憶に残っているため、後で復元できる(記憶があるから)。

3. 解決策:「段階的な要約術」

この発見に基づき、論文では**「低から高への段階的削減(Progressive Reduction)」**という新しいルールを提案しました。

📝 従来のルール(ダメな例)

  • 冒頭でガッツリ捨てる。
    • 「最初の 10 分は全部捨てて、残りの 90 分だけ見る」
    • → 重要な導入部分を見逃す。

✨ 新しいルール(この論文の提案)

  • 最初は優しく、後半でガッツリ捨てる。
    1. 前半(浅い層): 情報は捨てずに、「メモ帳(記憶)」にしっかり書き込む
      • 「まだ何が起こるか分からないから、とりあえず全部メモしておこう」
    2. 後半(深い層): メモ帳に情報が蓄積されたので、「不要な部分を整理して捨てる」
      • 「もう全体像がわかったから、細部は整理して、重要なポイントだけ残そう」

【イメージ】

  • 従来の方法: 本を 1 ページ目から読みながら、読んだ瞬間に「要らないページ」を破り捨てる。
  • この論文の方法: 本を読み進めながら、**「要約ノート」**にどんどん書き込んでいく。読み終わる頃には、ノートには重要なポイントだけが残っており、元の本(動画)の重さは軽くなっている。

4. すごい成果:「速くて、賢い」

この方法を実験した結果、驚くべきことがわかりました。

  • 速度: 動画の読み込み速度が約 4 倍に速くなりました(「プレフィリング」という初期処理が爆速)。
  • 精度: 情報を 75% 捨てて(25% だけ残して)も、元の AI と同じくらい、あるいはそれ以上に賢くなりました。
    • 特に、**「訓練中にこのルールを使って学習させる」**と、さらに性能が向上しました。

【比喩で言うと】
「1 時間の映画を、15 分間の要約版として処理しても、映画館でフルバージョンを見たのと同じくらい感動できる」状態を実現しました。しかも、その処理は4 倍の速さで終わります。


まとめ

この論文が伝えていることはシンプルです。

「AI に長い動画を見せる時、最初から『捨てる』のではなく、まずは『記憶(メモ)』に蓄えさせてから、徐々に整理していくのが一番賢い」

新しい AI 構造(Mamba)の「記憶力」を活かした、**「段階的な要約術」**によって、長い動画を瞬時に理解する未来が近づきました。これからは、長いドキュメンタリーや会議の録画も、AI がサクサクと理解してくれるようになるでしょう!