Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

本論文は、局所的および大域的な文脈を最適輸送を用いて効率的に集約し、トレーニング不要で冗長な視覚トークンを削減しながら動画の時間的・視覚的忠実度を維持する新たな手法「AOT」を提案し、動画大規模言語モデルの効率性と性能を両立させています。

Jinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「動画の AI(VLLM)を、もっと速く、もっと軽く、でも賢くする」**という画期的な方法を紹介しています。

専門用語を抜きにして、わかりやすい例え話で解説しますね。

🎬 物語の舞台:「動画の AI」という巨大な図書館

まず、動画理解 AI(VLLM)がどうやって動いているかを想像してください。
AI は動画を見る際、1 秒間に何百枚もの「絵(フレーム)」を切り取り、それぞれを小さな「単語(トークン)」の集まりに変換して読みます。

  • 問題点: 動画は長いです。例えば 1 時間の映画なら、AI は**何万もの「単語」**を一度に読まなければなりません。
    • これは、**「図書館の本を全部、1 冊ずつ読み上げてから内容を理解しようとしている」**ようなものです。
    • 結果として、計算が重すぎて時間がかかり、メモリ(記憶容量)がパンクしてしまいます。

これまでの方法は、「つまらないページ(無駄な単語)を捨てて、似たようなページを 1 つにまとめる」というアプローチでした。でも、**「捨てたページの中に、実は重要なヒントが隠れていた!」**という失敗がよくありました。


💡 新しいアイデア:AOT(賢い運び屋システム)

この論文が提案しているのは、**「AOT(Local and Global Contexts Optimization via Optimal Transport)」**という新しい仕組みです。

これを**「賢い運び屋(Optimal Transport)」**のシステムに例えてみましょう。

1. 重要な「拠点(アンカー)」を決める

まず、動画の各シーン(フレーム)から、**「最も重要な場所(拠点)」**を 2 つの視点で選びます。

  • グローバル(全体): 物語の全体像を把握できる重要な場所。
  • ローカル(細部): 細かい動きや表情がわかる重要な場所。
    これらを**「アンカー(拠点)」**と呼びます。これらが AI の「記憶のフック」になります。

2. 「捨てた」情報も無駄にしない(Optimal Transport)

ここが最大の特徴です。
これまでの方法は、「不要なページをゴミ箱に捨てていました」。
しかし、この新しい方法では、**「捨てようとしているページ(不要に見える情報)も、実は重要なヒントを含んでいるかもしれない」**と考えます。

  • 運搬計画(Transport Plan):
    AI は、**「どの捨てられそうなページから、どの拠点へ、どんな情報を運ぶのが一番効率的か?」**を数学的に計算します。
    • 例:「捨てられそうな背景のページから、主人公の服の色に関するヒントを 1 つ、主人公の顔の拠点へ運ぶ」
    • 例:「似たような動きのページから、時間の経過に関する情報を、次のシーンの拠点へ運ぶ」

これを**「最適輸送(Optimal Transport)」と呼びます。単に捨てるのではなく、「必要な情報を、必要な場所に、最小のコストで運び込む」**のです。

3. 時間を超えた連携(Inter-Frame)

動画は「時間」の連続です。

  • フレーム内(Intra-Frame): 1 枚の絵の中で、重要な場所へ情報を集約します。
  • フレーム間(Inter-Frame): 連続するフレーム(動画)の中で、**「最初のフレーム」をリーダー(アンカー)**にします。
    • 2 枚目、3 枚目のフレームで「リーダーと似た動き」をしている部分は、リーダーに情報を渡してまとめます。
    • でも、「リーダーと全く違う動き(急な転換)」をしている部分は、「新しい情報」として残します。
    • これにより、「同じような動き」は圧縮して軽くし、「重要な変化」は鮮明に残すことができます。

🌟 この方法のすごいところ

  1. 「捨てる」のではなく「集約する」
    従来の方法は「不要なものを消す」だけでしたが、この方法は**「不要に見えるものから、必要な栄養分(情報)を絞り出して、重要な部分に注入する」**イメージです。だから、情報を減らしても、AI の性能が落ちないのです。

  2. 訓練不要(Training-Free)
    特別な学習や調整を必要としません。既存の AI モデルにこの「運び屋システム」を付け足すだけで、すぐに高速化できます。

  3. 劇的な効率化
    実験結果によると、動画の情報の 90% を圧縮しても、元の AI の性能の 97% 以上を維持できました。

    • 計算コストは**元の 8.3%**まで激減。
    • 長い動画でも、AI がパンクすることなく、スムーズに回答できるようになります。

🚀 まとめ

この論文は、**「動画 AI を、情報を『捨てる』のではなく、情報を『賢く運び、凝縮する』ことで、超高速かつ高品質に動かす方法」**を提案しています。

まるで、**「膨大な量の食材を、捨てずに、一番美味しい部分だけを抽出して、小さな鍋で絶品のスープにする」**ような技術です。これにより、これからはスマホや普通の PC でも、長い動画をリアルタイムで理解する AI が使えるようになるかもしれません。