EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

本論文は、高解像度画像や動画における推論効率の課題を解決するため、視覚符号化の過程そのものにおいてトークンの重要度に基づいて早期に剪定を行う「EvoPrune」という手法を提案し、VideoMME などのベンチマークで推論速度を 2 倍に向上させながら性能低下を 1% 未満に抑えることを実証しています。

Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文「EvoPrune」は、**「AI が画像や動画を理解する際、無駄な情報を事前に捨てて、驚くほど速く、かつ賢く動くようにする新しい技術」**について書かれています。

専門用語を抜きにして、日常の例え話を使って解説しますね。

🎒 1. 問題:AI は「荷物」が多すぎて疲れている

まず、今の最新の AI(マルチモーダル大規模言語モデル)は、画像や動画を理解するときに、**「視覚トークン(Visual Tokens)」**という小さな情報のかたまりを大量に受け取ります。

  • 例え話:
    Imagine 想像してください。AI が「1 枚の写真」を見るのは、**「1 個のリュックサック」を持つようなものです。でも、「4K 画質の長い動画」を見ると、それは「トラック 1 台分もの荷物」**を背負わされることになります。

    今の AI は、この膨大な荷物をすべて「視覚エンコーダー(荷物整理係)」で一度にチェックしてから、本題の「言語モデル(頭脳)」に渡しています。

    • 問題点: 荷物が重すぎると、整理係(エンコーダー)が疲れてしまい、全体の処理速度が極端に遅くなります。特に動画や高画質画像では、この「整理係」にかかる時間が、全体の 7 割以上を占めてしまうのです。

✂️ 2. 既存の技術の限界:「後で捨てる」のは遅すぎる

これまでの技術は、荷物を整理係が**「すべてチェックし終わった後」**に、「あ、この荷物は要らないな」と捨てていました。

  • 問題: すでに整理係が疲弊してしまっているため、捨てたとしても「遅い」ままです。まるで、トラックが目的地に到着してから「あ、荷物減らそう」と言っているようなものです。

🚀 3. EvoPrune の解決策:「整理係」が働きながら捨てる

この論文が提案する**「EvoPrune(エボプルーン)」**は、全く新しいアプローチです。

  • 核心: 荷物を**「整理係がチェックしている最中(エンコーディングの初期段階)」**に、すでに不要なものを捨ててしまいます。
  • 仕組み:
    1. 賢い選別: AI は、どの情報が重要で、どの情報が重複しているかを瞬時に判断します。
    2. 3 つの基準:
      • 似ているもの: 「同じような風景」が 10 個あるなら、1 つにまとめます(類似性)。
      • 多様性: 「全く違う面白い情報」は捨てません(多様性)。
      • 注目度: 「AI が特に注目している重要な部分」は絶対に捨てません(注目度)。
    3. 結果: 整理係(エンコーダー)が働く段階で荷物が軽くなり、その後の「頭脳(LLM)」への渡しもスムーズになります。

🍳 4. 具体的な効果:「料理」で例えると

  • 従来の方法: 100 個の野菜をすべて包丁で切り、鍋に入れて煮込んでから、「あ、これは食べないな」と取り除く。→ 時間がかかる。
  • EvoPrune の方法: 野菜を切る前に、「これは不要な葉っぱだ」と見極め、最初から捨ててから切る。→ 調理時間が半分以下になり、味(精度)も落ちない。

📊 5. 実際の成果

実験結果は非常に素晴らしいものでした。

  • 動画理解: 動画の処理速度が**「2 倍」**に速くなりました(待ち時間が半分になる)。
  • 精度: 速度を 2 倍にしても、AI の賢さ(正解率)は1% 未満しか落ちませんでした
  • 応用: これにより、リアルタイムでの動画分析や、スマホなどの性能が限られた端末でも、高画質な AI が動くようになります。

🌟 まとめ

EvoPruneは、AI に「全部覚えようとする」のではなく、**「最初から重要なことだけを選び取りながら処理する」**という、非常に賢い「早期剪定(早めの枝切り)」の技術です。

これにより、AI は重たい荷物を背負わずに、**「軽快に、かつ正確に」**動き回るようになり、私たちが普段使っているアプリやサービスが、もっとサクサク動く未来が近づいたと言えます。