Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

この論文は、既存のトークン圧縮手法の課題を克服し、LLM 内での視覚トークンの変動に基づいて重要度の低いトークンを動的に除去する「V²Drop」を提案することで、画像・動画理解タスクにおける性能をほぼ維持しつつ推論遅延を大幅に削減する新しい手法を提示しています。

Junjie Chen, Xuyang Liu, Zichen Wen, Yiyu Wang, Siteng Huang, Honggang Chen

公開日 2026-02-26
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「巨大な目と脳を持つ AI(大規模視覚言語モデル)」が、画像や動画を理解するときに、いかにして「無駄な情報」を捨てて、より速く、賢く動くかという新しい方法を提案しています。

タイトルは『Variation-aware Vision Token Dropping(V2Drop)』。少し難しい言葉ですが、実はとても直感的なアイデアです。

以下に、専門用語を排して、身近な例え話を使って解説します。


🎒 1. 問題:AI は「荷物が重すぎる」

現代の AI は、画像や動画を見る時、それを小さなパズルのピース(トークン)に分解して理解しようとします。

  • 高解像度の画像長い動画になると、このピースの数が膨大になります。
  • すると、AI の「脳(LLM)」が処理する情報量が爆発し、**「考えるのに時間がかかりすぎる(遅い)」**という問題が起きます。

これまでの解決策は、「重要なピースを選び出す」ことでした。しかし、これまでの方法は**「位置」で判断する**という大きな欠点がありました。

  • 例え話: 料理人が「最後の 3 切れの野菜しか使わない」と決めているようなものです。野菜の新鮮さ(内容)に関係なく、「最後に入ってきたもの」だけを大事にするので、重要な最初の野菜(画像の重要な部分)を捨ててしまったり、逆にどうでもいい最後の野菜を大事にしたりしてしまいます。これを論文では**「位置バイアス(Positional Bias)」**と呼んでいます。

💡 2. 発見:「動かないものは不要」

著者たちは、AI が画像を処理している過程で、あることに気づきました。

  • 重要なピース(トークン): AI の脳を通過するたびに、**「変化(Variation)」**が起きます。新しい情報を取り入れて、形や意味がどんどん更新されるのです。
  • 不要なピース: 逆に、どうでもいい背景やノイズのようなピースは、AI を通っても**「ほとんど変化しません」**。ただ静かに流れているだけです。

「変化しない(怠け者の)ピース」は、AI の答えを出すためにほとんど役立っていない! というのが今回の核心です。

🚀 3. 解決策:V2Drop(変化を測って捨てる)

そこで提案されたのが**「V2Drop」**という新技術です。

  • 従来の方法: 「Attention(注目)」という指標を使って、AI が「どこを見ているか」を計算して捨てます。しかし、これには計算コストが高く、先ほどの「位置バイアス」の問題もありました。
  • V2Drop の方法: 「このピースは、前の段階と比べてどれだけ変わったか」を測ります。
    • 大きく変わったもの → 「重要だ!残そう!」
    • ほとんど変わらなかったもの → 「怠け者だ!捨てよう!」

🌟 創造的な例え:
Imagine(想像してみてください):
教室で先生が黒板に絵を描いています。

  • 従来の AI: 「黒板の右端に描かれた文字だけを残す」というルールで、消しゴムを使います。だから、左端の重要な絵が消えてしまいます。
  • V2Drop:消しゴムで擦った跡(変化)を見て」判断します。
    • 先生が一生懸命書き直して、色が濃くなっている場所(重要な情報)は残します。
    • 先生が何も書き足さず、ただそこにあるだけの場所(不要な情報)は、消しゴムで優しく消します。
    • これなら、**「どこにあるか」ではなく「何をしているか」**で判断できるので、どんな場所の重要な情報も逃しません。

🏆 4. 結果:速くて、賢い

この方法を実験したところ、素晴らしい結果が出ました。

  • 画像理解: 元の性能の94%を維持しながら、処理速度が1.3 倍に。
  • 動画理解: 元の性能の98.6%を維持しながら、処理速度が1.87 倍に!
  • メモリ節約: 余計な計算をしないので、AI が使うメモリも減り、より多くのデータを一度に扱えるようになりました。

📝 まとめ

この論文が伝えていることはシンプルです。

「AI が画像を理解する時、『最後に並んでいるから』といって大事にする必要はありません。『変化して成長しているもの』こそが、本当に重要な情報なのです。」

V2Drop は、AI に「変化」を基準に情報を整理させることで、「位置の偏り」をなくし、計算コストを大幅に下げる画期的な方法です。これにより、高画質な画像や長い動画を、スマホや普通の PC でもサクサク処理できる未来が近づきます。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →