When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

本論文は、VLLM の深い層における視覚トークンの情報量が「情報地平線」を超えて均質化・消失し、それ以降の層では既存の剪定法よりもランダム剪定の方が効率的であることを発見し、これを活用した手法が高性能・高効率を実現することを示しています。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の味付け:「濃い味」から「薄い味」へ

まず、VLLM(画像とテキストを話す AI)が画像を処理する仕組みを想像してください。
AI は画像を数百個の小さなパズル(トークン)に分解して見ています。

  • 浅い層(最初の数枚): ここは**「メインの具材」**です。

    • 「野球の選手がいる」「カメラのブランド名が書いてある」といった、答えを出すために絶対に必要な情報がここに集まっています。
    • ここでは、どのパズルが重要かを慎重に選んで残すのが正解です(既存の「重要度重視」の剪定法が機能する場所です)。
  • 深い層(後半の層): ここは**「スープの残り」「調味料の残り」**です。

    • 情報が何度も重ねられて、もはや「どのパズルが重要か」がわからなくなります。すべてのパズルが**「ほぼ同じくらい、意味が薄れている」**状態になります。
    • ここでは、**「あえてランダムに捨てる」**ことと、「一生懸命選んで捨てる」ことの結果は、全く同じになってしまうのです。

🎲 逆転現象:「ランダム」が最強な理由

論文の核心はここにあります。

「深い層では、あえて『ランダムに捨てる』方が、計算コストが安く、性能も落ちない」

これまでは、「AI が『これは重要だ!』と判断したパズルだけ残す」のが常識でした。しかし、深い層では**「情報の濃さが均一化して、もはや区別がつかない」状態(論文では「情報地平線(Information Horizon)」**と呼んでいます)に達してしまいます。

  • 従来の方法: 「重要そうなものを探して捨てる」→ 計算に時間がかかるのに、結果はランダムと変わらない。
  • 新しい発見: 「もう意味がないから、ランダムに捨てちゃえ」→ 計算が爆速になり、結果は同じ。

まるで、**「図書館の奥深くにある、誰も読まない本棚」**を想像してください。
「どの本が面白いのか」を慎重に選んで選ぶ必要はありません。ランダムに 10 冊捨てても、残りの 10 冊も同じように「面白くない本」ばかりだからです。

📏 「情報地平線」:どこまで捨てていいか?

この「ランダムで OK」になるライン(情報地平線)は、2 つの要素で変わります

  1. タスクの難しさ(視覚的複雑さ)

    • 簡単な質問(「野球場ですか?」): 浅い層で答えが出ます。深い層はすぐに不要になります。
    • 難しい質問(「このカメラのブランド名は?」や「文字を読み取る OCR」): 細かい文字やディテールが必要なので、もっと深い層まで画像の情報が必要です。
    • 例え: 簡単な料理なら「具材」さえあれば OK ですが、繊細な料理なら「最後の仕上げの香り」まで必要です。
  2. AI の能力

    • 強い AI(Qwen-2.5-VL など): 深い層まで情報を引き出せるので、情報地平線がより深い場所にあります。
    • 弱い AI(LLaVA-1.5 など): 浅い層で情報が尽きてしまいます。

🚀 結論:どうすればいいの?

この論文が提案する新しい戦略は、**「ハイブリッド・剪定」**です。

  1. 浅い層(最初の数枚): 慎重に「重要なパズル」を選んで残す(既存の技術を使う)。
  2. 深い層(後半): **「もういいや、ランダムに捨てちゃえ!」**と割り切る。

この方法を取り入れると、**「計算速度は劇的に向上し、精度はほとんど落ちない」という、夢のような結果が得られました。
例えば、Qwen-2.5-VL という強力な AI でも、画像のトークンを 50% 減らしても、元の性能の
96.9%**を維持できました。

💡 まとめ

この論文は、**「AI の深い思考部分では、あえて『適当に』やる方が、実は最も賢く効率的」**という皮肉な真理を教えてくれました。

  • 浅い層: 慎重に選別する(プロの料理人)。
  • 深い層: ランダムに捨てる(もう飽きたから適当に片付ける)。

この「適当さ(ランダム性)」を戦略的に使うことで、AI をもっと速く、もっと安く動かせるようになるのです。