HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop は、MLLM の浅い層をバイパスして視覚トークンを融合開始点で注入し、凹型ピラミッド剪定と早期終了メカニズムを用いて視覚トークンの 90% を削減しながら性能を維持し、トレーニングを 1.72 倍高速化する新しい階層的トークン削減フレームワークを提案します。

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文「HiDrop」は、**「AI が画像を見る時の無駄な動きを省き、劇的に速く、賢くする」**という画期的な方法を紹介しています。

まるで、**「AI という巨大な図書館の司書」**が、画像という「膨大な本」を処理する様子を想像してみてください。

📖 従来の問題:「全員に同じ仕事をさせる非効率さ」

これまでの AI(マルチモーダル大規模言語モデル)は、画像を処理する際、「画像のすべての部分(ピクセル)」を、AI の脳みそ(レイヤー)の「最初から最後まで」順番に読み込ませていました。

  • 問題点 1:最初の段階での無駄
    画像の最初の数ページ(浅い層)では、AI はまだ「何を見ているか」を深く理解していません。ただ、本を棚から取り出して並べているだけのような状態です。なのに、すべてのページを丁寧に読み込ませるため、計算リソースが大量に消費されていました。
  • 問題点 2:硬直したスケジュール
    従来の方法は、「10 枚読んだら 1 枚捨てる」「20 枚読んだら 2 枚捨てる」といった**「一律のルール」**で画像を削っていました。しかし、画像の重要な部分(猫の目や車の車輪など)と、不要な部分(空の青さや背景の壁など)は、場所によって異なります。一律に削ると、重要な情報まで失われてしまうか、逆に不要な情報まで残ってしまい、効率が悪化していました。

🚀 HiDrop の解決策:「賢い司書の 3 つの戦略」

HiDrop は、AI の脳の働きを深く分析し、**「いつ、どこで、何を捨てるべきか」**を動的に判断する 3 つの新しい戦略を採用しました。

1. 「遅れて登場させる」作戦(Late Injection)

  • 比喩: 会議の冒頭で、誰も話していないのに、全員が「画像の資料」を配られて待機させられるのは無駄です。
  • 仕組み: HiDrop は、AI の浅い層(最初の数段階)では、画像の情報を一切持ち込ませません。 代わりに、テキスト(言葉)だけで処理を進めます。そして、AI が「いよいよ画像と言葉を融合させる準備ができた」と判断した瞬間(融合の始まり)に、必要な画像データだけを「遅れて」投入します。
  • 効果: 最初の無駄な待機時間をゼロにしました。

2. 「ピラミッド型・凹型」の剪定(Concave Pyramid Pruning)

  • 比喩: 画像を処理している最中、AI は「あ、この部分は重要だ(猫の目)」と「あ、この部分はただの背景だ(空)」を瞬時に見極めます。
  • 仕組み: 従来の「一定の割合で削る」のではなく、**「融合が活発な中間層では、一気に不要な情報を削ぎ落とし、重要な情報だけを残す」**という戦略をとります。
    • 最初は少し削り、真ん中でガッと削り、最後はゆっくり削るという「凹んだピラミッド」のような形です。
    • さらに、**「早期退出(Early Exit)」**という機能で、画像の情報がもう不要になった段階(深い層)では、画像データを完全に捨てて、言葉だけで思考を続けることができます。
  • 効果: 画像の情報を約90% 削減しても、AI の性能はほとんど落ちません。

3. 「滑らかな選択」の技術(Differentiable Top-K)

  • 比喩: 重要な本を選ぶ時、「これか、あれか」を硬いルールで決めるのではなく、「これは 80% 重要、あれは 60% 重要」と滑らかに判断して、最も重要なものだけを厳選します。
  • 仕組み: 従来の「ハードな切り捨て」ではなく、AI が学習しながら「どの画像の部分が重要か」を微調整できるようにしました。これにより、重要な情報が誤って捨てられるのを防ぎます。

🌟 結果:どんなメリットがあるの?

この「HiDrop」を使うと、以下のような劇的な変化が起きます。

  • 超高速化: 画像の処理時間が劇的に短縮され、学習速度が約 1.7 倍に向上しました。
  • コスト削減: 必要な計算資源(エネルギーや時間)が大幅に減ります。
  • 性能維持: 画像を 90% 以上減らしても、元の AI と同じくらい賢いままです(テストの正解率は 98% 以上を維持)。

💡 まとめ

HiDrop は、AI に**「最初から最後まで、すべての画像を丁寧に眺めさせる必要はない」**と教えました。

  • 最初は言葉だけで考え、
  • 必要な時に画像を持ち込み、
  • 重要な部分だけを残して、
  • 不要になったらすぐに画像を捨てて、
  • 言葉だけで結論を出す。

このように、AI の思考プロセスを「人間の直感」に近い形に最適化したのが、この研究の素晴らしい点です。これにより、より安価で、より速い AI が現実のものになります。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →