Each language version is independently generated for its own context, not a direct translation.

📸 画像を「1 枚」ではなく「1 枚未満」で理解する：iLLaVA の仕組み

この論文は、**「AI が画像を見るスピードと、その賢さを両立させる新しい方法」**について書かれています。

タイトルにある**「1 枚の画像は、1 つ以下の入力トークンで十分」というのは、少し驚きですよね？実は、これは「画像を小さくする」という意味ではなく、「AI が無駄な情報を捨てて、本当に必要な部分だけを見て、さらにその捨てた情報も再利用する」**という、とても賢い仕組みのことを指しています。

以下に、難しい専門用語を使わずに、日常の例え話で解説します。

🧐 今までの問題点：「料理の準備」が長すぎる

これまでの AI（大規模マルチモーダルモデル）は、画像を理解するときに以下のような手順を踏んでいました。

写真屋（画像エンコーダー）： 写真のピクセルをすべて細かく切り分け、数千〜数万個の「断片（トークン）」にします。
料理人（言語モデル/LLM）： その断片をすべて受け取り、一つ一つ丁寧に料理（分析）して、答えを出します。

【問題点】

写真屋が忙しすぎる： 写真の「空の青さ」や「背景の壁」など、AI にとって重要でない部分もすべて細かく切り分けています。ここだけで全体の処理時間の半分近くを費やしてしまいます。
料理人が重すぎる： 写真屋から届いた「断片」が多すぎるため、料理人もそれをすべて処理しようとすると、時間がかかりすぎてしまいます。

これまでの研究は、「料理人（LLM）が受け取る断片の数を減らそう」というアプローチが主流でした。しかし、**「写真屋（画像エンコーダー）が作る断片自体が多すぎる」**という根本的な問題には手をつけていませんでした。

💡 iLLaVA の解決策：「賢いリサイクル」システム

この論文で紹介されている**「iLLaVA」という新しい方法は、「写真屋」と「料理人」の両方を同時に効率化し、さらに「捨てた情報もリサイクル」**する仕組みです。

1. 二重の効率化（写真屋も料理人も減らす）

iLLaVA は、写真屋が画像を切り分ける段階（エンコーダー）でも、料理人が分析する段階（LLM）でも、「本当に必要な断片だけ」を選んで残すようにします。

例え話： 料理の材料を準備する際、最初から「皮や種」を捨てて、必要な「果肉」だけを用意する。さらに、その果肉を切る際も、無駄な切り方をしないようにする。
効果： 処理するデータ量が劇的に減るため、処理速度が最大 2 倍になり、最初の答えが出るまでの待ち時間が 4 倍短縮されました。

2. 捨てた情報の「リサイクル」（トークン・マーギング）

ここが iLLaVA の最大の特徴です。
通常、不要な断片を捨てると、その中に隠れていた「ヒント」も失われてしまいます。しかし、iLLaVA は**「捨てた断片の情報を、残す断片に『吸い込ませる』」**という技術を使います。

例え話：
- 従来の方法： 新聞記事から「重要ニュース」だけを切り取り、「天気予報」や「広告」をゴミ箱に捨ててしまう。→ 後で「明日の天気」を聞かれても答えられない。
- iLLaVA の方法： 「重要ニュース」を切り取りつつ、捨てた「天気予報」や「広告」の情報を、「重要ニュース」の隅にメモとして書き足してまとめる。
- 結果： 紙の枚数は減ったのに（データ量は減った）、「重要な情報」も「捨てたはずのヒント」もすべて残っている状態になります。

この「リサイクル」のおかげで、データ量を大幅に減らしても、AI の賢さ（精度）はほとんど落ちません。

🚀 どれくらいすごいのか？

この新しい方法を使うと、以下のような驚くべきことが実現できます。

大きな AI が、小さな AI より速く、賢くなる：
通常、「大きな AI（260 億パラメータ）」は「小さな AI（80 億パラメータ）」より精度は高いですが、動きは遅いです。しかし、iLLaVA を使えば、**大きな AI が小さな AI よりも「速く」かつ「賢く」**動くようになります。
- 例え話： 以前は「巨大なトラック」は「軽自動車」より荷物は多いけど遅かった。でも iLLaVA を使えば、トラックが軽自動車より速く走って、さらに荷物もたくさん積めるようになった！
動画も画像も得意：
静止画だけでなく、動画の理解でも、他の最新の技術よりも高い精度を維持しながら、処理速度を劇的に向上させました。

🎨 何が起きているのか？（視覚化）

論文には、AI が実際にどの部分に注目しているかの画像も載っています。

鳥の画像： AI は鳥の体には注目するが、空や木々はほとんど無視している（これが「冗長性」）。
iLLaVA の選択： 鳥の体だけでなく、捨てられそうだった「背景の少しのヒント」も、鳥の情報を補うために「リサイクル」して残している。

📝 まとめ

この論文が伝えたかったことはシンプルです。

「AI に画像を見させる際、最初から『無駄な情報』を減らし、捨てた情報も『リサイクル』して賢く使うことで、
『速くて、かつ賢い』AI を実現できる！」

これまでは「画像を小さくすると、AI がバカになる」と思われていましたが、iLLaVA は**「画像を小さくしても、賢さは保てる」**ことを証明しました。これにより、スマホやパソコンなど、計算能力が限られた機器でも、高性能な AI をサクサク動かせる未来が近づいたと言えます。

Each language version is independently generated for its own context, not a direct translation.

iLLaVA: 大規模マルチモーダルモデルにおける画像入力トークンの削減と効率化の技術的サマリー

本論文「iLLaVA: AN IMAGE IS WORTH FEWER THAN 1/3 INPUT TOKENS IN LARGE MULTIMODAL MODELS」は、大規模視覚言語モデル（LVLMs）の推論効率を大幅に向上させるための新しいアプローチを提案しています。従来の手法が抱える限界を克服し、画像エンコーダと大規模言語モデル（LLM）の両方においてトークンを統合的に最適化する「iLLaVA」を提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

近年の LVLMs（例：GPT-4o, Gemini 1.5 Pro など）は、画像をパッチに分割し、トークン列として LLM に入力することで高度な視覚理解を実現しています。しかし、このアプローチには以下の重大な課題があります。

計算コストの爆発的増加: 画像や動画は数千〜数万のトークンに展開され、アテンション機構の $O(n^2)$ 的な計算複雑性により、推論コストが非常に高くなります。
既存手法の限界: 従来の効率化手法（トークンプルーニングや圧縮）は、主に LLM 段階または LLM 入力前のトークン削減に焦点を当てています。
見落とされているボトルネック: 画像エンコーダ自体が膨大な計算リソースを消費しており、かつ LLM への入力トークンの大部分を生成する主要な源泉です。既存手法はこの「画像エンコーダ段階」での冗長性を無視しており、真のエンドツーエンドの加速を実現できていません。

核心となる課題: 画像エンコーダと LLM の両方を同時に最適化し、計算負荷を根本から軽減する手法の必要性。

2. 提案手法：iLLaVA

iLLaVA は、画像エンコーダと LLM の両方においてトークンを削減する「2 段階トークンマージ」戦略を採用しています。性能低下を防ぐため、廃棄されるトークンから有益な情報を回収する新しいマージ戦略を設計しています。

2.1 2 段階トークンマージ (Two-Stage Token Merging)

モデルの計算負荷の大部分を占める 2 つのコンポーネントでトークン削減を行います。

画像エンコーダ内: 複数のエンコーダブロックにおいて、アテンションモジュールとフィードフォワードネットワーク（FFN）の間にトークンマージモジュールを挿入します。
LLM 内: 特定の LLM ブロックの間にトークンマージモジュールを挿入します。
これにより、ネットワークの初期段階で画像トークンを削減し、後続のエンコーダブロックおよび LLM 全体の計算負荷を劇的に減少させます。

2.2 高度なトークンマージ戦略 (Token Merging Strategy)

単なるトークンの削除（プルーニング）ではなく、情報を「リサイクル」するマージ手法を採用しています。

アテンションスコアに基づく選別: 各トークンの重要度をアテンションスコアで評価します。
情報の分類:
- 情報トークン ( $P^i_v$ ): 最も重要度が高いトークンをそのまま保持します。
- リサイクルトークン ( $P^c_v$ ): 重要度は低いものの、完全に捨てるには惜しいトークンを「クラスタ」として選定します。
情報の統合: 選定されたリサイクルトークンに対して、類似度の高い他の廃棄トークンの特徴を重み付き和でマージし、有益な情報を凝縮して保持します。
これにより、入力情報の損失を最小限に抑えつつ、トークン数を削減します。

2.3 実装上の工夫

Flash-Attention との互換性: 推論時に完全なアテンション行列を返さない Flash-Attention に対しても、累積アテンション重み（cumsum attention weights）を用いて効率的に平均アテンションスコアを計算し、追加計算コストを最小化しています。
計算量: 追加の計算コストは削減されるトークン数に比例するため、入力トークン数に比べて無視できるレベルです。

3. 主要な貢献

画像エンコーダの加速の提案: LVLM のボトルネックである画像エンコーダ段階でのトークン削減を初めて体系的に実装し、LLM への入力負荷も同時に軽減しました。
情報リサイクル型マージ戦略: トークン削減による性能劣化を防ぐため、廃棄トークンから情報を抽出してマージする新しい戦略を提案しました。
大規模モデルの効率化: 従来の「大規模モデルは遅い」という常識を覆し、iLLaVA を適用することで、より大きなモデル（例：InternVL-2.5 26B）が、より小さなモデル（例：InternVL-2.5 8B）よりも高い精度かつ高いスループットを達成することを示しました。
広範な検証: 画像理解タスクだけでなく、動画理解タスクにおいても有効性を証明し、既存の最先端手法（SparseVLM, FasterVLM, PyramidDrop など）を上回る性能を示しました。

4. 実験結果

4.1 性能と効率性の向上

スループット: 最大 2 倍 のスループット向上を達成。
プリフィル時間: 最大 4 倍 の高速化（プリフィル時間の 4 分の 1 へ削減）。
メモリ使用量: 約 1.59 倍 の削減。
精度維持: トークンを約 88.9% 削減（1/10 以下）しても、元のモデルの 95.2% の精度を維持しました（MMMU ベンチマークなど）。

4.2 既存手法との比較

画像ベンチマーク: 66.7%〜88.9% のトークン削減率において、SparseVLM や PyramidDrop などの SOTA 手法を明確に上回る精度を記録しました。
動画ベンチマーク: 90%〜95% のトークン削減率においても、VisionZip などの競合手法を上回る性能を維持しました。
モデルサイズ比較: iLLaVA を適用した InternVL-2.5 26B は、iLLaVA 未適用の 8B モデルよりも高い精度（MMMU で +4.2%、MMStar で +2.2%）と同等以上のスループットを達成しました。

4.3 柔軟性

Qwen2.5-VL、InternVL-2.5、Minicpm-V2.6、LLaVA-Onevision など、異なるアーキテクチャのモデルにおいても一貫して高い性能を発揮し、汎用性が高いことを示しました。

5. 意義と結論

iLLaVA は、LVLM の効率化において「画像エンコーダ」と「LLM」の両面からアプローチする必要性を浮き彫りにしました。特に、画像エンコーダ段階でのトークン削減が、LLM への入力負荷を減らすことで、モデル全体の計算コストを指数関数的に削減できる点に大きな意義があります。

また、単なる削減ではなく「情報のリサイクル」を行うマージ戦略は、計算効率とモデル精度のトレードオフを打破する重要な技術です。この手法により、リソース制約のある環境でも大規模モデルを高速に実行可能となり、リアルタイム応用や大規模モデルの普及が加速することが期待されます。

要約すれば、iLLaVA は「画像は 1/3 以下の入力トークンで十分である」という仮説を実証し、LVLM の推論効率を劇的に向上させる画期的なフレームワークです。

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models