Each language version is independently generated for its own context, not a direct translation.

📸 写真と文章の「最高の組み合わせ」を見つける方法：MMTok の解説

こんにちは！今日は、AI が画像を見て「何が見えているか」を説明する技術（VLM：視覚言語モデル）を、もっと速く、もっと賢く動かすための新しい方法「MMTok」について、わかりやすく解説します。

この技術は、まるで**「写真の余計な部分を削ぎ落とし、本当に重要な部分だけを残す」**ような魔法の道具です。

🧐 今までの問題は？「写真」が多すぎる！

AI が画像を理解するときは、まず画像を小さなパズルのピース（これを「ビジョントークン」と呼びます）に切り分けます。
しかし、今の AI は**「1 枚の画像」を 2,880 個ものピース**に切り分けて処理しています。

例え話：
料理を作る際、レシピ（テキスト）は「卵を 1 個割る」という短い言葉で済みます。しかし、AI はその「卵」を、卵の殻、黄身、白身、そして背景のテーブルまで含めて、2,880 個の細かい断片として見ています。
これを全部一度に調理（計算）しようとすると、AI の脳（計算リソース）がパンクしてしまい、非常に時間がかかってしまいます。

そこで、研究者たちは「いらないピースを捨てて、必要なピースだけ選ぼう」と考えました。しかし、これまでの方法は**「写真だけを見て」選んだり、「文章だけを見て」選んだり**していました。

写真だけ見て選ぶ： 「ここが鮮やかだから重要！」と選んでしまうが、質問の答えには関係ないかもしれない。
文章だけ見て選ぶ： 「質問に『猫』とあるから猫の場所だけ選ぼう」とするが、背景の重要な情報を見逃してしまう。

これでは、「写真」と「文章」の本当の組み合わせを捉えきれないのです。

✨ MMTok のアイデア：「網羅的（カバレッジ）な」選び方

この論文で提案されたMMTokは、「写真」と「文章」の両方を同時に見て、最も重要なピースを選び出します。

🕸️ 網（ネット）を張るような選び方

MMTok は、**「最大被覆問題（Maximum Coverage Problem）」**という考え方を応用しています。

イメージ：
暗い部屋にたくさんの光（情報）が散らばっています。あなたは限られた数の懐中電灯（選んだトークン）しか持てません。
- これまでの方法： 光が強い場所だけを照らす（写真重視）か、声のする方向だけを照らす（文章重視）。
- MMTok の方法： 「声のする方向（文章）」と「光の強さ（写真）」の両方を照らして、部屋全体を最も広く、ムラなく照らせる場所を計算して選んでいきます。

これにより、質問の答えに直接関係する部分と、画像全体の文脈（背景や雰囲気）の両方を、最小限のピースでカバーできるのです。

🚀 すごい効果：「4 個のピース」で 8 割以上の性能

この方法を実験したところ、驚くべき結果が出ました。

劇的なスピードアップ：
画像のピースを1/2 以下に減らしても、AI の性能はほとんど落ちません。
- 例： 130 億パラメータの巨大な AI でも、画像のピースを1.87 倍速く処理できるようになりました。
極端な圧縮でも健闘：
画像のピースをたった 4 個に減らしても、元の性能の**87.7%**を維持できました。
- 例え話： 1 枚の写真を 2,880 個のピースに切らず、「猫の目」と「猫の耳」の 4 つだけを残して AI に見せたら、AI は「これは猫だ！」と正しく答えられる、というレベルです。

🎯 なぜこれが重要なのか？

この技術は、**「訓練なし（トレーニングフリー）」**で使えます。つまり、AI を最初から作り直す必要がなく、既存の AI にこの「賢い選び方」を適用するだけで、スマホやパソコンでも高速に動くようになります。

スマホでの活用： 重い AI モデルでも、バッテリーを消費せずに、写真を見ながら会話ができるようになります。
リアルタイム性： 自動運転やロボットが、画像を処理する時間を大幅に短縮できます。

🌟 まとめ

MMTok は、「写真」と「文章」の 2 つの視点から、情報の「網羅性」を最大化して、必要な情報だけを取り出すという新しいアプローチです。

まるで、「写真の全貌」と「質問の意図」の両方を完璧に理解した、超効率的なフィルタのようなもの。これにより、AI はこれまでよりも遥かに速く、賢く、そして省エネで動けるようになるのです。

この技術は、AI が私たちの日常生活にさらに溶け込み、より身近で便利な存在になるための大きな一歩と言えるでしょう！

Each language version is independently generated for its own context, not a direct translation.

以下は、ICLR 2026 に掲載された論文「MMTOK: MULTIMODAL COVERAGE MAXIMIZATION FOR EFFICIENT INFERENCE OF VLMS」の技術的な要約です。

1. 背景と課題 (Problem)

視覚言語モデル（VLM）は、画像をビジョントークンに変換し、大規模言語モデル（LLM）の能力を活用して視覚コンテンツを理解します。しかし、従来のビジョントークンには以下の課題があります。

冗長性: 画像から抽出されるビジョントークンは、テキストトークンに比べてはるかに多く、かつ冗長です（例：LLaVA-NeXT では 1 枚の画像から 2,880 個のトークンが生成される）。
推論効率の低下: LLM の自己注意機構（Self-Attention）はトークン数に対して二次的な計算コストを持つため、ビジョントークンの多さが推論速度のボトルネックとなります。
既存手法の限界: 既存のトークン剪定（Pruning）手法の多くは、単一モダリティ（視覚のみ、またはテキストのみ）の情報に基づいてトークンを選択しています。しかし、視覚言語タスクは本質的にマルチモーダルであり、単一モダリティの情報だけでは、特定の質問や指示に関連する重要な視覚情報を十分に捉えきれない（サブオプティマルな選択になる）という問題があります。

2. 提案手法 (Methodology)

著者らは、視覚とテキストの両方の情報を活用して、情報量の多いビジョントークンを選択する新しいフレームワーク**「MMTok」**を提案しました。この手法はトレーニング不要（Training-free）であり、推論時のみ適用されます。

核心となるアプローチ：最大被覆問題 (Maximum Coverage Problem)

MMTok は、トークン選択問題を「最大被覆問題」として定式化します。これは、ソーストークン（ビジョントークン）のサブセットを選択し、ターゲットトークン（テキストトークンおよび元のビジョントークン全体）を最大限に「被覆（カバー）」する問題です。

具体的には以下の 2 つの被覆を同時に最適化します。

テキスト - ビジョン被覆 (Text-Vision Coverage):
- 入力されたテキスト（質問や指示）のセマンティックな意味を、ビジョントークンでどれだけカバーできるかを最大化します。
- 投影層（Projection Layer）後のビジョントークンとテキストトークンの類似度行列 $M^{tv}$ を計算し、貪欲法で選択を行います。
ビジョン - ビジョン被覆 (Vision-Vision Coverage):
- テキストが曖昧な場合（例：「画像を説明してください」）でも、画像全体の主要な情報を保持できるようにします。
- 投影前のビジョントークン同士で類似度行列 $M^{vv}$ を計算し、画像全体の情報を効率的にカバーするトークンを選択します。

最適化アルゴリズム

目的関数: 上記 2 つの被覆度を重み付けして足し合わせた関数 $f(S; M^{tv'}, M^{vv'})$ を最大化します。
理論的保証: この目的関数は「亜モジュラ関数（Submodular Function）」の性質を持ちます。そのため、NP 困難な問題ですが、単純な貪欲アルゴリズム（Greedy Algorithm）を用いることで、最適解の少なくとも $(1 - 1/e)$ 倍（約 63%）の性能を保証する近似解を効率的に得ることができます。
実装: 類似度行列の正規化（Softmax）と温度パラメータ（ $\tau$ ）を用いて、異なるモダリティ間のスコアを調整し、最終的に貪欲法で $k$ 個のトークンを選択します。

3. 主な貢献 (Key Contributions)

マルチモーダル被覆の定式化: ビジョントークン選択を「最大被覆問題」として定式化し、テキストと視覚の両方の情報を組み合わせた新しい選択基準を提案しました。
理論的な効率性: 亜モジュラ性を利用した貪欲アルゴリズムにより、理論的な近似保証を持ちながら、計算コストの低い効率的なトークン選択を実現しました。
トレーニング不要な高性能化: 追加の微調整（Fine-tuning）を行わずに、既存の VLM に対して単一モダリティベースの手法（VisionZip, DivPrune など）を上回る性能を達成しました。

4. 実験結果 (Results)

複数のベンチマークデータセット（GQA, MMBench, POPE, MME, ScienceQA など）と、多様な VLM（LLaVA-1.5, LLaVA-NeXT, Qwen-2.5-VL）を用いて評価されました。

LLaVA-1.5-7B における性能:
- 元の 576 個のビジョントークンを 64 個（89% 削減）に圧縮した場合でも、元の性能の**96.6%**を維持しました。
- 既存の最良手法（DivPrune や VisionZip）と比較して、特にトークン数が少ない領域で明確な優位性（64 トークン時で 1.8% 以上の改善）を示しました。
LLaVA-NeXT-13B における高速化:
- POPE データセットにおいて、元の性能の 98.7% を維持しつつ、1.87 倍の推論速度向上（Speedup）を達成しました。
極端な圧縮性能:
- LLaVA-1.5-7B において、ビジョントークンを4 個にまで削減しても、元の性能の**87.7%**を維持しました。
Qwen-2.5-VL-7B での評価:
- 動的解像度やトークン結合を行う最新モデルにおいても、ビジョントークンを 20% に削減しても元の性能の約 95% を維持し、既存手法を上回る結果を示しました。
推論効率:
- GPU メモリ使用量の削減（58% 以上）と推論時間の短縮（約 50% 削減）を実現し、実用的な効率性を証明しました。

5. 意義と結論 (Significance)

MMTok は、VLM の推論効率化において重要な転換点となる手法です。

マルチモーダル性の活用: 単に「画像の重要な部分」を探すのではなく、「質問（テキスト）に関連する部分」と「画像全体の構造」の両方を考慮することで、より文脈に即したトークン選択が可能になりました。
汎用性と実用性: 追加学習を必要としないため、既存のモデルに即座に適用可能であり、計算リソースが限られた環境やリアルタイムアプリケーションにおいて大きな価値があります。
将来展望: 非常に少ないトークン数（数個）でも高い性能を維持できることは、VLM のアーキテクチャ設計や、より高度な圧縮技術の開発に対する新たな示唆を与えています。

結論として、MMTok は「被覆（Coverage）」という概念を導入することで、視覚言語モデルの推論における冗長性を効果的に排除し、性能を維持したまま劇的な高速化を実現する画期的な手法です。

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs