What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を見ているとき、実はその 6 割は『無駄な情報』や『ノイズ』を処理している」**という驚くべき発見を明らかにした研究です。

まるで、**「100 人のチームで会議をしているが、実は話しているのは 60 人だけで、残りの 40 人はただ座っているか、寝ているだけだった」**という状況に似ています。

以下に、この論文の核心をわかりやすく、比喩を交えて解説します。

🎨 1. 画像の「トークン」って何？

まず、AI が画像を見る仕組みを理解しましょう。
AI は画像を小さなパズルのように切り分け、それぞれを「トークン（単語のような単位）」に変換して、言語モデル（AI の脳）に渡します。
これまでの常識では、「画像のすべてのパズルピースが、何かしらの意味を持っている」と考えられていました。

しかし、この研究では**「実は 3 つのタイプに分かれる」**ことがわかりました。

🔍 2. 画像トークンの 3 つの正体

AI に渡される画像トークンは、以下の 3 つのグループにハッキリと分かれます。

🗑️ グループ A：「沈黙の役者（Sink Tokens）」

正体： 画像が何であれ（猫でも車でも）、常に同じような「おまじない」のような情報を運んでいるトークンです。
役割： 画像の内容とは無関係です。AI の内部で「注意力を安定させる」という構造的な役割しか果たしていません。
比喩： 会議で「はい、はい」と相槌を打つだけの人。誰が話しても同じ反応をするので、その人の発言内容を聞いても「今日の天気」はわかりません。
発見： これらを削除しても、AI の性能は全く落ちません。むしろ、ノイズが減って性能が上がることもあります。

💀 グループ B：「死んだトークン（Dead Tokens）」

正体： 画像の内容と無関係なだけでなく、AI の脳内でもほとんど無視されているトークンです。
役割： 存在意義がほぼゼロ。ただの「ゴミ」のようなものです。
比喩： 会議室の隅で、誰も見ていない落書きをしている人。誰もその落書きに注目しません。
発見： これらも削除すると、逆に AI が「集中力」を取り戻し、性能が向上しました。

✨ グループ C：「生き残りのトークン（Alive Tokens）」

正体： 画像の本当の意味（猫、赤い色、文字など）を運んでいる唯一のグループです。
割合： 全体の約**60%**しかありません。
比喩： 会議で実際に「今日のプロジェクトについて」を報告している 60 人のメンバー。
発見： この 60% だけが、画像の情報を言語（言葉）に変換する鍵を握っています。

🚀 3. 驚きの「前もって翻訳済み」状態

さらに面白い発見がありました。

「生き残りのトークン」は、AI の脳（言語モデル）に入る前に、すでに**「言葉に近い形」で整理されている**ことがわかりました。

従来の考え方： 画像を AI が受け取り、脳内で一生懸命「これは猫だ」「これは赤いだ」と翻訳・処理する必要がある。
この論文の発見： 画像を脳に入れる直前には、すでに「猫」「赤」という情報がコンパクトに詰め込まれており、脳はそれを「読む」だけで十分だった。

比喩：
料理屋（AI）に食材（画像）を届ける際、

昔の考え方： 生野菜のまま届けて、料理人が包丁で切り、炒めて、味付けをする。
新しい発見： すでに**「炒められたお惣菜」**として届いている。料理人は「温める」だけでいい。
つまり、AI の脳内で「画像を処理する作業」の多くは、実は不要だったのです。

🛠️ 4. 今後の可能性：もっと賢く、軽くする

この発見は、AI をもっと効率よくする大きなヒントになります。

ノイズを捨てる： 「沈黙の役者」と「死んだトークン」を最初から削除すれば、計算量が減り、AI が速くなります。
途中から入れる： 画像の情報は、AI の脳の「入り口」から入れる必要はありません。すでに「お惣菜」状態なので、脳の「中ほど」から直接渡せばいいことがわかりました。
- 比喩： 新人研修（浅い層）をスキップして、いきなり実務（中層）から始めさせる方が、実は成果が上がる。

📝 まとめ

この論文は、**「AI が画像を見ているとき、実は 4 割は『無駄な作業』や『ノイズ』に時間を費やしていた」と告げ、「必要な情報（6 割）だけを、必要な場所（脳の途中）に渡せば、もっと速く、賢く、正確に動ける」**という新しい道を示しました。

これにより、将来的には**「もっと軽量で、省エネで、かつ高性能な AI」**を作れるようになるかもしれません。

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

🎨 1. 画像の「トークン」って何？

🔍 2. 画像トークンの 3 つの正体

🗑️ グループ A：「沈黙の役者（Sink Tokens）」

💀 グループ B：「死んだトークン（Dead Tokens）」

✨ グループ C：「生き残りのトークン（Alive Tokens）」

🚀 3. 驚きの「前もって翻訳済み」状態

🛠️ 4. 今後の可能性：もっと賢く、軽くする

📝 まとめ

論文要約：「Visual Tokens は本当に何をエンコードしているのか？マルチモーダル大規模言語モデルにおけるスパース性と冗長性の解明」

1. 問題定義 (Problem)

2. 手法 (Methodology)

2.1 EmbedLens の開発

2.2 クラスタリング分析

2.3 実験的検証

3. 主要な貢献と発見 (Key Contributions & Results)

3.1 入力レベルでの顕著な意味的スパース性

3.2 Alive トークンの「前言語的」高密度情報

3.3 内部視覚計算の冗長性

3.4 中間層への直接注入の妥当性

4. 意義と将来展望 (Significance)

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

🎨 1. 画像の「トークン」って何？

🔍 2. 画像トークンの 3 つの正体

🗑️ グループ A：「沈黙の役者（Sink Tokens）」

💀 グループ B：「死んだトークン（Dead Tokens）」

✨ グループ C：「生き残りのトークン（Alive Tokens）」

🚀 3. 驚きの「前もって翻訳済み」状態

🛠️ 4. 今後の可能性：もっと賢く、軽くする

📝 まとめ

論文要約：「Visual Tokens は本当に何をエンコードしているのか？マルチモーダル大規模言語モデルにおけるスパース性と冗長性の解明」

1. 問題定義 (Problem)

2. 手法 (Methodology)

2.1 EmbedLens の開発

2.2 クラスタリング分析

2.3 実験的検証

3. 主要な貢献と発見 (Key Contributions & Results)

3.1 入力レベルでの顕著な意味的スパース性

3.2 Alive トークンの「前言語的」高密度情報

3.3 内部視覚計算の冗長性

3.4 中間層への直接注入の妥当性

4. 意義と将来展望 (Significance)

関連論文

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach