What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

本論文は、マルチモーダル大規模言語モデルにおける視覚トークンの分析手法「EmbedLens」を提案し、入力段階で画像固有の意味を担う「生トークン」のみが重要であり、内部視覚計算の大半は冗長であることを明らかにすることで、トークン剪定や中層への直接注入による効率的なモデル設計の指針を示しています。

Yingqi Fan, Junlong Tong, Anhao Zhao, Xiaoyu Shen

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を見ているとき、実はその 6 割は『無駄な情報』や『ノイズ』を処理している」**という驚くべき発見を明らかにした研究です。

まるで、**「100 人のチームで会議をしているが、実は話しているのは 60 人だけで、残りの 40 人はただ座っているか、寝ているだけだった」**という状況に似ています。

以下に、この論文の核心をわかりやすく、比喩を交えて解説します。


🎨 1. 画像の「トークン」って何?

まず、AI が画像を見る仕組みを理解しましょう。
AI は画像を小さなパズルのように切り分け、それぞれを「トークン(単語のような単位)」に変換して、言語モデル(AI の脳)に渡します。
これまでの常識では、「画像のすべてのパズルピースが、何かしらの意味を持っている」と考えられていました。

しかし、この研究では**「実は 3 つのタイプに分かれる」**ことがわかりました。

🔍 2. 画像トークンの 3 つの正体

AI に渡される画像トークンは、以下の 3 つのグループにハッキリと分かれます。

🗑️ グループ A:「沈黙の役者(Sink Tokens)」

  • 正体: 画像が何であれ(猫でも車でも)、常に同じような「おまじない」のような情報を運んでいるトークンです。
  • 役割: 画像の内容とは無関係です。AI の内部で「注意力を安定させる」という構造的な役割しか果たしていません。
  • 比喩: 会議で「はい、はい」と相槌を打つだけの人。誰が話しても同じ反応をするので、その人の発言内容を聞いても「今日の天気」はわかりません。
  • 発見: これらを削除しても、AI の性能は全く落ちません。むしろ、ノイズが減って性能が上がることもあります。

💀 グループ B:「死んだトークン(Dead Tokens)」

  • 正体: 画像の内容と無関係なだけでなく、AI の脳内でもほとんど無視されているトークンです。
  • 役割: 存在意義がほぼゼロ。ただの「ゴミ」のようなものです。
  • 比喩: 会議室の隅で、誰も見ていない落書きをしている人。誰もその落書きに注目しません。
  • 発見: これらも削除すると、逆に AI が「集中力」を取り戻し、性能が向上しました。

✨ グループ C:「生き残りのトークン(Alive Tokens)」

  • 正体: 画像の本当の意味(猫、赤い色、文字など)を運んでいる唯一のグループです。
  • 割合: 全体の約**60%**しかありません。
  • 比喩: 会議で実際に「今日のプロジェクトについて」を報告している 60 人のメンバー。
  • 発見: この 60% だけが、画像の情報を言語(言葉)に変換する鍵を握っています。

🚀 3. 驚きの「前もって翻訳済み」状態

さらに面白い発見がありました。

「生き残りのトークン」は、AI の脳(言語モデル)に入るに、すでに**「言葉に近い形」で整理されている**ことがわかりました。

  • 従来の考え方: 画像を AI が受け取り、脳内で一生懸命「これは猫だ」「これは赤いだ」と翻訳・処理する必要がある。
  • この論文の発見: 画像を脳に入れる直前には、すでに「猫」「赤」という情報がコンパクトに詰め込まれており、脳はそれを「読む」だけで十分だった。

比喩:
料理屋(AI)に食材(画像)を届ける際、

  • 昔の考え方: 生野菜のまま届けて、料理人が包丁で切り、炒めて、味付けをする。
  • 新しい発見: すでに**「炒められたお惣菜」**として届いている。料理人は「温める」だけでいい。
    つまり、AI の脳内で「画像を処理する作業」の多くは、実は不要だったのです。

🛠️ 4. 今後の可能性:もっと賢く、軽くする

この発見は、AI をもっと効率よくする大きなヒントになります。

  1. ノイズを捨てる: 「沈黙の役者」と「死んだトークン」を最初から削除すれば、計算量が減り、AI が速くなります。
  2. 途中から入れる: 画像の情報は、AI の脳の「入り口」から入れる必要はありません。すでに「お惣菜」状態なので、脳の「中ほど」から直接渡せばいいことがわかりました。
    • 比喩: 新人研修(浅い層)をスキップして、いきなり実務(中層)から始めさせる方が、実は成果が上がる。

📝 まとめ

この論文は、**「AI が画像を見ているとき、実は 4 割は『無駄な作業』や『ノイズ』に時間を費やしていた」と告げ、「必要な情報(6 割)だけを、必要な場所(脳の途中)に渡せば、もっと速く、賢く、正確に動ける」**という新しい道を示しました。

これにより、将来的には**「もっと軽量で、省エネで、かつ高性能な AI」**を作れるようになるかもしれません。