LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

本論文は、LLM の各層における視覚トークンの表現を自然言語記述に変換する新しい手法「LatentLens」を提案し、既存手法よりもはるかに高い解釈性で視覚と言語の表現が深く整合していることを示しています。

Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

公開日 2026-02-26
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

LATENTLENS:AI の「目」が見ているものを、言葉で読み解く新しいメガネ

この論文は、**「AI が画像を見て、その中身をどう理解しているのか?」**という謎を解明するための新しい方法(LATENTLENS)を紹介しています。

これまで、AI が画像を処理している過程は「ブラックボックス(中身が見えない箱)」だと思われていましたが、この研究では、**「実は AI は画像を、まるで『言葉』として理解している」**という驚くべき発見をしました。

以下に、専門用語を排し、身近な例えを使って解説します。


1. 背景:AI はどうやって「目」を手に入れたの?

最近の AI(大規模言語モデル)は、元々は「言葉」だけを勉強していました。しかし、これに「画像認識の機能」を少し足すだけで、写真を見て説明できる「視覚言語モデル(VLM)」に変身させることができます。

  • 仕組み: 画像を「パズルのピース(視覚トークン)」に切り取り、それを AI が理解できる「言葉の箱(埋め込み空間)」に投げ込むだけです。
  • 疑問: なぜ、言葉しか知らない AI が、たったこれだけの簡単な変換で、画像を理解できるのでしょうか?

2. 従来の方法の限界:「辞書」で探すのは不十分

これまでに、AI が画像をどう見ているか調べる方法として、主に 2 つがありました。

  1. LogitLens(ログレンズ): AI の「辞書(単語リスト)」を使って、画像のピースがどの単語に一番近いかを探す。
  2. EmbeddingLens(埋め込みレンズ): 辞書の「見出し語」の位置と画像のピースの位置を比べる。

しかし、これらは「失敗」していました。
まるで、「料理中の鍋の中身(複雑な状態)」を、単なる「食材の袋(辞書)」と比べて「これは肉だ!」と判断しようとしているようなものです。
AI は画像を処理する過程で、単なる「肉」という単語ではなく、「焼けている肉」「ジューシーな肉」といった**「文脈を含んだ意味」**に変化させているのに、従来の方法はそれを捉えきれず、「AI は画像を理解していない」という誤った結論を出していました。

3. 新発見:LATENTLENS(潜在レンズ)の登場

この研究チームは、新しいメガネ**「LATENTLENS」**を開発しました。

  • アイデア:
    画像のピースを、単なる「辞書の単語」と比べるのではなく、**「長い文章の中にある、文脈を含んだ言葉」**と比べます。

    • 例え話:
      • 従来の方法:「赤いリンゴ」の画像を見て、辞書の「リンゴ」と「赤」を探す。
      • LATENTLENS:「木に実った赤いリンゴ」という文章全体のイメージと、画像のピースを比べる。
  • 仕組み:

    1. 大量の文章(例:「大きな赤いビル」「窓が並んだ茶色の建物」など)を AI に読ませ、その**「文脈を含んだ状態」**をデータベースに保存します。
    2. 画像のピースを AI に通したとき、その「状態」がデータベースのどの「文脈のある言葉」に一番似ているかを探します。
    3. 結果として、AI は画像を**「大きな赤いビル」**といった具体的な文章として認識していることがわかりました。

4. 驚きの発見:2 つの大きな事実

LATENTLENS を使うと、これまで見えていなかった 2 つの重要な事実が明らかになりました。

① 画像は「言葉」そのものだった

従来の方法では「AI は画像を理解していない」と思われていましたが、LATENTLENS で見ると、画像のピースの 72% が、人間が理解できる「意味のある言葉」に対応していることがわかりました。
AI は、画像を「数字の羅列」ではなく、**「言葉のイメージ」**として処理しているのです。

② 「中層のジャンプ(Mid-Layer Leap)」現象

これが最も面白い発見です。

  • 現象: 画像のピースは、AI の**「最初の層(入力直後)」から、すでに「中盤の層(文章の意味を理解している部分)」**の言葉と最も似ていました。
  • 例え話:
    • 通常、言葉は「入力→処理→意味理解→出力」と段階的に進みます。
    • しかし、画像のピースは、最初から「意味を理解した状態(中盤)」で AI の中に現れるのです。
    • まるで、「料理の材料(画像)」を鍋に入れる瞬間、すでに「完成した料理(意味)」の香りがしているようなものです。
    • これは、AI が画像を処理する際、最初から「単語の並び」ではなく「意味そのもの」を捉えていることを示しています。

5. なぜこれが重要なのか?

  • AI の「脳」がもっとシンプルだった:
    画像と言葉を結びつけるのに、複雑な魔法のような仕組みは必要なく、「意味の空間」が共通しているだけで良いことがわかりました。
  • ハルシネーション(嘘)の防止:
    AI が画像を正しく「言葉」として理解できているかを確認するツールになるため、AI が嘘をつく(存在しないものを見る)のを防ぐヒントになります。
  • 新しい視点:
    「AI は画像をどう見ているか?」という問いに対し、**「AI は画像を、まるで物語の一部として見ている」**という新しい答えが得られました。

まとめ

この研究は、**「AI が画像を見る瞬間、それはすでに『言葉の物語』として AI の脳内に浮かんでいる」**ことを証明しました。

従来の方法は、その物語の「最初の文字」だけを見て「意味がわからない」と判断していましたが、LATENTLENSという新しいメガネを使うと、**「あ、これは『大きな赤いビル』という物語の始まりだったんだ!」**と、AI が何を見ているかがはっきりと読み取れるようになったのです。

これは、AI の「目」と「脳」の関係を理解するための、大きな一歩となりました。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →