Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

本論文は、トランスコーダーやアテンションベースの手法を用いて視覚言語モデルの内部回路を初めて追跡・可視化するフレームワークを提案し、視覚的特徴と意味的概念の階層的統合や数学的推論のメカニズムを解明するとともに、その因果的制御可能性を実証することで、より説明可能で信頼性の高いモデルの基盤を築くものである。

Jingcheng Yang, Tianhu Xiong, Shengyi Qian, Klara Nahrstedt, Mingyuan Wu

公開日 2026-02-25
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を見て何かを答えるとき、その頭の中で実際に何が起こっているのか?」**という謎を解き明かす、画期的な研究です。

従来の AI(特に画像と言語を同時に扱う「視覚言語モデル」)は、中身が見えない**「ブラックボックス(黒い箱)」**と言われていました。中がどうなっているか分からず、なぜ間違った答えを出したのか、なぜ偏見を持ったのかを診断するのが難しかったのです。

この研究チームは、そのブラックボックスの内部配線図を初めて描き出し、AI の思考回路を「見える化」することに成功しました。

以下に、難しい専門用語を使わず、日常の例え話を使って説明します。


1. 核心となるアイデア:AI の「脳」を分解する

この研究では、AI の内部を**「回路(Circuit)」として捉えています。
例えば、AI が「火星の画像を見て、宇宙船の話をする」という思考をしたとき、それは単なる魔法ではなく、
「火星の画像を検知する回路」→「宇宙のイメージを呼び出す回路」→「宇宙船という単語を出力する回路」**という、物理的な配線のようなつながりによって行われているのです。

彼らはこの配線図を引くために、3 つの重要なツールを使いました。

① トランスコーダー(Transcoders):AI の「翻訳機」

AI の内部は、人間には理解できない複雑な数字の羅列(ポリセマンティックな表現)で動いています。

  • 例え話: AI の脳内は、1 人の人が「猫」「赤い色」「柔らかい」という 3 つの異なる概念を、同時に「青い光」という 1 つの信号で表現しているような状態です。これでは誰にも分かりません。
  • 解決策: 彼らは**「トランスコーダー」という装置を AI の各層に挿入しました。これは、AI の複雑な信号を、人間が理解できる「単一の意味を持つ言葉(モノセマンティックな特徴)」**に翻訳する役割を果たします。
    • 「青い光」→「猫」
    • 「青い光」→「赤い色」
    • 「青い光」→「柔らかい」
      このように分解することで、AI が「今、猫について考えているんだな」と特定できるようになりました。

② アトリビューション・グラフ(Attribution Graph):思考の「流れ図」

翻訳された信号が、AI のどの部分からどの部分へ流れているかを追跡します。

  • 例え話: 料理のレシピのように、「卵(入力)」が「ボウル(層)」に入り、「泡立て器(特徴)」で混ぜられ、「フライパン(次の層)」へ移り、最終的に「オムレツ(出力)」になるまでの**「誰が、どこで、何をしたか」の完全な流れ図**を描きます。
  • これにより、「火星の画像」から「宇宙船」という言葉が出るまで、どの回路が関与したかがハッキリと見えます。

③ 回路の「修理」と「操作」:AI の「スイッチ」

見つけた回路が本当に重要なのか、実験で確かめます。

  • 例え話: 回路図を見て、「ここが『火星』のスイッチだ」と分かれば、そのスイッチを**「オフ」にしたり、別の回路(例えば『地球』の回路)の信号に差し替えたり**できます。
  • 実験結果: 「火星」の回路を消すと、AI は火星を認識できなくなります。逆に、「地球」の回路の信号を無理やり流し込むと、火星の画像を見ているのに「地球」と言い出すようになります。これは、その回路が AI の思考に**「因果関係(原因と結果)」**を持っていることを証明しています。

2. 発見された驚きの事実

この「回路図」を分析することで、AI の意外な性質がいくつか見つかりました。

  • ① 視覚と意味は、頭の奥で初めて融合する
    • AI の浅い部分(最初の数層)では、「画像の形」や「色」だけを処理しています。しかし、深い部分(後半の層)に行くにつれて、「これは猫だ」という**「意味」と「画像」が合体**して初めて理解される仕組みでした。
  • ② 数学も「絵」で解いている?
    • 「1 + 2 = ?」という画像の問題を解くとき、AI は言葉で計算しているのではなく、「数字の形そのもの」を視覚的に処理して答え(3 の形)を導き出している回路が見つかりました。
  • ③ 「6 本指」の幻覚(ハルシネーション)の理由
    • AI が手を見て「6 本指だ」と間違った理由が分かりました。
    • 原因は、AI が「手」という概念を強く認識する回路と、「指の数を数える」回路が競合し、「手」というイメージが「5」という数字の回路を圧倒してしまい、6 という数字の回路が抑えられてしまったためでした。これは単なるバグではなく、回路同士のバランスの問題だったのです。
  • ④ 火星から宇宙船へ
    • 火星の画像を見ると、AI の内部で「宇宙船」という言葉に関連する回路が勝手に活性化していました。これは、AI が「火星=宇宙」という視覚的な連想を持っていることを示しています。

3. この研究がなぜ重要なのか?

これまで、AI が間違った答えを出したとき、「なぜ?」と聞いても「分からない」というのが答えでした。しかし、この研究によって:

  1. 診断が可能に: 「あ、この回路が壊れているから、間違った答えが出ているんだ」と特定できるようになります。
  2. 制御が可能に: 特定の回路を操作することで、AI の振る舞いを意図的に変えたり、バイアスを減らしたりできます。
  3. 信頼性の向上: 「ブラックボックス」だった AI が、中身が見える「透明な箱」になり、医療や自動運転などの重要な場面で安心して使えるようになります。

まとめ

この論文は、**「AI の頭の中を、配線図が描かれた複雑な機械のように分解し、どのスイッチがどう繋がっているかを初めて明らかにした」**という画期的な成果です。

まるで、AI という巨大な工場が、どの機械(回路)が働いて製品(答え)を作っているかを、一人一人の作業員(特徴)まで追跡して説明できるようになったようなものです。これにより、私たちは AI をより深く理解し、安全で賢い未来を築くための第一歩を踏み出しました。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →