Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を見て何かを答えるとき、その頭の中で実際に何が起こっているのか？」**という謎を解き明かす、画期的な研究です。

従来の AI（特に画像と言語を同時に扱う「視覚言語モデル」）は、中身が見えない**「ブラックボックス（黒い箱）」**と言われていました。中がどうなっているか分からず、なぜ間違った答えを出したのか、なぜ偏見を持ったのかを診断するのが難しかったのです。

この研究チームは、そのブラックボックスの内部配線図を初めて描き出し、AI の思考回路を「見える化」することに成功しました。

以下に、難しい専門用語を使わず、日常の例え話を使って説明します。

1. 核心となるアイデア：AI の「脳」を分解する

この研究では、AI の内部を**「回路（Circuit）」として捉えています。
例えば、AI が「火星の画像を見て、宇宙船の話をする」という思考をしたとき、それは単なる魔法ではなく、「火星の画像を検知する回路」→「宇宙のイメージを呼び出す回路」→「宇宙船という単語を出力する回路」**という、物理的な配線のようなつながりによって行われているのです。

彼らはこの配線図を引くために、3 つの重要なツールを使いました。

① トランスコーダー（Transcoders）：AI の「翻訳機」

AI の内部は、人間には理解できない複雑な数字の羅列（ポリセマンティックな表現）で動いています。

例え話： AI の脳内は、1 人の人が「猫」「赤い色」「柔らかい」という 3 つの異なる概念を、同時に「青い光」という 1 つの信号で表現しているような状態です。これでは誰にも分かりません。
解決策： 彼らは**「トランスコーダー」という装置を AI の各層に挿入しました。これは、AI の複雑な信号を、人間が理解できる「単一の意味を持つ言葉（モノセマンティックな特徴）」**に翻訳する役割を果たします。
- 「青い光」→「猫」
- 「青い光」→「赤い色」
- 「青い光」→「柔らかい」
  このように分解することで、AI が「今、猫について考えているんだな」と特定できるようになりました。

② アトリビューション・グラフ（Attribution Graph）：思考の「流れ図」

翻訳された信号が、AI のどの部分からどの部分へ流れているかを追跡します。

例え話： 料理のレシピのように、「卵（入力）」が「ボウル（層）」に入り、「泡立て器（特徴）」で混ぜられ、「フライパン（次の層）」へ移り、最終的に「オムレツ（出力）」になるまでの**「誰が、どこで、何をしたか」の完全な流れ図**を描きます。
これにより、「火星の画像」から「宇宙船」という言葉が出るまで、どの回路が関与したかがハッキリと見えます。

③ 回路の「修理」と「操作」：AI の「スイッチ」

見つけた回路が本当に重要なのか、実験で確かめます。

例え話： 回路図を見て、「ここが『火星』のスイッチだ」と分かれば、そのスイッチを**「オフ」にしたり、別の回路（例えば『地球』の回路）の信号に差し替えたり**できます。
実験結果： 「火星」の回路を消すと、AI は火星を認識できなくなります。逆に、「地球」の回路の信号を無理やり流し込むと、火星の画像を見ているのに「地球」と言い出すようになります。これは、その回路が AI の思考に**「因果関係（原因と結果）」**を持っていることを証明しています。

2. 発見された驚きの事実

この「回路図」を分析することで、AI の意外な性質がいくつか見つかりました。

① 視覚と意味は、頭の奥で初めて融合する
- AI の浅い部分（最初の数層）では、「画像の形」や「色」だけを処理しています。しかし、深い部分（後半の層）に行くにつれて、「これは猫だ」という**「意味」と「画像」が合体**して初めて理解される仕組みでした。
② 数学も「絵」で解いている？
- 「1 + 2 = ?」という画像の問題を解くとき、AI は言葉で計算しているのではなく、「数字の形そのもの」を視覚的に処理して答え（3 の形）を導き出している回路が見つかりました。
③ 「6 本指」の幻覚（ハルシネーション）の理由
- AI が手を見て「6 本指だ」と間違った理由が分かりました。
- 原因は、AI が「手」という概念を強く認識する回路と、「指の数を数える」回路が競合し、「手」というイメージが「5」という数字の回路を圧倒してしまい、6 という数字の回路が抑えられてしまったためでした。これは単なるバグではなく、回路同士のバランスの問題だったのです。
④ 火星から宇宙船へ
- 火星の画像を見ると、AI の内部で「宇宙船」という言葉に関連する回路が勝手に活性化していました。これは、AI が「火星＝宇宙」という視覚的な連想を持っていることを示しています。

3. この研究がなぜ重要なのか？

これまで、AI が間違った答えを出したとき、「なぜ？」と聞いても「分からない」というのが答えでした。しかし、この研究によって：

診断が可能に： 「あ、この回路が壊れているから、間違った答えが出ているんだ」と特定できるようになります。
制御が可能に： 特定の回路を操作することで、AI の振る舞いを意図的に変えたり、バイアスを減らしたりできます。
信頼性の向上： 「ブラックボックス」だった AI が、中身が見える「透明な箱」になり、医療や自動運転などの重要な場面で安心して使えるようになります。

まとめ

この論文は、**「AI の頭の中を、配線図が描かれた複雑な機械のように分解し、どのスイッチがどう繋がっているかを初めて明らかにした」**という画期的な成果です。

まるで、AI という巨大な工場が、どの機械（回路）が働いて製品（答え）を作っているかを、一人一人の作業員（特徴）まで追跡して説明できるようになったようなものです。これにより、私たちは AI をより深く理解し、安全で賢い未来を築くための第一歩を踏み出しました。

Each language version is independently generated for its own context, not a direct translation.

論文要約：ビジョン・言語モデル（VLM）における回路追跡（Circuit Tracing）

タイトル: Circuit Tracing in Vision–Language Models: Understanding the Internal Mechanisms of Multimodal Thinking
著者: Jingcheng Yang, Tianhu Xiong, Shengyi Qian, Klara Nahrstedt, Mingyuan Wu (UIUC など)

1. 背景と課題 (Problem)

ビジョン・言語モデル（VLM）は、画像認識と言語理解を統合し、高度な推論を行う能力を備えていますが、その内部動作は「ブラックボックス」としての側面が強く残っています。

解釈性の欠如: 医療、自動運転、コンテンツモデレーションなど高リスクな分野で利用されていますが、意思決定の根拠やバイアスの原因を特定することが困難です。
既存手法の限界: 従来の機械的解釈性（Mechanistic Interpretability）研究は、主にテキストモデル（LLM）に焦点を当てており、視覚情報と言語情報を異なる統計的・意味的特性を持つモダリティとして統合する VLM の複雑な内部構造（マルチモーダル推論のメカニズム）を解明する手法は存在しませんでした。
核心的な問い: VLM はどのように視覚的特徴をトークンに結びつけ、クロスモーダルな推論を実行し、視覚的注意と言語的注意を調整しているのでしょうか？

2. 提案手法 (Methodology)

本研究は、VLM における最初の「回路追跡（Circuit Tracing）」フレームワークを提案し、マルチモーダル推論の内部計算メカニズムを体系的に分析します。手法は以下の 3 つの主要コンポーネントで構成されます。

3.1 トランスコーダー（Transcoders）の導入

目的: VLM の MLP 層を、解釈可能な単一意味特徴（monosemantic features）に分解すること。
手法: 既存のスパース・オートエンコーダー（SAE）ではなく、MLP サブレイヤーを置換する「トランスコーダー」を各層にトレーニングします。
- エンコーダーは入力 $x$ を潜在特徴 $z$ にマッピングし、デコーダーは元の MLP 出力を再構成します。
- スパース性は L1 正則化ではなく、TopK 選択（活性化された上位 k 個のみ保持）によって制御され、安定したトレーニングを実現します。
- 再構成誤差（残差）は別途追跡し、回路グラフにエラーノードとして含めることで、近似による損失を管理します。

3.2 帰属グラフ（Attribution Graph）の構築

目的: 特徴間の因果関係を特定し、計算グラフを可視化すること。
手法: 特定の入力（プロンプト）に対してモデルを局所的に線形化し、特徴が上位層の活性化や最終出力ロジットにどのように寄与するかを線形分解します。
- ノード：トークン埋め込み、アクティブなトランスコーダー特徴、出力ロジット。
- エッジ：ソース特徴の活性化量と、ターゲットへの仮想的な重み（局所微分）の積として定義される帰属値。
- 画像トークンの場合、SigLIP 視覚エンコーダーの注意マップ（Attention-rollout）を計算し、どの画像領域が特徴に寄与しているかを可視化します。

3.3 回路発見と介入実験

回路発見: 帰属グラフから、特定の機能（例：足し算、物体認識）を説明する最小の計算部分グラフを特定します。類似機能を持つ特徴を人間のエキスパートがグループ化し、解釈可能な回路として抽象化します。
介入（Intervention）:
- ステアリング（Steering）: 特定の特徴の活性化値を意図的に変更し、出力への影響を観測します。
- 回路パッチング（Circuit Patching）: ある回路のサブグラフを別の回路に移植し、移植先で同様の振る舞いが再現されるかを確認します（因果関係の検証）。

3. 主要な発見と結果 (Key Results & Findings)

Gemma-3-4B-it などのモデルを用いた実験により、以下の重要な知見が得られました。

視覚・意味概念の階層的統合:
- 視覚的特徴と言語的意味の両方を同時に符号化する特徴は、ネットワークの**上位層（Layer 20 以降）**でのみ出現します。下位層はモダリティ固有の処理に特化しており、クロスモーダルな結合は深度に沿って漸進的に形成されます。
視覚的推論における視覚回路の存在:
- 視覚的な算数問題（例：「1 + 2」の画像）において、モデルは純粋な意味計算だけでなく、視覚空間内での計算を行っていることが示されました。結果となる数字（例：「3」）に対応する視覚的特徴が中間層で活性化します。
ハルシネーションのメカニズム（6 本指問題）:
- 「指が 6 本ある」といったハルシネーションは、単一の失敗ではなく、視覚エンコーダーの「手」という一般的な意味への偏り（perceptual bias）と、内部回路による特徴の増幅が競合・相互作用した結果であることが判明しました。
並列な視覚・意味経路と遅延収束:
- 深層まで視覚的経路と意味的経路が分離して維持されています。例えば、火星の画像から「スペースシャトル」という視覚的連想が引き起こされるなど、意味とは独立した視覚的連想が存在します。これらは最終層で統合され、一貫した推論を可能にします。
因果的介入の成功:
- 特定の特徴（例：火星の視覚的特徴）を抑制し、別の回路（例：地球の視覚的特徴）の活性化を移植することで、モデルの出力を意図的に変更（地球に関連する内容へ）することに成功し、発見された回路が因果的に有効であることを実証しました。

4. 貢献と意義 (Contributions & Significance)

初の VLM 回路追跡フレームワーク: マルチモーダルモデルの内部メカニズムを解明するための最初の体系的なアプローチを提供しました。
科学的洞察: VLM がどのように視覚と言語を統合し、推論を行うかという根本的なメカニズム（階層的統合、視覚的計算の存在、ハルシネーションの原因）を明らかにしました。
実用的な制御可能性: 回路の特定と介入（ステアリング、パッチング）を通じて、モデルの動作を意図的に制御・修正する可能性を示しました。これは、より透明性が高く、信頼性の高い AI システムの設計や、バグの特定・バイアス軽減に直結します。
オープンソース化: 実装コードとモデルは公開されており、今後の解釈性研究の基盤となっています。

5. 限界と将来の課題 (Limitations & Future Work)

視覚エンコーダーの注意マップの解釈難易度: 関連領域の特定が困難な場合があり、特徴の注釈付けに制約があります。
層間スーパーポジションの欠如: 現在の手法は層ごとのトランスコーダーを使用しており、層を超えた特徴の重なり（スーパーポジション）を捉えきれていない可能性があります。
計算コストと自動化: 回路発見には人間の専門家の労力が多く必要であり、大規模モデルへのスケーリングや定量的評価が困難です。自動ラベリングや自動化された解釈手法の開発が求められます。
モデルの一般化: 現時点では特定のモデル（Gemma-3）に限定されており、他の VLM アーキテクチャへの適用による知見の一般化が必要です。

結論:
本研究は、VLM の「ブラックボックス」を解きほぐすための重要な一歩であり、機械的解釈性の領域をテキストモデルからマルチモーダルモデルへと拡張しました。これにより、より安全で制御可能な AI の開発に向けた道筋が示されました。

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking