Locating and Editing Figure-Ground Organization in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI がどうやって『形』と『背景』を見分けているのか」**という、人間の目にも難しい問題を、AI の頭の中（内部構造）を解剖して解き明かした研究です。

まるで**「AI の脳内にある『見方の癖』を、小さなネジを回すだけで自由に変えられる」**という驚くべき発見があります。

以下に、難しい専門用語を使わず、身近な例え話で解説します。

🎨 1. 実験：AI に「どっちが本物？」と問う

まず、研究者たちは AI（BEiT というモデル）に、**「矛盾する絵」**を見せました。

絵の内容: 矢じりのような「くぼんだ形（凹）」と、それを埋め尽くした「三角形（凸）」が混ざった図です。
問題: 画面の一部を隠して、「ここをどう埋める？」と AI に聞きました。
- 人間の直感: 多くの人は「三角形（凸）」に見えるように埋めがちです（これが「凸の法則」と呼ばれる、人間が持っている無意識の癖です）。
- AI の反応: なんと、AI も人間と同じように、「三角形（凸）」の方を正解だと判断する傾向がありました。

つまり、AI も「くぼみより、膨らんでいる方が『物体』に見える」という、人間と同じような**「見方の癖（グスタルの法則）」**を身につけていたのです。

🔍 2. 解剖：AI の脳内で何が起きている？

次に、研究者たちは AI の頭の中を「X 線」のように透かして、**「いつ、どこでこの癖が決まるのか」**を調べました。

初期の段階（脳の奥の浅い部分）:
AI はまだ迷っています。「三角形にするか、くぼんだ形にするか」で、頭の中で**「どっちもアリ！」という状態（競争状態）**が続いています。
後半の段階（脳の奥の深い部分）:
突然、「三角形（凸）だ！」と決断します。

ここで面白い発見がありました。この「凸にする」という決定は、最後の瞬間に急に出てきたのではなく、**「最初から、小さな『凸好き』の信号が、ひっそりと流れ始めていた」**ことがわかったのです。

🧩 3. 発見：「凸好き」のスイッチはたった 1 つ

AI の頭の中には、何百もの「小さな処理ユニット（アテンション・ヘッド）」が働いています。その中で、**たった 1 つのユニット（L0H9 という名前）が、「凸（三角形）にしよう！」と最初にささやきかける「種（シード）」**の役割を果たしていることが判明しました。

このユニットの役割:
最初は「凸」にするよう、ごく弱い信号を送るだけです。
その後の流れ:
この弱い信号が、AI の頭の中を流れながら増幅され、最終的に「三角形だ！」という強い決断に変わっていきます。

つまり、AI は最初から「凸が正解」と硬直しているわけではなく、「最初のささやき」が、最終的な「大合唱」を引き起こしていたのです。

🎛️ 4. 操作：スイッチをいじると「見方」が変わる！

ここがこの論文の最もすごい部分です。研究者たちは、**「凸好き」のユニット（L0H9）の音量を小さくする（スイッチを弱める）**という操作を行いました。

結果:
すると、AI の見方が劇的に変わりました！
- 操作前: 「三角形（凸）」に見える。
- 操作後: 「くぼんだ形（凹）」を正解として認識するようになった！

まるで、**「AI の脳内の『凸好き』というバイアスを、小さなノブを回すだけで消し去り、AI に『くぼみ』を正しく見せることができた」**のです。

💡 5. この研究のすごいところ（まとめ）

この研究は、AI が「人間のようによく見える」だけでなく、「なぜそう見えるのか」の仕組みを、部品レベルで理解し、コントロールできることを証明しました。

比喩で言うと:
これまでは、AI が「三角形に見える」という結果だけを見て、「AI も人間っぽいね」と言っていました。
しかし、今回の研究は、**「AI の頭の中に『三角形好き』という小さな悪魔（ユニット）がいて、その悪魔の声を小さくすれば、AI は『くぼみ』を見るようになる」と、「悪魔の正体と、その消し方」**まで突き止めたのです。

【実用的な意味】
もし、この技術が医療画像診断（小さな病変を見つける）などに使えれば、「AI が『全体像』に流されすぎて、重要な『小さな異常（くぼみ）』を見逃す」というミスを、この「小さなノブ」を調整することで防げるようになるかもしれません。

結論:
AI の「見方」は、変えられない魔法ではなく、**「調整可能なメカニズム」**だったのです。

Each language version is independently generated for its own context, not a direct translation.

以下は、提示された論文「Locating and Editing Figure-Ground Organization in Vision Transformers（ビジョン・トランスフォーマーにおける図・地の組織化の特定と編集）」の技術的な要約です。

1. 問題定義 (Problem)

ビジョン・トランスフォーマー（ViT）は、画像をパッチの集合としてモデル化し、自己注意（self-attention）メカニズムを通じて長距離の相互作用を可能にすることで、従来の畳み込みニューラルネットワーク（CNN）よりも形状情報への依存度が高いことが知られています。しかし、ViT が人間の視覚知覚の基本原理である「ゲシュタルトの法則」、特に**図・地の組織化（Figure-Ground Organization）**を内部でどのように処理・実装しているかは、依然として不明な点が多いです。

具体的には、人間の視覚系は「凸性（convexity）」を強い先験的知識（プリオア）として持ち、凸な領域を「図（前景）」、凹な境界を「地（背景）」として知覚する傾向があります。ViT が同様のバイアスを持っていることは示唆されていますが、そのバイアスがモデルの内部構造のどの部分で、どのように生成され、最終的な知覚決定に至るのかというメカニズム的な解明は行われていませんでした。

2. 手法 (Methodology)

本研究では、BEiT（Masked Image Modeling を用いたビジョン・トランスフォーマー）を対象とし、以下の手順でメカニズムの解明と介入を行いました。

知覚的競合刺激の設計:
- 「ダーツ（矢じり）」のような非凸な四角形を合成し、その凸包（Convex Hull）と元の形状の差分領域（灰色のマスク領域）を定義しました。
- この領域をマスクし、モデルに補完を求めます。ここで、**局所的な凹みの証拠（ダーツ形状の維持）と大域的な凸性のプリオア（三角形の閉鎖）**が競合する状況を作ります。
- BEiT の離散的なコードブック（discrete visual codebook）を用いることで、ピクセル値の回帰ではなく、形状の補完を「分類問題」として扱い、凸か凹かの知覚的決定を明確に測定可能にしました。
ロジット帰属（Logit Attribution）による分解:
- 言語モデル向けに開発された「ロジット帰属」手法を適応し、モデルの残差ストリーム（residual stream）を構成する各コンポーネント（アテンションヘッド、MLP 層など）が、最終的な出力ロジットに与える直接的な寄与を定量化しました。
- 凸形状に対応するトークン集合と凹形状（背景）に対応するトークン集合のコードブックベクトル間の差分方向を定義し、各コンポーネントの出力をこの方向へ射影することで、そのコンポーネントが「凸性」を支持するか「凹性」を支持するかをスカラー値として算出しました。
活性化スケーリングによる介入（Model Steering）:
- 特定のアテンションヘッドの活性化値にスカラー係数 $\alpha$ を乗算し、その機能への寄与を操作（増幅、減衰、無効化）する実験を行いました。
- 介入の効果を評価するために、モデルの予測確率分布と理想的な凸・凹ターゲットとの間のジェンセン・シャノン類似度（Jensen-Shannon similarity）を計算し、決定境界を越える確率的なシフトを連続的な manifold 上で追跡しました。

3. 主要な貢献 (Key Contributions)

図・地組織化のメカニズム的解明:
- ViT における図・地の組織化が、単なる出力段階のバイアスではなく、識別可能なアテンションサブスペース内の機能的単位によって制御されていることを実証しました。
- 知覚的競合の解決が、初期・中間層では曖昧な状態を維持しつつ、後期層で急激に決着するプロセスであることを明らかにしました。
単一アテンションヘッドによる制御可能性の証明:
- 初期層のアテンションヘッド L0H9 が、凸性バイアスを導入する「初期の種（early seed）」として機能していることを特定しました。
- この単一のヘッドの活性化を減衰させる（ $\alpha = 0.3$ ）だけで、モデルの知覚的決定を「凸性（三角形）」から「凹性（ダーツ形状）」へと反転させることに成功しました。これにより、凸性の先験的知識が受動的なアーキテクチャの産物ではなく、能動的に操作可能なメカニズムであることを示しました。

4. 結果 (Results)

層ごとのバイアスの進化:
- 初期層から中間層にかけて、残差ストリームの寄与はゼロ付近で安定しており、凸性と凹性の証拠が競合している状態（幾何学的な二安定性）が維持されていました。
- 最終層（Terminal Layer）に至ってのみ、凸性を支持する方向への明確なバイアスが急激に現れ、決定が下されました。
アテンションヘッドの役割:
- L0H9: 入力直後から一貫して凸性を支持する弱いバイアス（シード）を提供しています。これがなければ、モデルは局所的な凹みの証拠に支配されやすくなります。
- L9H6: 後期層で凹性を支持する「対抗的な声」として機能しており、幾何学的忠実度が完全に抑制されているわけではないことを示しています。
- 最終的な凸性の優位性は、凹性を支持する信号が消えたからではなく、凸性を支持するアテンションヘッドの集計的な寄与が、凹性を支持する競合を凌駕した結果であることがわかりました。
介入実験:
- L0H9 の活性化を 0.3 倍に減衰させたところ、モデルの確率分布は決定境界を越え、凹みの証拠を優先する領域へ移動しました。
- 視覚的な再構成においても、デフォルトでは三角形として補完されていたものが、介入後は元のダーツ形状（凹み）として正しく復元されました。

5. 意義と結論 (Significance and Conclusion)

本研究は、ビジョン・トランスフォーマーがゲシュタルトの法則（特に凸性）を内部化しているという現象を、単なる行動観察のレベルを超え、メカニズム的な操作可能な原理として解明した点に大きな意義があります。

理論的意義: 凸性バイアスがモデルの「終端の読み出しバイアス」ではなく、初期層で種がまかれ、後期層で競合を経て決定される「能動的な組織化プロセス」であることを示しました。
実用的意義: 医療画像診断や異常検知など、局所的な凹み特徴が診断的に重要な領域において、グローバルな組織化プリオアが局所的な証拠を誤って上書きしてしまうリスクを軽減できます。特定の注意ヘッドを操作することで、モデルの重み付けを微調整し、曖昧な文脈下での信頼性の高い物体認識を実現するフレームワークを提供します。

結論として、ViT における図・地の組織化は、特定の計算単位（アテンションヘッド）によって制御される可変的な特性であり、メカニズム的解釈可能性（Mechanistic Interpretability）の手法を用いて意図的に編集可能であることが実証されました。

Locating and Editing Figure-Ground Organization in Vision Transformers

🎨 1. 実験：AI に「どっちが本物？」と問う

🔍 2. 解剖：AI の脳内で何が起きている？

🧩 3. 発見：「凸好き」のスイッチはたった 1 つ

🎛️ 4. 操作：スイッチをいじると「見方」が変わる！

💡 5. この研究のすごいところ（まとめ）

1. 問題定義 (Problem)

2. 手法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance and Conclusion)

関連論文

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics