Each language version is independently generated for its own context, not a direct translation.

🎪 CIRCUS: 機械の「脳回路」を確実に見つける方法

この論文は、AI（大規模言語モデル）がどのように考えているかを解明する「機械的解釈性」という分野における、とても実用的で賢い新しい方法を紹介しています。

タイトルにあるCIRCUS（サーカス）は、**「不確実性下での回路合意（Circuit Consensus under Uncertainty via Stability Ensembles）」**の略です。

少し難しい専門用語を、日常の生活や面白い比喩を使って説明しましょう。

🤔 従来の問題点：「一度きりの推測」の罠

AI の内部構造を調べる際、研究者は「どの部分が重要か」を特定するために、不要な線を消す（剪定する）作業をします。
しかし、ここで大きな問題がありました。

「どこまで線を残すか」という基準（しきい値）を研究者が自由に選べる。
「どの辞書（特徴辞書）を使うか」も研究者次第。

これって、**「地図を描く作業」**に似ていませんか？

研究者 A は「主要な幹道だけ」を残すように設定して地図を描く。
研究者 B は「細い路地まで含める」ように設定して地図を描く。

すると、同じ AI なのに、描かれる「回路図（地図）」が全然違ってしまうのです。「どっちが正しいの？」という不安が常に残ります。これまでの研究は、この「研究者の選び方」によるバラつきを無視して、**「たった一つの答え」**を提示しがちでした。

🎪 CIRCUS のアイデア：「多数決」で真実を見つける

CIRCUS は、この問題を**「不確実性（どれが正しいかわからない状態）」を数値化する問題**として捉え直しました。

🌟 アナロジー：「複数の探偵による事件捜査」

Imagine してください。ある事件（AI の思考プロセス）を解明するために、同じ証拠（AI のデータ）を基に、10 人の探偵がそれぞれ独自のルールで捜査するとします。

探偵 Aは「容疑者 1 人だけ」を重要視します。
探偵 Bは「容疑者 10 人」を重要視します。
探偵 Cは「容疑者 5 人」を重要視します。

それぞれの探偵が「犯人（重要な回路）」のリストを出します。
ここで CIRCUS が行うのは、「どの探偵のリストにも共通して名前が挙がっている人」だけを見つけることです。

全員が一致して「重要だ」と言う線 → **これは「確実な核心（コア）」**です。
半分くらいの探偵しか言わない線 → **これは「可能性のある候補（コンティンジェント）」**です。
たった一人しか言わない線 → **これは「ノイズ（誤った推測）」**かもしれません。

このように、**「多数決（コンセンサス）」**を取ることで、研究者の「好き嫌い」や「設定のバラつき」に左右されない、**揺るぎない「真の回路」**を抽出できるのです。

🛠️ CIRCUS がやっていること（3 ステップ）

複数の視点で見る（Bagging）
1 回の計算結果から、異なる「しきい値（基準）」を何通りも変えて、複数の回路図を作ります。
- 例：「厳しめの基準」「緩い基準」「中間の基準」など。
安定性スコアをつける
各回路図の「線（エッジ）」が、何回出現したかを数えます。
- 10 回中 10 回出てきた線 → 安定性スコア 100%（超重要！）
- 10 回中 3 回しか出てこない線 → 安定性スコア 30%（怪しいかも）
「核心」だけを取り出す
すべての視点で一致した線だけを「CIRCUS 回路」として報告します。
- これにより、「研究者が設定を変えても、ここだけは変わらない」という確実な部分だけが残り、ノイズが排除されます。

📊 驚くべき結果

この方法を Gemma-2-2B や Llama-3.2-1B という AI で試したところ、以下のような素晴らしい結果が出ました。

サイズが劇的に小さくなる
従来の「ありとあらゆる可能性を含めた巨大な回路図」と比べて、CIRCUS が導き出した「核心回路」は約 40 倍も小さくなりました。
- 例：「全員の意見を集めた巨大な地図」ではなく、「全員が同意する主要な幹道だけ」に絞れるので、とても見やすくなります。
説明力は落ちない
40 倍小さくなったのに、AI の思考を説明する力はほとんど失われませんでした。
本当に重要なのか？（検証）
「CIRCUS が見つけた重要な部分」を AI の脳内で実際に操作（パッチング）すると、AI の答えが崩れることが確認されました。これは、CIRCUS が見つけた回路が、単なる偶然ではなく、本当に AI の思考を支えていることを証明しています。

💡 まとめ：なぜこれが重要なのか？

CIRCUS は、AI の「脳回路」を調べる際に、「研究者の主観や設定の揺らぎ」を無視せず、むしろそれを活用して「確実な部分」を浮き彫りにするという、とても賢いアプローチです。

核心（Core）：全員が同意する、絶対に外せない重要な線。
候補（Contingent）：状況によっては重要になるかもしれない線。
ノイズ（Noise）：たまたま出てきただけの誤った線。

このように、「何が確実で、何が不確実か」を明確に区別して報告できるため、AI の仕組みをより信頼性高く、 audit（監査）しやすくなりました。

一言で言えば：

「AI の仕組みを解明する際、一人の探偵の独断ではなく、多数の視点で合意された『真実の地図』を描くことで、ノイズを排除し、確実な核心を見つけ出す方法」

これが CIRCUS です。

Each language version is independently generated for its own context, not a direct translation.

以下は、提示された論文「CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles」の技術的な要約です。

1. 問題設定 (Problem)

機械的解釈性（Mechanistic Interpretability）における「回路発見（Circuit Discovery）」は、モデルの計算グラフから特定の行動を因果的に支える疎な部分グラフ（回路）を特定する重要な課題です。しかし、現在の手法には以下の重大な課題があります。

分析者の恣意的な選択への敏感性: 回路の抽出には、剪定閾値（pruning thresholds）や特徴辞書（feature dictionaries、例：トランスコーダーのチェックポイント）などの分析者の選択が不可欠です。
脆い「ワンショット」説明: 特定の選択に基づいて得られた回路は、他の選択では全く異なる結果となり、どの構造が安定しているのか、どの部分がアーティファクト（ノイズ）なのかを区別する原理的な方法が欠如しています。
不確実性の欠如: 従来の手法は単一のグラフを出力するだけで、その結果に対する不確実性（Uncertainty）を定量化していません。

本研究は、これらの分析者の選択（閾値や辞書）による変動を「不確実性」として捉え、これを定量化する枠組みを提案します。

2. 手法 (Methodology: CIRCUS)

提案手法 CIRCUS は、単一の生アトリビュート（Attribution）実行結果に対して、複数の異なる設定で剪定を行う「ブートストラップ（Bagging）」アプローチを採用し、安定性アンサンブルを構築します。

構成 (Pipeline):
1. 設定のサンプリング: 単一の生アトリビュートグラフに対して、複数の剪定設定（閾値の組み合わせなど） $B$ 個を定義し、それぞれで剪定されたグラフ（ビュー）を生成します。モデルの再学習は不要です。
2. 安定性スコアの付与: 各エッジに対して、 $B$ 個のビューのうち何割のビューでそのエッジが保持されたかを「安定性スコア（Stability Score）」 $s(e)$ として計算します。
  $s(e) = \frac{1}{B} \sum_{b=1}^{B} \mathbb{I}[e \in E^{(b)}]$
3. コンセンサス回路の抽出: 安定性スコアが閾値 $\tau$ $τ$ 以上のエッジのみを含む部分グラフを「コンセンサス回路」と定義します。
  - 厳密コンセンサス ( $\tau=1$ ): すべてのビューに共通するエッジのみ。これが「コア（Core）」回路となります。
  - 探索的コンセンサス ( $\tau < 1$ ): 一部のビューにのみ現れるエッジを含み、代替経路を可視化します。
4. 階層化とブースティング:
  - コア (Core): 厳密コンセンサス ( $\tau=1$ )。
  - 条件付き (Contingent): 中程度の安定性だが高い影響力を持つエッジ（代替経路）。
  - ノイズ (Noise): 低安定性かつ低影響力のエッジ（棄却可能）。
  - ブースティング: コア回路で説明しきれない残りの影響力（Residual Influence）を分析し、補完的な回路を追加するオプションも提供します。
評価指標:
- 保持された影響力 (Influence Retained, IR): 抽出された回路が元のグラフの全出力への影響力をどの程度保持しているか。
- 因果的検証: 活性化パッチング（Activation Patching）を用いて、コンセンサスで特定されたノードが実際に因果的に重要であることを検証します。

3. 主要な貢献 (Key Contributions)

不確実性意識型の回路発見フレームワーク: 分析者の選択による変動を「エッジの安定性」として定量化し、信頼性の高い「コア回路」と、不確実な「代替/ノイズ構造」を明示的に分解する手法を提案しました。
高効率な実装: モデルの再学習や追加の計算コストはほぼゼロで、既存の剪定結果を集約するだけで動作します。
新しい評価基準: 単一の閾値ベースの回路や、すべてのエッジを合わせた「ユニオン（Union）」と比較し、同じエッジ数（予算）制約下でも優れた説明力を示すことを実証しました。
因果的妥当性の検証: 活性化パッチング実験により、コンセンサス回路のノードがランダムなノードや一致した対照群よりも有意に高い回復率を示すことを統計的に証明しました（ $p=0.0004$ ）。

4. 実験結果 (Results)

Gemma-2-2B および Llama-3.2-1B などのモデルを用いた実験結果は以下の通りです。

サイズと説明力のトレードオフ:
- 厳密コンセンサス（ $\tau=1$ ）回路は、すべての設定のユニオン（全エッジ）と比較して、約 40 倍小さく なりながら、同等の影響力（IR）を保持しています。
- 例：ユニオンが 25,478 エッジで IR 0.93 に対し、コンセンサスは 625 エッジで IR 0.78 を達成。
ベースラインとの比較:
- 同数のエッジ数（625 個）に剪定されたユニオン（Union pruned to $|C_1|$ ）と比較し、コンセンサスの方が高い IR (0.78 vs 0.73) を示しました。これは、閾値に頑健な選択が単なる影響力の大きいエッジの選択よりも優れていることを示唆します。
因果的検証 (Activation Patching):
- 20 のプロンプトにおいて、コンセンサス回路のノードをパッチングした際の回復力は、マッチングされた対照群（非コンセンサスノード）よりも統計的に有意に高かった（ $p=0.0004$ ）。
多様なプロンプトでの安定性:
- 20 種類の異なるプロンプト（事実確認、算数、一般教養など）において、コンセンサス回路は常に「健全性チェック（Sanity Check）」をパスし、最小でも高い影響力を維持しました。

5. 意義と結論 (Significance)

CIRCUS は、機械的解釈性における「信頼性」と「監査可能性」を大幅に向上させる実用的な枠組みを提供します。

意思決定の支援: 研究者や実務家は、安定性の高い「コア回路」に焦点を当てて信頼性の高い解釈を行う一方で、条件付きの「代替経路」や「ノイズ」を明確に区別して報告できます。
再現性の向上: 分析者の恣意的な選択（閾値など）に依存しない、頑健な回路構造を特定する標準的なアプローチを提示しました。
将来の展望: この手法は、モデルのサイズやタスクの複雑さに関わらず拡張可能であり、将来的には複数のトランスコーダーの整合性や、より高度な介入ベースの忠実性評価への応用が期待されます。

要約すれば、CIRCUS は「単一の正解」を探すのではなく、「分析者の選択に対する不確実性を定量化し、その中で最も確実な構造を抽出する」ことで、より信頼性の高い機械的解釈を実現する画期的な手法です。

CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

🎪 CIRCUS: 機械の「脳回路」を確実に見つける方法

🤔 従来の問題点：「一度きりの推測」の罠

🎪 CIRCUS のアイデア：「多数決」で真実を見つける

🌟 アナロジー：「複数の探偵による事件捜査」

🛠️ CIRCUS がやっていること（3 ステップ）

📊 驚くべき結果

💡 まとめ：なぜこれが重要なのか？

1. 問題設定 (Problem)

2. 手法 (Methodology: CIRCUS)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá