このテキストの背後にある AI のようなトランスフォーマー言語モデルを、静的な脳ではなく、工場の組立ラインとして想像してみてください。

長らく研究者たちは、AI が「信頼性」や「拒絶」といった概念を学習する際、それがそのライン上の特定の 1 つのステーションで起こると考えていました。彼らは、アイデアが最も明確に見える「最良の層」を 1 つだけ探すために、まるで映画の中で登場人物の顔が最もはっきり見える瞬間を見つけるかのように探していました。

しかし、この論文は、その見方は単純すぎると主張しています。単一のスナップショットの代わりに、概念はプロセスなのです。それらは、組立ラインの特定のゾーンを通過しながら、徐々に構築されていきます。著者はこれを**概念割り当てゾーン（CAZ）**と呼んでいます。

以下に、日常の比喩を用いてその仕組みを解説します。

1. 組立ライン対スナップショット

AI の「残差ストリーム（モデルを流れるデータ）」をコンベアベルトだと考えてください。

従来の方法: 研究者たちは、ベルトを特定の 1 点で止め、写真を撮り、「概念はここに存在する」と言っていました。
新しい方法（CAZ）: この論文は、「いいえ、概念は移動しながら構築されているのです」と言います。それは曖昧なアイデアとして始まり、洗練され、場合によってはベルトの異なる部分へ受け継がれ、最終的に定着します。CAZ とは、モデルがその概念を明確にするために内部の幾何学構造を積極的に編成している、コンベアベルトの全延長部分のことです。

2. 構築を観察するための 3 つのツール

このプロセスを追跡するために、著者はライン上の各ステーションで何が起こっているかを測定する 3 つの「センサー」を発明しました。

分離（距離）: 2 つのグループ（例えば「信頼できる」対「信頼できない」）を想像してください。ラインの始まりでは、それらはすべて混ざり合った群衆の中にいます。ラインを下るにつれて、「信頼できる」グループは左へ、「信頼できない」グループは右へと歩き始めます。分離は、それらがどれほど離れているかを測定します。
一貫性（秩序）: 時にはグループ同士が離れていても、乱雑で散らばっていることがあります。一貫性は、そのグループが整然と密な列で歩いているのか、それとも混沌とした群衆なのかを測定します。高いスコアは、概念が明確な形状に「結晶化」していることを意味します。
速度（変化の速さ）: これは、グループがどれほど速く離れていくかを測定します。距離が急速に広がっている場合、概念はまさに構築中です。距離の変化が止まれば、概念は完成したことになります。グループが再び近づき始めれば、概念は捨てられたか、変更されたことになります。

3. 「穏やかな」ゾーン

この論文は、驚くべき発見をしました。概念には単一の大きなピークがあるだけでなく、複数のゾーンを持つことが多いのです。

主要な CAZ: 概念が最も強くなる、大きく明白なピークです。
穏やかな CAZ: 標準的なツールが見逃してしまう、小さく微妙なゾーンです。この論文は、これらの「穏やかな」ゾーンさえも実在し、活動的であることを発見しました。それらを無効にすると、AI の行動は変化します。これは、時計の中に知らずに回っていた小さな隠れた歯車を見つけたようなもので、それらを止めると時計は動かなくなります。

4. 概念は「部分表現」を持つ

時には、「信頼性」といった概念が組立ライン上で 2 回現れます。

浅いゾーン: 始まり付近では、AI は「信頼できる」や「信頼」といった特定の単語があるという理由だけで信頼性を認識するかもしれません。
深いゾーン: さらに下流では、AI は物語全体と文脈に基づいて再評価を行います。
この論文は、これらが実際には AI の頭脳内における異なる幾何学的形状であることを示しています。これらは、同じ単語を異なる深さで理解する 2 つの異なる方法です。

5. 「引き渡し」

概念は移動し、形状を変化させるため、この論文は、介入（AI の行動の変更）を行いたい場合は、単に「最良の」層を選ぶべきではないと提案しています。代わりに、概念がその旅を終え、安定した形状に「定着」するまで待つべきです。これを引き渡し層と呼びます。

比喩: あなたがボールをキャッチしようとしている場合、投げられている最中（構築段階）に掴もうとするのではなく、空中で安定している（引き渡し段階）まで待つべきです。

6. 「普遍的」なパターン

この論文は、34 種類の異なる AI モデルでこれをテストしました。異なるモデルが異なる数の層を持っていることがわかった一方で、それらはすべて概念を同様の相対的な順序で編成していることがわかりました。

比喩: 2 つの異なる工場を想像してください。一方は 10 のステーションを持ち、もう一方は 100 のステーションを持っています。どちらも車を製造します。どちらの工場でも、エンジンはラインの最初の 20% で組み立てられ、塗装は最後の 20% で行われます。総長さが異なっても、ラインの割合は同じです。この論文は、AI モデルがこの同じ「深度で層化された」設計図に従っていることを確認しました。

検証されたことの要約

著者はこの理論を検証するために 7 つの具体的な予測を立てました。以下は、平易な英語での結論です。

予測 1（どこを切るか）: ゾーンの真ん中を切るのが最善だと考えました。誤りでした。モデルによって異なります。場合によっては、終わりを切る方が優れています。
予測 2（順序）: 概念の順序はすべてのモデルで同じだと考えました。ほぼ真実です。順序は一貫していますが、完全に硬直的ではありません。
予測 3（幅）: 複雑なアイデアはライン上でより多くのスペースを占めると考えました。おそらくです。データはこれを示唆していますが、さらにテストが必要です。
予測 4（終わり）: 概念は最後の最後で乱雑になると考えました。検証不可能です。「1 つの乱雑な終わり」という理論は誤っていました。なぜなら、概念はしばしば複数のピークを持つため、測定すべき単一の「終わり」が存在しないからです。
予測 5（整合性）: モデル間の深度（ラインの割合）を一致させることが重要だと考えました。真実です。これが最も強力な発見です。あるモデルの「中央」と他のモデルの「中央」を比較すれば、それらは完全に整合します。
予測 6（単語対文脈）: 初期のゾーンは単語のみに関係し、深いゾーンは文脈に関係すると考えました。誤りでした。初期のゾーンは単なる生の単語ではなく、すでに処理されています。
予測 7（アーキテクチャ）: 「ピーク」の数はモデルのサイズではなく、モデルの種類に依存すると考えました。不明です。テストが十分でなかったため、確定的には言えません。

結論

この論文は、AI の見方を（概念はどこにあるかという）静的な地図から（概念がどのように形成されるかという）動的な映画へとシフトさせます。それはアイデアの「建設ゾーン」を測定する方法を導入し、AI モデルが複雑な思考を段階的に構築しており、以前の手法が見逃していた複数の隠れたステップをしばしば使用していることを明らかにしています。

技術的概要：概念割り当て領域（CAZ）

問題定義

現在の機械的解釈可能性手法は、主に「最良の層」というヒューリスティックに依存しており、トランスフォーマーの残差ストリームにおいて、ある概念の表現が最大クラス分離を達成する単一の最適層を特定する（例えば、線形プロービングや平均値の差を用いる）。計算効率的ではあるが、このアプローチは概念の形成を動的なプロセスではなく、静的なスナップショットとして扱う。概念がモデルの層全体でどのように組み立てられ、組織化され、潜在的に再割り当てされるかという、反復的かつ深度にわたる性質を捉え損なう。その結果、単一層の手法は、過渡的な表現、微妙な割り当て領域、および概念構築の幾何学的ダイナミクスを見逃す可能性がある。

手法

本論文は、概念表現を単一の点ではなく、モデル深度の連続領域として再定義する「概念割り当て領域（CAZ）」フレームワークを導入する。このフレームワークは、残差ストリーム活性化から計算される 3 つの層別指標に依存する：

分離度（ $S(l)$ ）： 層 $l$ における対照クラス間のフィッシャー正規化された重心距離。これは、特定の深度においてモデルが 2 つのクラス（例えば、信頼できるテキスト対信頼できないテキスト）をどの程度容易に区別できるかを測定する。
概念一貫性（ $C(l)$ ）： 統合活性化行列の第 1 主成分の説明分散比。これは、概念が単一で明確な幾何学的方向として符号化されているか、それとも複数の次元にわたって拡散しているかを定量化する。
概念速度（ $v(l)$ ）： 層をまたぐ分離度指標の平滑化された変化率。正の速度は概念の能動的な構築を示し、負の速度は劣化または再割り当てを示す。

検出と抽出

このフレームワークは、手動での層スキャンなしで CAZ の境界を特定するために、スコア付き検出手法を採用する。固定閾値のピーク検出とは異なり、この手法は顕著性、一貫性、および領域幅を組み合わせた合成スコアを使用する。これにより、以下のものが特定可能となる：

主要/強力な CAZ： 高い顕著性を持つ、集中した割り当て領域。
穏やかな CAZ： 標準的なピーク検出ではしばしば見えないが、経験的に因果的に活性であることが示されている、微妙な割り当て領域（スコア < 0.05）。

このフレームワークは、入力境界におけるトークンレベルの特性に駆動される埋め込み CAZと、トランスフォーマー層内のアテンションおよび MLP 計算に駆動される能動的 CAZを区別する。

概念抽出については、概念の方向性軌跡を追跡する**幾何学的進化マップ（GEM）**が検証されている。概念の方向は CAZ 内で大幅な回転を経ることが多く、CAZ 後の「ハンドオフ層」でのみ安定することが判明した。特にマルチヘッドアテンション（MHA）アーキテクチャにおいて、分離ピークでのプロービングよりも、このハンドオフ層でのプロービングの方が精度が高いことが多い。

主要な貢献

CAZ フレームワーク： 概念そのものとは区別して、モデルが概念に奉仕するために幾何学を組織化する深度局所化された間隔としての概念割り当ての形式的定義。
3 つの層別指標： 概念形成をプロセスとして特徴づけるための、分離度、一貫性、および速度の形式化。
スコア付き検出： 割り当て領域のスペクトルを特定するための原理的な手法であり、標準的な手法が見逃す「穏やかな CAZ」を明らかにする。
サブ表現の発見： 単一の人間による概念ラベル（例えば、「信頼性」）が、異なる処理深度（浅い対深い）において、急激な位相転移によって分離された、幾何学的に異なる複数のサブ表現に対応するという経験的証拠。
深度層別アライメント： 概念が絶対的な層インデックスやアーキテクチャファミリーではなく、処理深度（比例層インデックス）によって一致させられる場合、アーキテクチャ間アライメントが最も強くなることを実証し、プラトニック表現仮説の洗練された見解。

経験的結果

このフレームワークは、8 つのアーキテクチャファミリー（Pythia、GPT-2、OPT、Qwen 2.5、Gemma 2、Llama 3.2、Mistral、Phi を含む）の34 モデルおよび7 つの概念で検証された。

多様性： 分離度曲線 $S(l)$ は頻繁に多峰性を示す。単一の概念は通常、複数の CAZ に参加する（モデルあたり概念あたり平均 3.4）。
穏やかな CAZ の因果的活動： 34 モデル中 16 モデル（関連研究では 26 ベースモデルに拡張）におけるアブレーション研究により、「穏やかな CAZ」（スコア < 0.05）を抑制することが、**93–100%**のケースで幾何学的分離を減少させることが示され、標準的な検出では見えないにもかかわらず、それらの因果的役割が確認された。
予測結論：
- 支持（P5）： アーキテクチャ間アライメントは深度一致している。一致した処理深度におけるサブ表現は、不一致な深度よりも強く一致する。
- 部分的に支持（P2）： CAZ 境界はアーキテクチャ間で（浅いから深いへの）一貫した相対的順序を示すが、これは厳密な不変量というよりは統計的傾向である。
- 不支持（P1, P6）： 最適なアブレーション深度は普遍的に CAZ 中央ではない（符号化の冗長性に依存する）、および浅いピークは生トークン埋め込みと直接相関しない。
- 提示されたままではテスト不可（P4）： 単一の CAZ 後劣化領域という前提は、多峰的な割り当ての発見によって無効化された。
- 探索的/未確定（P3, P7）： CAZ 幅と抽象度の間の相関、および多峰性の prevalence とアーキテクチャとの関係は、さらなるデータが必要である。

意義と主張

本論文は、CAZ フレームワークが解釈可能性のパラダイムを、概念が最も可視化される場所を特定する解剖学から、概念がどのように形成されるかを追跡する動的フローへと転換すると主張する。

解釈可能性の洗練： 介入深度の選択に対する幾何学的基盤を提供し、CAZ チェーン内の異なる点でのアブレーションが質的に異なる効果を生むことを示唆する。
「ダークマター」との関連： スパースオートエンコーダ（SAE）によって説明されない構造化された残差は、CAZ 内での進行中の概念構築、すなわち単一の層における線形分解に抵抗する過渡的表現に対応する可能性を仮説とする。
アライメント学習の洞察： CAZ プロファイルは、インストラクションチューニングが概念の割り当てをどのように歪曲するかを定量化する指標を提供し、チューニングが概念を均一に浅い深度へシフトさせるのではなく、ベースモデルの既存の幾何学に基づいて割り当てを変化させることを明らかにする。
深度層別収束： 最も強力な経験的結果は、アーキテクチャ間アライメントが深度層別現象であることを確認し、収束が全球的ではなく、比例した処理段階で起こるという、洗練されたバージョンのプラトニック表現仮説を支持することである。

著者は、CAZ 自体が概念ではなく、幾何学的組織化の計算イベントが発生する深度領域であると強調している。複数の概念が 1 つの CAZ を共有する可能性があり、単一の概念は通常、深度全体で複数の CAZ に参加する。参照実装はオープンソースの rosetta_tools ライブラリで提供されている。

The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth