Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（人工知能）がなぜその答えを出したのか、その『思考の過程』を詳しく解き明かす新しい方法」**について書かれています。

従来の方法では、AI の内部で「どのニューロン（神経細胞のようなもの）が光ったか」を見ていましたが、それだけでは「なぜその光りが答えにつながったのか」が分かりませんでした。この論文では、**「CODEC（コードック）」という新しい道具を使って、AI の内部で何が「原因」として働き、何が「結果」を導いたのかを、まるで「料理のレシピ」や「オーケストラの演奏」**のように分析できることを示しています。

以下に、難しい専門用語を使わず、日常の例えを使って説明します。

1. 従来の方法の限界：「光っている人」を見るだけではダメ

AI は、人間が「猫の画像」と入力すると、「猫」と答えを出します。
これまでの研究では、AI の内部で**「どのニューロンが光ったか（活性化）」**を調べるのが主流でした。

例え話：
オーケストラ（AI）が素晴らしい音楽（答え）を奏でているとき、指揮者が「あ、あのバイオリン奏者が一生懸命弓を動かしている！だから音楽が美しいんだ！」と推測することです。
しかし、バイオリン奏者が一生懸命動いていても、それが「音楽を良くするため」なのか「邪魔しているため」なのか、あるいは「他の楽器と協力して初めて意味を持つ」のかは、ただ「動いていること」を見るだけでは分かりません。

2. 新しい方法「CODEC」の登場：「誰が、どう貢献したか」を測る

この論文で紹介されているCODECという方法は、単に「誰が光ったか」ではなく、**「誰が、どのようにして最終的な答え（音楽）に貢献したか」**を計算します。

例え話（料理）：
美味しいシチュー（AI の答え）を作るとき、単に「にんじんが入っていた（活性化）」と言うのではなく、**「にんじんは甘みを出して味を良くした（プラスの貢献）」のか、「塩を入れすぎたから酸味を中和するためにレモンを足した（マイナスの貢献）」**のかを、一つ一つの材料（ニューロン）がどう働いたかまで分解して分析します。
これにより、「この材料は実は邪魔していたんだ」という意外な事実も発見できます。

3. 発見された驚きの事実

この方法で AI を分析すると、いくつか面白いことが分かりました。

① 深くなるほど「少数精鋭」になる

AI の最初の層（入り口）では、多くのニューロンがバラバラに動いていますが、奥の層（出口に近いところ）に行くほど、**「必要なものだけを選んで、スパース（まばら）に働く」**ようになります。

例え： 最初は「全員でアイデアを出し合う会議」ですが、最終的には「決定権を持つ 3 人のリーダーだけが、明確な指示を出して決める」状態に近づくのです。

② 「良いこと」と「悪いこと」が分かれる

AI の奥の層では、「答えを後押しする働き」と「答えを阻害する働き」が、はっきりと別々のグループに分かれることが分かりました。

例え： 以前は「良いこと」と「悪いこと」が混ざり合っていたのが、奥の層では「応援団（プラス）」と「妨害団（マイナス）」が明確に分かれて、それぞれが役割を果たしていることが分かりました。

4. 何ができるようになるのか？

この「貢献の分解」ができるようになると、以下のようなことが可能になります。

AI の操作（ハッキング）：
「猫」という答えを出させたいなら、猫に関連する「貢献グループ」だけを残して、他のグループを消し去ることで、**「猫しか認識できない AI」**を作ることができます。逆に、邪魔なグループだけ消すこともできます。
AI の「思考」を可視化：
「なぜこの画像を猫だと判断したのか？」を、**「光った部分」ではなく「実際に猫の形を認識するために働いた部分」**として画像上で見ることができます。
- 例え： 画像の「耳」や「ひげ」の部分が、AI の脳内で「猫だと判断する鍵」として働いていたことが、ハッキリと光って見えるようになります。

5. 生物の脳にも応用できる

この方法は、人工の AI だけでなく、生物の脳（例えば、魚の網膜など）の研究にも使われています。

例え： 魚の網膜の神経細胞が、どうやって「動く物体」や「静止した物体」を区別しているのかを、この方法で分析することで、生物がどのように情報を処理しているかの「設計図」が見えてきました。

まとめ

この論文は、「AI がブラックボックス（中身が見えない箱）である」という悩みを解決する鍵を提供しました。

これまでの方法： 「箱の中で誰が動いたか」を見る（活性化）。
新しい方法（CODEC）： 「箱の中で誰が、どうやって箱の蓋を開けたか」を見る（貢献の分解）。

これにより、AI の判断理由を人間が理解しやすくなり、より安全で、意図した通りに動かせる AI を作れるようになるかもしれません。まるで、AI の「思考のレシピ」を手に取って、一つ一つの工程を確認できるようになったようなものです。

Each language version is independently generated for its own context, not a direct translation.

論文「CAUSAL INTERPRETATION OF NEURAL NETWORK COMPUTATIONS WITH CONTRIBUTION DECOMPOSITION」の技術的サマリー

本論文は、ICLR 2026 にて発表された研究であり、人工ニューラルネットワーク（ANN）および生物学的ニューラルネットワークの内部動作を解釈するための新しいフレームワーク「CODEC（Contribution Decomposition）」を提案しています。従来の「活性化（activation）」の分析に留まらず、隠れ層のニューロンがネットワーク出力にどのように因果的に寄与しているかを定量化・分解する手法を開発しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と問題定義

既存手法の限界: 従来のニューラルネットワークの解釈性研究（Integrated Gradients, Grad-CAM など）は、主に「入力と出力の相関」や「隠れ層の活性化パターン」に焦点を当てています。しかし、活性化が高いことと、そのニューロンが出力に対して因果的に重要な役割を果たしていることは同義ではありません。活性化は入力に対する感度（受容野）のみを反映し、出力への影響（投射野）を直接示すものではありません。
因果的メカニズムの欠如: 生物学的・人工的ネットワークは、協調した集団活動によって計算を行います。個々のニューロンの活性化だけでなく、ニューロン群がどのように組み合わさって特定の出力を生成するか（因果的プロセス）を理解する標準的な枠組みが存在しませんでした。
課題: 隠れ層のニューロンが、入力特徴と出力の両方を考慮した上で、どのようにネットワークの挙動を構築しているかを、因果的に解釈可能な単位で分解・理解する必要がある。

2. 提案手法：CODEC (Contribution Decomposition)

CODEC は、ニューラルネットワークの挙動を「隠れニューロンの寄与（contribution）」の疎なモティフ（パターン）に分解するフレームワークです。

2.1 基本的なアプローチ

寄与の定義: 隠れニューロン $j$ $j$ の寄与は、その「受容野（入力への感度）」と「投射野（出力への影響）」の合成として定義されます。
- 具体的には、積分勾配法（Integrated Gradients）などのアトリビューション手法を拡張し、特定の出力スカラー目標（例：トップクラスのロジット、エントロピーなど）に対する各隠れユニットの寄与を計算します。
- 空間的に集約されたチャネルごとの寄与値（正負の両方を含む）を算出します。
疎な自動エンコーダ（Sparse Autoencoder, SAE）による分解:
- 計算された寄与行列（チャネル × 画像）を、疎な自動エンコーダを用いて分解します。
- これにより、ネットワークの動作を説明する「寄与モード（contribution modes）」と呼ばれる、ニューロン群の協調的な動作パターン（疎な重み付け）を抽出します。
- 各モードは、特定の画像に対してどのチャネルがどの程度寄与したかを示す「ロードリング（loadings）」を持ちます。

2.2 特徴

ラベル不要: 学習データやクラスラベルにアクセスせず、訓練済みモデルのみに適用可能です。
生物・人工両対応: 画像分類ネットワーク（CNN, ViT）だけでなく、脊椎動物の網膜の神経活動モデルにも適用可能です。
因果的介入: 抽出されたモードに基づいて、ネットワークの特定チャネルを除去（アブレーション）または保持（プレザベーション）することで、出力を制御できます。

3. 主要な結果

3.1 画像分類ネットワーク（ResNet-50）における発見

疎性と次元性の進化: ネットワークの深い層に向かうにつれて、活性化よりも寄与の方がより疎（sparse）かつ高次元になることが示されました。これは、深い層ほど少数のチャネルが決定論的な役割を果たし、多様な特徴が組み合わさっていることを示唆します。
正負の寄与の非相関化: 浅い層では、同じチャネル内の正の寄与と負の寄与は強く相関していましたが、深い層に向かうにつれて徐々に非相関化しました。これは、生物学的視覚系における「興奮・抑制」の分離や、中心・周囲型受容野のような複雑な計算が、深い層でより明確に機能していることを示しています。
クラスとの相関: 抽出された「寄与モード」は、単一のチャネルの活性化や、活性化ベースの分解よりも、ImageNet のクラスラベルと強く相関していました。特に中間層において、この傾向が顕著でした。

3.2 ネットワーク制御と可視化

精密な制御: 特定のクラス（例：「ブラックウィドウ」）と強く相関する寄与モードを特定し、そのモードに関連するチャネルのみを保持、または除去する実験を行いました。
- アブレーション: 関連チャネルのわずか 2% を除去するだけで、対象クラスの分類精度が劇的に低下し、他クラスへの影響は最小限に抑えられました。
- プレザベーション: 関連チャネルのみを残すことで、対象クラスのみを正確に分類するネットワークを構築できました。
- 活性化ベースの手法と比較して、CODEC はより少ないチャネル数で因果的な制御が可能であることを示しました。
入力空間での可視化: 寄与マップ（contribution map）を生成することで、どの入力特徴（ピクセル）が特定のモードを通じて出力を駆動しているかを可視化しました。これにより、異なるクラス間でも共通する意味的な特徴（例：「光沢のある木」「手」など）が抽出されました。

3.3 生物学的ネットワーク（網膜モデル）への適用

動的受容野の解明: 脊椎動物の網膜 ganglion 細胞を予測する CNN モデルに CODEC を適用しました。
組み合わせ的動作: モデルのインターニューロン群の組み合わせ的動作（コンボリナトリアル・アクション）を明らかにし、ganglion 細胞の動的受容場（IRF）が、複数のモードの組み合わせによって時間的に変化する様子を解明しました。
仮説生成: 抽出されたモードは、実験的に検証可能な仮説（特定の視覚特徴を持つプレシナプスニューロンが ganglion 細胞の活動パターンを駆動する）を自動的に生成する手段となりました。

3.4 Vision Transformer (ViT) への適用

ViT においても、トークン（空間的パッチ）と隠れ次元をチャネルとして扱うことで CODEC を適用し、活性化よりも寄与の方が疎であることを確認しました。
ViT 特有の計算戦略（空間的等価性の欠如など）により CNN とは異なる挙動を示しましたが、寄与モードは依然として活性化ベースの手法よりも効果的な因果的介入を可能にしました。

4. 主要な貢献

新しい解釈の単位としての「寄与モード」の提案: 単なる活性化パターンではなく、出力への因果的寄与を直接捉える「寄与モード」を分析単位とすることで、ネットワークのメカニズム的理解を深めました。
因果的介入の高精度化: 抽出されたモードを用いることで、ネットワークの特定機能を高精度に制御（アブレーション/保持）できることを実証しました。
生物と人工の統一的理解: 同一のフレームワークを人工ネットワーク（CNN, ViT）と生物学的ネットワーク（網膜モデル）の両方に適用し、両者が「協調的なニューロン群のモード」を通じて計算を行っているという共通原理を浮き彫りにしました。
正負の寄与の非相関化の発見: 深い層において、興奮と抑制の役割がチャネル内で分離・非相関化するという、ネットワークの階層的な計算特性の新たな洞察を提供しました。

5. 意義と将来展望

AI の安全性と設計: 黒箱化されがちな深層学習モデルの内部動作を因果的に理解することで、安全な AI システムの設計や、意図しない振る舞いの特定に寄与します。
神経科学への応用: 生物学的神経回路の機能理解において、計算単位と神経細胞の対応関係を明らかにし、実験的仮説を生成する強力なツールとなります。
効率的なアーキテクチャ: 抽出された「疎な計算モティフ」は、より効率的なニューラルネットワークの設計や、転移学習の基盤となる可能性があります。

結論として、CODEC は、非線形計算が階層的にどのように進化し、出力を構築するかを理解するための豊かで解釈可能な枠組みを提供し、人工知能と生物学的知性のメカニズム理解の架け橋となる可能性を秘めています。

Causal Interpretation of Neural Network Computations with Contribution Decomposition