Towards Attributions of Input Variables in a Coalition

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI（人工知能）が「なぜその判断をしたのか」を説明する際にある**「大きな謎」**を解き明かした研究です。

簡単に言うと、**「AI が『グループ』として判断する時、そのグループ全体の評価と、メンバー一人ひとりの評価を足し合わせたものが一致しないのはなぜか？」**という問題を、新しい数学的な視点で解決しました。

以下に、難しい数式を使わずに、日常の例え話を使って説明します。

1. 問題：「チーム」の評価と「個人」の評価がズレる

AI の判断理由を説明する際、よく使われるのが「シャープリー値（Shapley Value）」という方法です。これは、**「チームの勝利に、どの選手がどれだけ貢献したか」**を公平に計算する方法です。

従来の考え方：
- 「A 選手」の貢献度：10 点
- 「B 選手」の貢献度：10 点
- 「A と B のチーム」の貢献度：20 点（10+10）
- → 当たり前のように「足し算」で合致すると思われていました。
しかし、現実はそうではありませんでした。
- AI が「A と B のチーム」を一つの単位（コアリション）として見た時の評価が、実は「A だけ」＋「B だけ」の合計とズレていることがありました。
- 例え話：
  - 「雨（rain）」と「猫（cats）」と「犬（dogs）」という単語が並んでいる時、AI は「激しい雨（raining cats and dogs）」という一つの意味の塊として認識します。
  - しかし、単語ごとにバラバラに評価すると、「雨」「猫」「犬」の単純な足し算にはなりません。
  - 「グループとして機能している時」と「バラバラの個人」とでは、AI の評価基準がズレてしまうのです。これが「アトリビューション（寄与度）の衝突」と呼ばれる問題です。

2. 解決策：AI の頭の中にある「魔法のレシピ」を見つける

この論文の著者たちは、このズレの原因を突き止めるために、AI の頭の中を「料理のレシピ」に例えて分析しました。

🔍 発見：AI は「AND」と「OR」の魔法を使っている

AI は入力された情報（単語やピクセル）を、以下のような**「相互作用（Interaction）」**という魔法のレシピで処理しています。

AND 相互作用（全員揃って初めて発動）：
- 例：「雨」＋「猫」＋「犬」＋「and」がすべて揃って初めて、「激しい雨」という意味が生まれます。どれか一つでも欠けると、この意味は消えます。
OR 相互作用（どれか一つでも発動）：
- 例：「退屈」か「失望」のどちらか一つでもあれば、「悪い映画」という意味が生まれます。

🧩 衝突の正体

「チームの評価」と「個人の評価」がズレる原因は、**「グループのメンバーの一部だけを含むレシピ」**が混ざっているからです。

例え話：
- あなたは「A と B のチーム」を評価したいとします。
- しかし、AI の頭の中には、「A と B と C」が揃うと発動するレシピ（AND 相互作用）や、「A と D」が揃うと発動するレシピが隠れています。
- 「A と B」だけをグループにしても、AI は「C」や「D」との組み合わせも考慮して評価してしまうため、単純な足し算では説明できなくなるのです。

3. 新しいアプローチ：グループを「忠実な単位」として見る

この論文では、このズレを無理やり修正するのではなく、「なぜズレるのか」を理論的に説明し、新しい評価基準を作りました。

新しい考え：
- 「A と B」が本当に一つのチーム（コアリション）として機能しているかどうかを、**「AI がこのグループをどう扱っているか」**で判断します。
- もし、AI が「A と B」をセットでしか扱わず、他の要素と混ざったレシピを使っていないなら、それは**「忠実な（Faithful）チーム」**です。
- もし、AI が「A と B」をバラバラに扱ったり、他の要素と混ぜていたりするなら、それは**「不忠実なチーム」**です。

4. 実験：将棋（囲碁）と画像で実証

この新しい考え方が正しいかどうか、様々な実験を行いました。

囲碁（Go）の例：
- 囲碁のプロは、石の配置を「形（パターン）」として見ています。
- AI が学習した「石のグループ（パターン）」を分析すると、プロが直感的に「これは良い形だ」と感じるグループは、論文の新しい評価基準でも「忠実なチーム」として高い評価を得ました。
- 逆に、プロが「これはバラバラだ」と感じる組み合わせは、評価基準でも「不忠実」と判定されました。
- さらに、AI が発見した「人間が気づいていない新しい良い形」も発見でき、プロの棋士も「なるほど、そういう見方もあるのか！」と驚いたそうです。
画像認識の例：
- 画像の「馬の頭」の部分だけを切り取った時、AI はそれを一つの意味のある塊として認識していました。
- しかし、ランダムに切り取った「馬の耳と背景の空」の組み合わせは、AI にとっては意味のないバラバラの塊でした。
- この論文の指標は、「人間が『これは一つの意味がある』と感じるグループ」を、AI の内部構造からも正確に当てていました。

まとめ：この研究がもたらすもの

この論文は、**「AI の判断を説明する時、グループ単位で見るか、個人単位で見るかで答えが変わるのは、AI の仕組み（レシピ）のせいだ」**と証明しました。

これまでの課題： 「なぜグループの評価と個人の評価が合わないのか？」という謎があった。
今回の解決： 「AI が『全体』と『一部』をどう混ぜているか」を分析することで、そのズレを理論的に説明し、「AI が本当に意味のあるグループとして認識している部分」を見つける指標を作った。

これにより、AI の判断理由を人間がより直感的に理解できるようになり、AI と人間の協働（例えば、囲碁の新しい戦法の発見や、医療画像の診断支援など）がさらに進むことが期待されます。

一言で言うと：

「AI の頭の中で、『チーム』と『個人』の評価がズレるのは、『チームの一部だけを使った魔法のレシピ』が混ざっているからだと分かりました。これによって、AI が本当に『まとまり』として認識している部分を見つけ出し、人間にも分かりやすく説明できるようになりました。」

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義：帰属付けの矛盾（Attribution Conflict）

既存の XAI 手法（シャープリー値やバンザフ値など）は、入力変数の分割（パーティション）が事前に定義されていることを前提としています。しかし、画像分類では「ピクセル」単位にするか「局所的な領域」単位にするか、自然言語処理では「文字」単位にするか「単語」単位にするかという定義が理論的に確立されておらず、任意の選択に依存しています。

この選択の違いにより生じる**「帰属付けの矛盾」**が本論文の核心です。
具体的には、ある変数の集合 $S$ （連合/Coalition）を単一の単位として扱った場合の帰属値 $\phi(S)$ と、その集合を構成する個々の変数 $i \in S$ の帰属値の和 $\sum_{i \in S} \phi(i)$ が一致しない現象（ $\phi(S) \neq \sum \phi(i)$ ）が発生します。
これまでの研究はこの矛盾を工学的な損失関数（例：Faith-Shap）で無理やり解消しようとしていましたが、なぜこの矛盾が本質的に発生するのか、その数理的なメカニズムは解明されていませんでした。

2. 手法：AND-OR 相互作用に基づく理論的再定式化

著者らは、AI モデルの出力を「AND 相互作用」と「OR 相互作用」の数値的効果の和として分解できるという既存の理論（Li & Zhang, 2023）を基盤に、以下のアプローチを提案しました。

2.1. 相互作用によるシャープリー値の再定式化

シャープリー値やバンザフ値を、入力変数間の非線形関係である「AND-OR 相互作用」の再配分として解釈し直しました。

AND 相互作用 $I_{and}(S)$ : 集合 $S$ のすべての変数が存在する場合にのみ発動する効果。
OR 相互作用 $I_{or}(S)$ : 集合 $S$ の変数のいずれかが存在する場合に発動する効果。

これらの相互作用を介して、個々の変数 $i$ のシャープリー値 $\phi(i)$ は、その変数を含むすべての相互作用 $T$ の効果を $|T|$ で割った値の総和として表現できます。

2.2. 連合（Coalition）の帰属値 $\phi(S)$ の定義

個々の変数の帰属値を拡張し、変数の集合 $S$ 全体に対する新しい帰属指標 $\phi(S)$ を定義しました。
$\phi(S) = \sum_{T \supseteq S} \frac{|S|}{|T|} [I_{and}(T) + I_{or}(T)]$
これは、集合 $S$ を完全に含む相互作用 $T$ の効果を、 $S$ のサイズに応じて配分した値です。

2.3. 矛盾のメカニズムの解明

個々の変数の和 $\sum_{i \in S} \phi(i)$ と連合の帰属値 $\phi(S)$ の差（矛盾）の正体を特定しました。

共有部分 ( $\phi_{shared}$ ): 集合 $S$ を完全に含む相互作用 $T$ ( $T \supseteq S$ ) に由来する部分。これは $\phi(S)$ と一致します。
矛盾部分 ( $\phi_{conflict}$ ): 集合 $S$ の一部の変数しか含まないが、 $S$ のすべてを含まない相互作用 $T$ ( $T \cap S \neq \emptyset, T \cap S \neq S$ ) に由来する部分。

結論: 矛盾は、AI モデルが変数の集合 $S$ を一つの単位として扱わず、その部分集合との相互作用（部分的な相互作用）を学習している場合に生じます。つまり、 $S$ が「忠実な（faithful）」連合であるためには、 $S$ の部分集合のみを含む相互作用が存在しない（または無視できる）必要があります。

2.4. 連合の忠実性評価指標

このメカニズムに基づき、ある変数の集合 $S$ が人間の直感やモデルの内部構造において「忠実な連合」として機能しているかを評価する 3 つの指標を提案しました。

$R(i)$ : 変数 $i$ において、連合としての効果 ( $U_{i,S}$ ) が、部分集合との相互作用の効果 ( $U_{i,\bar{S}}$ ) を支配している度合い。
$R'(i)$ : 変数 $i$ が連合 $S$ 内でどの程度「単一の単位」として機能しているかを微視的に測定。
$Q(S)$ : 連合 $S$ 全体が、モデル内でどの程度一つの意味的単位として扱われているかを測定。

3. 主要な貢献

矛盾の理論的解明: 個々の変数の帰属値と連合の帰属値の不一致が、単なる計算上の問題ではなく、AI モデルが学習した「部分集合を含む相互作用」による本質的な現象であることを証明しました。
新しい連合帰属指標の提案: 従来の工学的なアプローチではなく、相互作用の再配分に基づき、矛盾を許容しつつ連合の帰属値を定義する新しい枠組みを構築しました。
忠実性評価指標の確立: 連合がモデル内で意味のある単位として機能しているかを定量的に評価する 3 つの指標を提案し、合成データから実世界タスクまでで検証しました。

4. 実験結果

提案手法は、合成データ、自然言語処理（NLP）、画像分類、および囲碁（Go）の 4 つの分野で検証されました。

合成データ: 明確な相互作用構造を持つ関数に対して、提案指標が「忠実な連合」「不忠実な連合」「部分的に忠実な連合」を正確に識別できることを示しました。
NLP（感情分析）: SST-2 データセットにおいて、意味的にまとまったフレーズ（例："raining cats and dogs"）は高い忠実性スコアを示し、意味的に無関係な単語の組み合わせは低いスコアを示しました。BERT-large や LLaMA などのモデルで有効性を確認しました。
画像分類: MNIST と CIFAR-10 において、意味的に一貫した画像領域（例：馬の頭）を連合とした場合、高い忠実性スコアを得ました。
囲碁（Go）: 囲碁 AI（KataGo）の価値ネットワークを分析し、プロの棋士が「定石（形状パターン）」として認識する石の配置が、提案指標によって高いスコアで抽出されることを示しました。また、人間には直感的でないが AI が学習した新しい形状パターンも発見でき、囲碁の理解を深める可能性を示唆しました。

5. 意義と結論

本論文は、XAI における「入力変数の分割」の問題に対し、単なる工学的な解決策ではなく、AI モデルの内部メカニズム（相互作用）に根ざした理論的解答を提供しました。

理論的意義: シャープリー値の矛盾が避けられない現象であることを示し、その原因を「部分集合相互作用」の存在として明確にしました。これにより、どの変数群が意味のある「連合」として扱えるかを理論的に判断できるようになりました。
実用的意義: 提案された忠実性指標を用いることで、研究者や実務家は、モデルがどのように特徴を結合しているかを理解し、より解釈可能な説明や、人間の直感に合致する特徴量の設計が可能になります。特に、囲碁のような複雑な戦略ゲームにおいて、AI の「直感」を人間が理解し、新たな戦略を発見するツールとしての応用可能性を示しました。

総じて、この研究は「なぜ変数をグループ化すると説明が変わるのか」という根本的な問いに対し、相互作用の観点から数学的に厳密な回答を与え、説明可能 AI の信頼性を高める重要な一歩となっています。