Towards Attributions of Input Variables in a Coalition

Each language version is independently generated for its own context, not a direct translation.

🍕 1. 문제 상황: 피자 조각과 토핑의 함정

생각해 보세요. 여러분이 AI 에게 "이 피자가 왜 맛있다고 판단했나요?"라고 물어봤습니다.
AI 는 보통 피자를 개별 토핑 (페퍼로니, 치즈, 버섯) 단위로 분석합니다.

기존 방식의 문제:
- AI 는 "페퍼로니 1 조각이 맛에 기여한 점수"와 "치즈 1 조각이 기여한 점수"를 따로 계산합니다.
- 그런데 만약 여러분이 "페퍼로니와 치즈가 섞인 한 덩어리"를 하나의 단위 ( coalition, 연합) 로 묶어서 점수를 매기라고 하면 어떻게 될까요?
- 여기서 괴리가 생깁니다. "페퍼로니 + 치즈"를 따로따로 계산한 점수의 합과, "페퍼로니 + 치즈" 덩어리 전체를 한 번에 계산한 점수가 서로 다를 수 있습니다.

이 논문은 바로 이 **"개별 점수의 합"과 "묶음 점수" 사이의 불일치 (갈등)**가 왜 발생하는지, 그리고 어떻게 해결해야 하는지를 수학적으로 증명했습니다.

🔗 2. 핵심 발견: "AND"와 "OR"의 마법

저자들은 AI 가 세상을 보는 방식을 **'AND(그리고)'**와 **'OR(또는)'**이라는 두 가지 마법의 눈으로 설명합니다.

AND 상호작용 (동반자 효과):
- 예: "비가 오고 (raining) + 고양이가 (cats) + 개가 (dogs) + 그리고 (and)..."
- AI 는 이 네 단어가 모두 함께 있을 때만 "폭우"라는 의미를 파악합니다. 하나라도 빠지면 의미가 사라집니다.
- 이는 마치 스팀보트 (Steamboat) 의 엔진처럼, 모든 부품이 함께 돌아야 작동하는 경우입니다.
OR 상호작용 (대체 효과):
- 예: "지루한 (boring) + 실망스러운 (disappointing)"
- AI 는 이 두 단어 중 하나라도 있으면 "나쁜 영화"라고 판단합니다.
- 이는 마치 비상구처럼, 하나만 열려도 작동하는 경우입니다.

이 논문의 핵심 통찰:
기존의 AI 설명 방법들은 이 'AND'와 'OR'의 복잡한 관계를 무시하고 단순히 점수만 더했습니다. 하지만 어떤 단어들이 'AND'로 묶여 있는지, 혹은 'OR'로 묶여 있는지에 따라 점수 계산 방식이 달라져야 합니다.

🧩 3. 해결책: "올바른 묶음" 찾기

이 논문은 다음과 같은 새로운 방법을 제안합니다.

갈등의 원인 규명:
- 왜 '묶음 점수'와 '개별 점수 합'이 다를까요?
- 이유: AI 가 어떤 단어들을 묶어서 생각할 때, 그 묶음의 일부만 포함하는 다른 'AND'나 'OR' 패턴이 섞여 있기 때문입니다.
- 비유: "페퍼로니와 치즈"를 묶었는데, AI 는 사실 "페퍼로니 + 치즈 + 올리브"가 함께 있을 때만 맛을 내는 패턴을 기억하고 있다면, 올리브가 빠진 "페퍼로니 + 치즈" 덩어리의 점수는 자연스럽게 달라집니다.
새로운 점수 계산법 (연합 신뢰도):
- 저자들은 AI 가 특정 묶음 (Coalition) 을 얼마나 '신뢰할 수 있는 단위'로 인식하는지 측정하는 3 가지 척도를 만들었습니다.
- 신뢰할 수 있는 묶음: "이 단어들은 항상 함께 움직여야 의미가 있다"는 것을 AI 가 명확히 학습했다면, 이 묶음의 점수는 개별 점수의 합과 거의 같아집니다.
- 신뢰할 수 없는 묶음: "이 단어들은 사실 따로따로 다른 의미로 쓰인다"면, 묶어서 계산하면 점수가 엉뚱하게 나옵니다.

🎮 4. 실제 적용: 바둑과 영화 리뷰

이 이론이 실제로 어떻게 쓰이는지 보여줍니다.

바둑 (Go) 게임:
- AI 는 바둑돌 하나하나의 점수가 아니라, 돌들이 모여 만든 **'형상 (패턴)'**으로 승리를 판단합니다.
- 이 논문을 통해 AI 가 어떤 돌들의 조합 (예: '어깨치기' 패턴) 을 중요한 전략으로 인식하는지, 혹은 인간이 생각하지 못한 새로운 패턴을 발견할 수 있게 되었습니다. 마치 AI 의 머릿속에서 "이 돌들은 따로 놀지 않고 팀을 이룬다"는 것을 찾아내는 것과 같습니다.
영화 리뷰 (NLP):
- "매혹적인 (mesmerizing) 연기 (performances)"라는 문구를 분석할 때, AI 는 이 두 단어를 하나의 덩어리로 인식합니다.
- 반면, "블레어 (blair) 와 라이벌 (rivaling)"처럼 사실은 다른 문맥에 쓰이는 단어들을 억지로 묶으면, AI 는 이를 신뢰할 수 없는 묶음으로 판단하여 점수가 낮게 나옵니다.

💡 요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"AI 를 설명할 때, 무작위로 조각을 잘라내지 말고, AI 가 실제로 어떻게 '묶음'을 인식하는지 찾아내야 한다"**고 말합니다.

기존: "이게 1 점, 저게 2 점, 합쳐서 3 점이야." (단순 덧셈)
이 논문: "이 두 개는 함께 있어야 5 점짜리 마법을 부려. 따로 떼어내면 1 점, 2 점으로 쪼개져 버려. 우리가 묶을 때는 AI 의 'AND/OR' 마법 규칙을 따라야 해."

결국 이 연구는 AI 가 내린 결정에 대해 인간의 직관과 더 잘 맞는, 더 정확한 설명을 가능하게 해주는 나침반을 제공한 것입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 설명 가능한 AI (XAI) 분야, 특히 Shapley 값 기반의 속성 (attribution) 방법론에서 발생하는 입력 변수의 분할 (partition) 문제와 연합 (coalition)에 대한 속성 할당의 불일치를 해결하기 위한 이론적 프레임워크를 제시합니다.

주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem)

기존의 Shapley 값이나 Banzhaf 값과 같은 속성 할당 방법은 사전에 정의된 입력 변수의 분할 (예: 이미지에서는 픽셀 또는 지역, 텍스트에서는 단어 또는 토큰) 을 기반으로 중요도를 계산합니다. 그러나 변수들을 어떻게 그룹화하느냐에 따라 계산된 속성 값이 달라지는 불일치 (conflict) 문제가 발생합니다.

핵심 문제: 특정 변수 집합 (연합, Coalition) $S$ 에 대한 속성 값 $\phi(S)$ 가, 그 구성 요소인 개별 변수들의 속성 값의 합 $\sum_{i \in S} \phi(i)$ 와 일치하지 않는 현상 ( $\phi(S) \neq \sum \phi(i)$ ) 이 발생합니다.
기존 연구들은 이 불일치를 해결하기 위해 엔지니어링적인 손실 함수 (loss function) 를 추가하는 방식을 취했으나, 불일치가 발생하는 근본적인 수학적 메커니즘에 대한 이론적 설명은 부족했습니다.

2. 방법론 (Methodology)

2.1. AND-OR 상호작용 (AND-OR Interactions) 분석

저자들은 AI 모델의 출력을 AND 상호작용 (모든 변수가 동시에 존재할 때 발생하는 효과) 과 OR 상호작용 (변수 중 하나라도 존재할 때 발생하는 효과) 의 수치적 효과로 분해할 수 있음을 증명했습니다.

Shapley 값의 재해석: Shapley 값은 각 상호작용 효과 ( $I_{and}, I_{or}$ ) 를 해당 상호작용에 포함된 모든 입력 변수에 균등하게 할당하는 과정으로 재정의됩니다.
Banzhaf 값의 재해석: Banzhaf 값 또한 상호작용 효과를 특정 가중치로 할당하는 방식으로 해석됩니다.

2.2. 연합 (Coalition) 속성 정의 및 불일치 원인 규명

이론적 분석을 통해 불일치가 발생하는 원인을 규명했습니다.

공유된 속성 (Shared Attribution): 연합 $S$ 전체를 포함하는 상호작용 ( $T \supseteq S$ ) 은 연합의 속성 $\phi(S)$ 와 개별 변수의 속성 $\phi(i)$ 모두에 기여합니다.
충돌하는 속성 (Conflicting Attribution): 연합 $S$ 의 일부만 포함하는 상호작용 ( $T \cap S \neq \emptyset$ 이고 $T \cap S \neq S$ ) 은 개별 변수의 속성 계산에는 포함되지만, 연합 $S$ 전체의 속성 계산에는 포함되지 않습니다.
결론: 바로 이 **"부분 집합을 포함하는 상호작용"**의 존재가 개별 변수 속성의 합과 연합 속성 간의 불일치를 일으키는 근본 원인입니다.

2.3. 새로운 연합 속성 지표 (New Coalition Attribution Metric)

이러한 메커니즘을 바탕으로, Shapley 값을 확장하여 연합 $S$ 에 대한 새로운 속성 지표 $\phi(S)$ 를 정의했습니다.
$\phi(S) = \sum_{T \supseteq S} \frac{|S|}{|T|} [I_{and}(T) + I_{or}(T)]$
이 정의는 연합 $S$ 를 하나의 단위로 간주할 때, $S$ 를 완전히 포함하는 상호작용들의 효과를 어떻게 배분할지 명확히 합니다.

2.4. 연합 충실도 (Coalition Faithfulness) 평가 지표 제안

특정 변수 그룹이 의미 있는 연합 (Faithful Coalition) 으로 간주될 수 있는지 평가하기 위해 세 가지 지표를 제안했습니다.

$R(i)$ : 개별 변수 $i$ 의 속성 중 연합 $S$ 에 기인한 부분 ( $U_{i,S}$ ) 의 비중.
$R'(i)$ : 변수 $i$ 가 연합 $S$ 내에서 얼마나 강력하게 상호작용에 기여하는지 측정.
$Q(S)$ : 전체 연합 $S$ 가 모델의 상호작용 구조에서 얼마나 충실한 단위로 작용하는지 측정.

값이 1 에 가까울수록 해당 그룹은 인간이 인지하는 의미 있는 단위 (예: 문장에서의 구, 이미지에서의 객체 부분) 로 모델에 잘 인코딩되어 있음을 의미합니다.

3. 주요 기여 (Key Contributions)

이론적 메커니즘 규명: 개별 변수 속성과 연합 속성 간의 불일치가 발생하는 수학적 원인을 AND-OR 상호작용의 관점에서 명확히 규명했습니다.
새로운 속성 지표 제안: 불일치를 단순히 보정하는 것이 아니라, 상호작용 기반의 새로운 연합 속성 정의와 그 이론적 근거를 제시했습니다.
충실도 평가 체계: 연합이 모델 내에서 얼마나 '충실한 (faithful)' 단위인지 평가하는 3 가지 지표를 개발하고, 이를 다양한 시나리오에서 검증했습니다.

4. 실험 결과 (Results)

합성 데이터 (Synthetic Data): 명확한 상호작용 구조를 가진 toy 함수를 학습시킨 DNN 에서, 제안된 지표가 '순수한 연합 (purely faithful)'과 '불충실한 연합 (unfaithful)'을 정확히 구분함을 보였습니다.
자연어 처리 (NLP): SST-2 데이터셋 (감성 분석) 에서, "raining cats and dogs"와 같은 관용구나 "mesmerizing performances"와 같은 의미 있는 구가 높은 충실도 점수를 받았고, 의미 없는 단어 조합은 낮은 점수를 받아 인간 직관과 일치함을 보였습니다.
이미지 분류 (Image Classification): MNIST 및 CIFAR-10 데이터셋에서, 객체의 일부 (예: 말의 머리) 를 의미 있게 그룹화한 경우 높은 충실도 점수를 보였습니다.
바둑 (Go Game): KataGo 모델을 분석하여, 바둑의 국면 패턴 (Shape patterns) 을 자동으로 추출했습니다. 전문가 바둑 기사들의 직관과 일치하는 패턴뿐만 아니라, 인간이 쉽게 발견하지 못했던 새로운 장기적 패턴도 발견하여 모델의 내부 메커니즘을 해석하는 데 성공했습니다.

5. 의의 (Significance)

이 연구는 XAI 분야에서 입력 변수를 어떻게 그룹화해야 하는지에 대한 이론적 가이드라인을 제공합니다. 단순히 변수를 임의로 묶는 것이 아니라, 모델이 실제로 학습한 상호작용 구조를 기반으로 의미 있는 연합을 식별할 수 있게 함으로써, AI 모델의 의사결정 과정을 인간이 더 정확하게 이해하고 신뢰할 수 있도록 돕습니다. 또한, 제안된 방법은 바둑과 같은 복잡한 전략 게임에서 AI 의 전략을 해석하는 데에도 적용 가능하여, AI 와 인간의 협업 및 AI 의 새로운 지식 발견을 가능하게 합니다.