Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 무엇을 모를 때, 정확히 무엇을 모르는지"**를 찾아내는 새로운 방법을 제안합니다.

기존의 AI 는 "내가 이 문제를 얼마나 잘 모르는지"를 단 하나의 숫자로만 표현했습니다. 하지만 이 논문은 "그 숫자가 어떤 특정 상황에서 나왔는지"까지 세분화해서 알려주는 것이 안전에 훨씬 중요하다고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴겠습니다.

1. 문제: "모르는 정도"만 알면 안 되는 이유

비유: 위험한 산길의 나침반
여러분이 위험한 산길을 걷는 AI 라고 상상해 보세요.

기존 AI (단순한 나침반): "지금 내가 불확실한 정도가 5 점이야!"라고만 외칩니다.
- 이 5 점이 '아무것도 없는 평지'에서 나온 것일 수도 있고, '절벽 가장자리'에서 나온 것일 수도 있습니다.
- 만약 절벽에서 5 점이라면 위험하지만, 평지에서 5 점이라면 그냥 넘어가도 됩니다. 하지만 기존 AI 는 이 차이를 구별하지 못합니다.
이 논문의 AI (정밀한 지도): "내가 절벽 (위험한 질병) 쪽에서는 5 점이나 불확실하지만, 평지 (건강한 상태) 쪽에서는 1 점밖에 불확실하지 않아!"라고 알려줍니다.
- 이렇게 어떤 부분에서 모르는지를 구체적으로 알려주면, AI 는 위험한 상황일 때만 인간에게 도움을 요청하고, 평범한 상황은 스스로 처리할 수 있습니다.

2. 해결책: 'Ck'라는 새로운 측정 도구

저자들은 이 문제를 해결하기 위해 **Ck (Class-specific Epistemic Uncertainty)**라는 새로운 지표를 만들었습니다.

비유: "무게가 달린 저울"
기존의 방법 (분산, Variance) 은 단순히 "의견이 얼마나 갈라졌나?"만 봅니다. 하지만 문제는 희귀한 질병 같은 경우입니다.

문제점: AI 가 "희귀한 질병"을 전혀 본 적이 없다면, 확률 값이 0% 에 가깝게 됩니다. 이때는 의견이 아무리 갈라져도 (불확실성이 높아도) 수학적으로 '분산' 값이 0 으로 떨어지는 함정에 빠집니다. (마치 빈 그릇에 물을 조금만 넣어도 무게가 0 인 것처럼요.)
이 논문의 해결책 (Ck): "아, 이 질병은 확률이 낮으니 **무게 (1/µk)**를 더 달아주자!"라고 합니다.
- 확률이 낮은 (희귀한) 클래스일수록 그 불확실성에 더 큰 가중치를 둡니다.
- 결과적으로 희귀하지만 치명적인 질병을 놓치지 않고, "이건 내가 정말 모르는 거야!"라고 정확하게 경고할 수 있게 됩니다.

3. 실전 효과: 당뇨망막병증 진단에서

이론을 실제 의료 데이터 (당뇨망막병증) 에 적용해 보았습니다.

상황: AI 가 환자의 눈 사진을 보고 "정상 (0 점)"인지 "실명 위험 (3 점)"인지 판단해야 합니다.
기존 AI: "불확실성 0.3"이라고만 하면, "아, 그냥 좀 애매하네"라고 생각해서 위험한 환자를 놓칠 수 있습니다.
새로운 AI (Ck 사용):
- "이 환자는 **실명 위험 (3 점)**으로 오인할 확률이 높고, 그 불확실성이 매우 커!"라고 정확히 지목합니다.
- 결과: 위험한 환자를 놓치는 비율 (위험한 실수) 을 기존 방법보다 34.7%~56.2% 까지 획기적으로 줄였습니다.
- 마치 정밀한 스캐너가 "여기엔 구멍이 났다"고 정확히 짚어주는 것과 같습니다.

4. 추가 발견: "모델의 학습 방식"이 더 중요할 수도 있다

이 논문은 또 다른 놀라운 사실을 발견했습니다.

비유: "좋은 나침반 (측정 도구) 을 쓰는 것도 중요하지만, **나침반을 들고 있는 등산가 (학습된 모델)**가 더 중요할 수 있다."
내용: AI 가 처음부터 끝까지 스스로 학습했을 때 (End-to-end) 는 Ck 가 아주 잘 작동했습니다. 하지만, 이미 다른 일을 배운 모델을 가져와서 마지막 부분만 학습시켰을 때 (전이 학습) 는 Ck 가 제대로 작동하지 않았습니다.
교훈: 측정 도구를 고치는 것보다, AI 가 어떻게 학습하느냐가 불확실성을 정확히 파악하는 데 더 결정적일 수 있습니다.

5. 요약: 왜 이 연구가 중요한가요?

안전: "얼마나 모르는지"보다 **"무엇을 모르는지"**를 아는 것이 생명과 직결된 분야 (의료, 자율주행 등) 에 필수적입니다.
정밀함: 희귀한 사건 (치명적인 질병) 을 놓치지 않도록, 확률이 낮은 부분의 불확실성을 더 크게 잡아줍니다.
현실적 통찰: 단순히 숫자를 개선하는 것을 넘어, AI 가 어떻게 학습하느냐가 불확실성 측정의 정확도를 좌우한다는 점을 깨우쳐 주었습니다.

한 줄 요약:

"AI 가 '모른다'고 할 때, 단순히 '모른다'는 숫자만 보는 게 아니라, '정말 위험한 부분'을 놓치지 않도록 구체적으로 어디를 모르는지 찾아내는 새로운 나침반을 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 제목: Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions
(얼마나 많은지뿐만 아니라 어디인지: 인식론적 불확실성을 클래스별 기여도로 분해하기)

저자: Mame Diarra Toure, David A. Stephens (McGill University)

1. 문제 정의 (Problem Statement)

안전이 중요한 분류 작업 (Safety-critical classification) 에서는 실패의 비용이 비대칭적입니다. 예를 들어, 시력을 위협하는 망막 질환을 놓치는 것 (위험한 클래스) 과 양성인 경우를 잘못 분류하는 것 (안전한 클래스) 은 그 결과가 완전히 다릅니다.

기존의 베이지안 딥러닝 (Bayesian Deep Learning) 방법론들은 모델의 불확실성을 **단 하나의 스칼라 값 (Mutual Information, MI)**으로 요약합니다. MI 는 모델이 얼마나 불확실한지 ('얼마나 많은지') 는 알려주지만, **어떤 클래스에 대한 불확실성인지 ('어디인지')**는 구분하지 못합니다.

문제점 1: MI 는 모든 클래스의 불확실성을 합산하므로, 위험한 클래스의 불확실성이 높은지, 안전한 클래스의 불확실성이 높은지 구별할 수 없습니다.
문제점 2: 기존 클래스별 불확실성 지표 (예: 분산, Variance) 는 확률 심플렉스 (Probability Simplex) 의 경계 (확률이 0 또는 1 에 가까운 경우) 에서 경계 억제 (Boundary Suppression) 현상을 보입니다. 즉, 희귀 클래스 (Base rate 가 낮은 클래스) 에 대해 모델이 실제로는 큰 의견 불일치를 보임에도 불구하고, 확률 값이 0 에 가까우면 분산이 물리적으로 0 으로 수렴하여 불확실성을 제대로 반영하지 못합니다.

2. 방법론 (Methodology)

저자들은 MI 를 클래스별 벡터로 분해하는 새로운 지표 $C_k(x)$ 를 제안합니다.

2.1. 수학적 유도 (Second-Order Taylor Expansion)

MI 는 총 엔트로피 $H(\mu)$ 와 기대 엔트로피 $E[H(p)]$ 의 차이로 정의됩니다. 저자들은 $E[H(p)]$ 를 평균 예측 확률 $\mu$ 주변에서 2 차 테일러 전개 (Taylor expansion) 하여 근사합니다.

엔트로피 함수의 헤시안 (Hessian) 행렬은 대각 행렬이며, 그 대각 성분은 $-1/\mu_k$ 입니다.
이를 통해 MI 를 다음과 같이 클래스별 항의 합으로 근사할 수 있습니다:
$I(y; \omega | x) \approx \sum_{k=1}^{K} C_k(x)$
여기서 $C_k(x) = \frac{1}{2} \frac{\text{Var}[p_k]}{\mu_k}$ $C_{k} (x) = \frac{1}{2} \frac{Var [ p _{k} ]}{μ _{k}}$ 입니다.
- $\text{Var}[p_k]$ : $S$ 번의 확률적 순전달 (stochastic forward passes) 을 통한 클래스 $k$ 의 예측 확률 분산.
- $\mu_k$ : 클래스 $k$ 의 평균 예측 확률.

2.2. 핵심 기제: $1/\mu_k$ 정규화

제안된 지표의 핵심은 분산에 $1/\mu_k$ 를 곱하는 것입니다.

경계 억제 해결: 희귀 클래스 ( $\mu_k \to 0$ ) 의 경우, 분산 $\text{Var}[p_k]$ 는 $\mu_k(1-\mu_k)$ 에 의해 제한되어 0 으로 수렴합니다. 하지만 $C_k$ 는 이를 $\mu_k$ 로 나누어 보정하므로, $\mu_k \to 0$ 일 때 $C_k$ 는 0 이 아닌 유한한 값 (최대 0.5) 을 유지합니다. 이는 희귀 클래스에 대한 모델의 불확실성을 과소평가하지 않도록 합니다.
정보 이론적 가중치: $\mu_k$ 가 작을수록 엔트로피 곡률 (curvature) 이 커지므로, 동일한 확률 분산이라도 희귀 클래스에서 더 큰 정보 이론적 무게를 갖게 됩니다.

2.3. 신뢰성 진단 (Skewness Diagnostic)

2 차 근사가 깨지는 경우를 감지하기 위해 3 차 항을 기반으로 한 **왜도 진단 지표 ( $\rho_k$ )**를 도입했습니다.

$\rho_k$ 가 임계값 (예: 0.3) 을 초과하면 2 차 근사 ( $C_k$ ) 의 신뢰도가 떨어집니다.
이 경우를 대비하여, 안전한 클래스와 위험한 클래스 간의 부정적 상관관계를 활용하는 **CBEC (Cross-Boundary Epistemic Confusion)**라는 대체 지표를 제안했습니다.

3. 주요 기여 (Key Contributions)

클래스별 인식론적 불확실성 벡터 ( $C_k$ ) 제안: MI 를 2 차 테일러 전개로부터 유도하여, 각 클래스가 전체 불확실성에 기여하는 정도를 정량화하는 벡터를 정의했습니다. 이는 스칼라 MI 가 가진 '어디에 대한 불확실성인지'에 대한 정보를 제공합니다.
경계 억제 현상 해결: $1/\mu_k$ 정규화를 통해 희귀 클래스 (Safety-critical classes) 에서 분산 기반 지표가 갖는 구조적 한계를 극복했습니다.
신뢰성 진단 및 대체 지표: 테일러 근사의 한계를 진단하는 $\rho_k$ 와, 근사가 불안정할 때 사용할 수 있는 CBEC 지표를 제시하여 다양한 추론 환경 (Posterior approximation) 에서 robust 하게 작동하도록 했습니다.
공리적 분석: 제안된 지표가 기존 불확실성 측정 지표의 공리 (Axioms) 를 어떻게 만족하거나 위반하는지 분석했습니다. 특히, 경계 억제 보정을 위해 A5(위치 이동 불변성) 를 의도적으로 위반함으로써 희귀 클래스 간 비교 가능성을 확보했습니다.

4. 실험 결과 (Results)

저자들은 세 가지 주요 작업에서 제안된 방법을 검증했습니다.

4.1. 선택적 예측 (Selective Prediction) - 당뇨망막병증 (Diabetic Retinopathy)

목표: 위험한 질환 (Grade 2-3) 을 놓치는 것을 방지하기 위해, 불확실성이 높은 샘플을 인간에게 위임 (Deferral) 하는 정책 수립.
결과:
- 제안된 $C_{crit\_max}$ (위험 클래스 중 $C_k$ 의 최댓값) 는 기존 MI 보다 34.7% 더 낮은 선택적 위험 (Selective Risk, AUSC) 을 달성했습니다.
- 기존 분산 기반 지표 (Sale_EU_crit) 보다 56.2% 성능이 우수했습니다. 이는 분산 지표가 희귀 위험 클래스에서 경계 억제 현상으로 인해 실패했음을 보여줍니다.
- 해석 가능성: 동일한 MI 값을 가진 오류라도, 치명적인 오류 (Grade 3 $\to$ 0) 와 중증도 과소평가 (Grade 3 $\to$ 2) 는 서로 다른 $C_k$ 패턴을 보였습니다. 이를 통해 오류의 원인을 클래스별로 식별할 수 있었습니다.

4.2. 분포 외 (OoD) 감지 (Out-of-Distribution Detection)

데이터: FashionMNIST $\to$ KMNIST, MIMIC-III $\to$ Newborn.
결과:
- $\sum C_k$ 는 MI 와 분산 기반 지표보다 높은 AUROC 를 기록했습니다.
- 비대칭적 분포 이동 감지: MIMIC-III 데이터에서 OoD 신호가 생존 클래스와 사망 클래스에 비대칭적으로 분포함을 $C_k$ 분해를 통해 발견했습니다. 스칼라 MI 는 이러한 세부 구조를 포착하지 못했습니다.

4.3. 데이터 품질 및 불확실성 분리 (Disentanglement)

실험: 라벨 노이즈를 주입하여 알레토릭 (Aleatoric, 데이터 노이즈) 과 인식론적 (Epistemic, 모델 무지) 불확실성이 얼마나 분리되는지 측정.
결과:
- 학습 방식의 중요성: 엔드 - 투 - 엔드 (End-to-End) 베이지안 학습에서는 $C_k$ 가 MI 보다 노이즈에 덜 민감하게 분리되었습니다.
- 전이 학습 (Transfer Learning) 의 한계: 사전 학습된 백본을 고정하고 Bayesian 헤드만 학습하는 경우, 두 지표 모두 분리가 크게 저하되었습니다. 이는 불확실성 측정 지표 자체보다, 불확실성이 네트워크를 통해 어떻게 전파되는지 (Posterior Approximation quality) 가 더 중요함을 시사합니다.

5. 의의 및 결론 (Significance)

이 논문은 안전이 중요한 AI 시스템에서 불확실성 정량화의 패러다임을 전환합니다.

"얼마나"에서 "어디로"의 전환: 단순히 모델이 얼마나 불확실한지 아는 것을 넘어, 어떤 클래스에 대한 불확실성인지를 파악함으로써 위험한 오류를 선제적으로 방지할 수 있습니다.
희귀 클래스 보호: 기존 분산 기반 지표의 치명적인 결함인 '경계 억제'를 수학적으로 보정하여, 실제 임상이나 안전 분야에서 가장 중요한 희귀/위험 클래스에 대한 불확실성을 정확히 포착합니다.
해석 가능성 (Interpretability): 스칼라 값 하나만으로는 알 수 없었던 모델의 혼동 구조 (Confusion pattern) 를 클래스별 지문 (Fingerprint) 으로 시각화하여, 모델 개선 전략 (예: 어떤 클래스 간 추가 학습이 필요한지) 을 수립하는 데 도움을 줍니다.
실용적 통찰: 불확실성 측정의 성능은 단순히 측정 지표의 선택뿐만 아니라, 후사적 (Post-hoc) 방법인지, 엔드 - 투 - 엔드 학습인지와 같은 추론 방식의 품질에 크게 의존한다는 점을 강조했습니다.

결론적으로, 이 연구는 안전이 중요한 분류 작업에서 클래스별 불확실성 벡터를 활용함으로써 더 안전하고 해석 가능한 의사결정 시스템을 구축할 수 있음을 입증했습니다.