Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"의사들이 피부암 사진을 보고 진단할 때, AI 가 실수하지 않도록 도와주는 새로운 방법"**을 소개합니다.

기존의 AI 는 사진을 보고 "이게 암이야"라고 말해주지만, 왜 그렇게 판단했는지 설명하지 못해 (블랙박스) 의사들이 믿기 어렵습니다. 또, AI 가 진짜 병의 특징이 아니라 "사진 배경의 잡음"이나 "피부색" 같은 헛된 단서 (편향) 를 보고 착각하는 경우가 많습니다.

이 논문은 이 문제를 해결하기 위해 **'CausalProto(인과성 원형 네트워크)'**라는 새로운 AI 를 만들었습니다. 이를 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.

1. 문제 상황: "치킨집 간판"을 보고 치킨을 판단하는 실수

상상해 보세요. 어떤 AI 가 치킨집을 구별하는 일을 맡았다고 칩시다.

진짜 단서 (병의 원인): 치킨이 튀겨진 노란색, 바삭한 질감.
헛된 단서 (편향): 치킨집 간판이 빨간색인 경우.

기존 AI 는 "빨간 간판 = 치킨"이라는 헛된 규칙을 배워버립니다. 그래서 빨간 간판이 달린 다른 가게 (예: 피자집) 를 봐도 "치킨이다!"라고 잘못 판단합니다. 이를 의학에서는 **"환경적 혼란 (Confounder)"**이라고 합니다. 피부 사진에서도 AI 가 진짜 병변 (암) 보다는 사진 찍힌 배경이나 피부색 같은 사소한 것들에 속아 넘어가는 것입니다.

2. 해결책: "두 개의 선별기"를 가진 AI

이 논문이 만든 CausalProto는 두 가지 일을 동시에 하는 똑똑한 선별기를 가지고 있습니다.

① "진짜 병"과 "잡음"을 분리하는 필터 (정보 병목)

이 AI 는 사진을 받자마자 두 가지로 갈라놓습니다.

A 통로 (진짜 병): 병변의 진짜 모양, 색깔, 질감 등 의학적 증거만 담습니다.
B 통로 (잡음): 사진 배경, 조명, 피부색 등 환경적 요인만 담습니다.

이때 중요한 건, A 와 B 가 서로 섞이지 않도록 철저히 막는다는 점입니다. 마치 "진짜 소금"과 "모래"를 완벽하게 분리하는 것처럼요. AI 는 "모래 (잡음)"가 섞인 "소금 (병)"을 보지 않게 훈련받습니다.

② "선생님들의 사례집"과 비교하기 (원형 학습)

분리된 '진짜 병' 데이터만 가지고, AI 는 **사례집 (Prototype)**을 만듭니다.

"이런 모양의 병변은 '악성 흑색종' 사례집에 있어요."
"이런 모양은 '양성 모반' 사례집에 있어요."

이때 사례집은 오직 진짜 병의 특징만 담고 있기 때문에, 배경이 빨간지 파란지 상관없이 정확한 진단을 내릴 수 있습니다.

3. 최종 진단: "만약 배경이 달랐다면?" (인과적 개입)

마지막으로, AI 는 **"만약 이 사진의 배경 (잡음) 이 완전히 달랐다면, 진단은 어떻게 변할까?"**를 시뮬레이션합니다.

기존 AI: "배경이 빨간색이니까 치킨 (암) 이겠지." (실수)
CausalProto: "배경이 빨간색이든 파란색이든, 병변 자체의 모양이 이 사례집과 똑같으니 치킨 (암) 이 맞다." (정확)

이처럼 AI 가 배경이라는 '잡음'을 무시하고, 오직 진짜 병변의 증거만으로 판단하도록 만드는 과정을 **'백도어 조정 (Backdoor Adjustment)'**이라고 합니다.

요약: 왜 이것이 중요한가요?

투명함 (Interpretability): AI 가 "왜 이걸 암이라고 했나요?"라고 물으면, "이 사진의 이 부분 (진짜 병변) 이 이 사례집과 똑같기 때문입니다"라고 정확한 이유와 사진을 보여줍니다.
정확함 (Accuracy): 배경이나 잡음에 속지 않기 때문에, 기존 AI 들보다 진단 정확도가 훨씬 높습니다.
신뢰 (Trust): 의사들이 AI 의 판단을 믿고 실제 진료에 사용할 수 있게 됩니다.

한 줄 요약:

"이 AI 는 피부 사진 속의 '진짜 병'만 골라내고, 배경 같은 '속임수'는 완전히 무시해서, 의사처럼 투명하고 정확하게 진단합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 딥러닝은 피부경상 (Dermoscopy) 이미지 분석에서 뛰어난 성과를 보였으나, '블랙박스' 특성을 가지고 있어 임상 현장에서의 신뢰를 얻기 어렵습니다. 이를 해결하기 위해 사례 기반 추론 (Case-based reasoning) 을 제공하는 **프로토타입 네트워크 (Prototypical Networks)**가 주목받고 있습니다.
핵심 문제: 임상 데이터에는 필연적인 **선택 편향 (Selection Bias)**이 존재합니다. 기존 프로토타입 네트워크는 이러한 편향으로 인해 **단축 학습 (Shortcut Learning)**에 빠지는 경향이 있습니다.
- 모델이 병변의 실제 병리학적 특징 (Pathological features) 이 아닌, 이미지 배경이나 촬영 환경과 같은 **환경적 교란 변수 (Environmental Confounders)**를 학습하여 예측에 사용합니다.
- 이는 구조적 인과 모델 (SCM) 관점에서 **백도어 경로 (Backdoor Path, $Y \leftarrow S \rightarrow X$ )**를 통해 허위 상관관계를 학습하게 만들어, 진단의 신뢰성을 떨어뜨리고 잘못된 시각적 증거 (Spurious visual evidence) 를 생성합니다.

2. 제안 방법론: CausalProto (Methodology)

저자들은 CausalProto라는 비지도 인과 프로토타입 네트워크를 제안하여, 병리학적 특징과 환경적 교란 변수를 분리하고 인과적 추론을 수행합니다.

A. 구조적 인과 모델 (SCM) 기반 프레임워크

입력 이미지 ( $X$ ) 를 인과적 잠재 변수 ( $Z_C$ ) (실제 병리 특징) 와 허위/교란 잠재 변수 ( $Z_S$ ) (환경적 아티팩트) 로 분리합니다.
목표는 관찰 확률 $P(Y|X)$ 가 아닌, 개입 확률 $P(Y|do(X))$를 학습하여 편향을 제거하는 것입니다.

B. 핵심 구성 요소

이중 분기 인코더 (Dual-branch Encoders):
- $f_c(\cdot)$ : 인과적 특징 ( $Z_C$ ) 추출.
- $f_s(\cdot)$ : 허위 특징 ( $Z_S$ ) 추출.
정보 병목 (Information Bottleneck) 을 통한 비지도 분리:
- 환경 주석 (Annotation) 없이 $Z_C$ 와 $Z_S$ 간의 **상호 정보량 (Mutual Information, MI)**을 최소화하여 두 특징 공간을 엄격하게 직교 (Orthogonal) 시킵니다.
- 계산 효율성을 위해 vCLUB (Variational Contrastive Log-Ratio Upper Bound) 근사법을 사용하여 MI 상한선을 추정하고 페널티 손실 ( $L_{MI}$ ) 로 적용합니다.
이중 프로토타입 공간 (Dual Prototype Spaces):
- 인과 프로토타입 ( $P_C$ ): 실제 병리학적 패턴을 캡처하는 프로토타입 라이브러리.
- 허위 프로토타입 ( $P_S$ ): 환경적 아티팩트를 모델링하는 사전 (Dictionary).
- $P_C$ 는 실제 훈련 이미지의 잠재 표현과 매핑되도록 제약하여 해석 가능성을 보장합니다.
do-calculus 를 통한 백도어 조정 (Backdoor Adjustment):
- 추론 단계에서 $P(Y|do(X)) $를 계산하기 위해, 학습된 허위 사전 ($ P_S$) 에 대해 NWGM (Normalized Weighted Geometric Mean) 풀링을 사용하여 기대값 (Expectation Pooling) 을 수행합니다.
- 이는 수학적으로 환경적 노이즈를 주변화 (Marginalize) 하여, 최종 진단이 순수한 병리학적 증거에 기반하도록 만듭니다.

3. 주요 기여 (Key Contributions)

의료 비전에서의 허위 증거 생성 메커니즘 규명: 프로토타입 네트워크가 교란 요인에 얼마나 취약한지를 구조적 인과 모델 관점에서 엄밀히 정의했습니다.
주석 없는 엄격한 특징 분리: 환경 주석 없이 변분적 상호 정보량 상한선 근사를 통해 병리학적 특징과 환경적 특징을 완전히 분리했습니다.
비지도 교란 사전 및 인과적 개입: 학습된 허위 프로토타입 사전을 '인과 개입 사전'으로 활용하고, do-calculus 를 적용하여 효율적인 기대값 풀링을 통해 편향을 제거했습니다.
정확성과 해석 가능성의 트레이드오프 극복: 기존 모델들은 정확도가 떨어지거나 해석이 불투명한 경우가 많았으나, CausalProto 는 높은 진단 정확도와 투명한 시각적 해석을 동시에 달성했습니다.

4. 실험 결과 (Results)

데이터셋: HAM10000, ISIC 2019, PAD-UFES-20 등 3 개의 공개 피부 병변 데이터셋에서 평가.
성능 비교:
- Black-box 모델 (ResNet-50 등) 및 **기존 프로토타입 모델 (ProtoPNet 등)**보다 모든 지표 (Accuracy, Balanced Accuracy, F1-score) 에서 우수한 성능을 기록했습니다.
- 특히, HAM10000 에서 Balanced Accuracy 가 80.5% 로, 가장 강력한 베이스라인 (CausalVAE) 보다 4.1% 높았습니다.
해석 가능성 및 분리 품질:
- 프로토타입 순도 (Prototype Purity): 제안 모델은 인과 프로토타입이 실제 병변과 높은 일관성을 보임 (순도 0.82 이상).
- 분리 품질 (NMI): 인과적 특징과 허위 특징 간의 상호 정보량이 매우 낮아 (0.07) 성공적인 분리가 이루어졌음을 입증.
Ablation Study:
- MI 페널티 제거 시 정확도 급감 및 분리 실패.
- do-calculus 모듈 제거 시 분리 품질은 유지되나 진단 정확도 하락 (편향 제거의 중요성 입증).

5. 의의 및 결론 (Significance)

임상 신뢰성 확보: CausalProto 는 단순히 예측을 수행하는 것을 넘어, 순수한 병리학적 증거에 기반한 시각적 설명 (Heatmap 및 유사 사례 매칭) 을 제공합니다. 이는 의사들의 임상적 신뢰를 높이는 데 기여합니다.
편향 제거의 새로운 패러다임: 기존의 데이터 증강이나 주석 기반 방법론을 넘어, **인과 추론 (Causal Inference)**과 비지도 학습을 결합하여 데이터 내재적 편향을 근본적으로 해결하는 프레임워크를 제시했습니다.
향후 전망: 현재는 이미지 기반 특징에 의존하지만, 향후 다중 모달 (Multi-modal) 임상 정보 (환자 병력 등) 를 구조적 인과 모델에 통합하여 더 복잡한 교란 변수를 처리할 수 있는 방향으로 발전할 수 있습니다.

이 논문은 의료 AI 의 '블랙박스' 문제와 '편향' 문제를 동시에 해결하여, 안전이 최우선인 임상 환경에서 신뢰할 수 있는 AI 시스템 배포의 토대를 마련했다는 점에서 의의가 큽니다.