Learning Credal Ensembles via Distributionally Robust Optimization

Each language version is independently generated for its own context, not a direct translation.

🎓 1. 문제: AI 는 왜 "모르는 척"을 못 할까요?

우리가 AI 에게 사진을 보여주고 "이건 강아지야?"라고 물으면, AI 는 99% 확률로 "네, 강아지입니다!"라고 답합니다. 하지만 만약 그 사진이 강아지가 아니라 이상한 모양의 구름이라면 어떨까요?

기존의 AI (Deep Ensemble): 여러 명의 전문가 (AI 모델) 를 뽑아 각각에게 물어보고, 그 답을 평균냅니다.
- 비유: "우리 팀원 10 명에게 물어보자. 10 명 중 9 명이 '강아지'라고 하면, 우리도 '강아지'라고 믿지."
- 문제점: 이 방법의 단점은, 팀원들이 **서로 다른 초기 상태 (랜덤 시드)**에서 시작했기 때문에 의견이 달라지는 경우만 '불확실성'으로 간다는 것입니다. 즉, "우리가 훈련할 때 우연히 다르게 시작해서 의견이 갈렸네"라는 이유만 불확실성으로 봅니다. 하지만 실제 문제는 **우리가 본 적 없는 새로운 상황 (예: 구름)**일 때입니다.

🌍 2. 새로운 아이디어: "만약 세상이 달라졌다면?"

저자들은 이 문제를 해결하기 위해 아주 창의적인 발상을 합니다.
"만약 우리가 훈련한 데이터와 실제 시험 (테스트) 데이터가 조금씩 다를 수 있다면 어떻게 될까?"

기존 방식: "우리는 훈련 데이터와 시험 데이터가 완전히 똑같다고 가정하고 학습한다." (이건 현실과 동떨어진 이상향입니다.)
이 논문의 방식 (CreDRO): "아니야, 훈련 데이터와 시험 데이터는 약간 다를 수도 있어. 그래서 우리는 '만약 데이터가 조금씩 달라진다면'이라는 시나리오를 여러 가지로 만들어서 학습해보자."

🛠️ 3. CreDRO 의 작동 원리: "가상의 시나리오 시뮬레이션"

이 방법은 **분포 강건 최적화 (Distributionally Robust Optimization, DRO)**라는 기술을 사용합니다. 쉽게 말해, **"가장 나쁜 상황을 가정해서 훈련하는 것"**입니다.

다양한 시나리오 설정:
- AI 팀원 10 명에게 각각 다른 "가상의 규칙"을 줍니다.
- 팀원 A: "훈련 데이터와 시험 데이터가 완전히 같을 거야." (가장 낙관적)
- 팀원 B: "훈련 데이터와 시험 데이터가 약간 다를 수도 있어."
- 팀원 C: "훈련 데이터와 시험 데이터가 아주 크게 다를 수도 있어." (가장 비관적)
- ...이렇게 팀원마다 훈련 데이터가 왜곡될 수 있는 정도를 다르게 설정합니다.
학습 과정:
- 각 팀원은 자신의 "가상 규칙"에 맞춰 훈련합니다.
- 데이터가 왜곡되었을 때 (예: 구름이 강아지로 보이는 상황) 에는 팀원 C 가 "이건 강아지가 아닐 수도 있어!"라고 의심하게 됩니다.
결과 (크레달 세트):
- 최종 답을 낼 때, 모든 팀원의 의견을 모아서 **"이것은 강아지일 확률이 60%~80% 사이일 거야"**라고 **범위 (Interval)**로 답합니다.
- 만약 모든 팀원이 "강아지"라고 확신하면 범위는 좁아집니다 (예: 95%~99%).
- 하지만 팀원들 사이에서 의견이 크게 갈리면 (예: 팀원 A 는 90%, 팀원 C 는 10%), 범위는 매우 넓어집니다 (예: 10%~90%).

💡 4. 왜 이것이 중요한가? (실생활 예시)

의료 진단 (병원):
- AI 가 환자의 사진을 보고 "암일 확률이 90%"라고 한다면, 우리는 안심할 수 있을까요?
- 기존 AI: "우리가 훈련할 때 우연히 의견이 나뉘지 않았으니 90% 가 맞다"고 말합니다.
- CreDRO: "우리가 훈련한 데이터와 이 환자의 데이터 (다른 병원, 다른 기계) 가 다를 수 있어. 그래서 암일 확률이 40% 에서 90% 사이일 수도 있어. 너무 확신하지 말고 추가 검사를 해보자"라고 말합니다.
- 효과: AI 가 자신이 모르는 것을 잘 인지하게 되어, 위험한 실수를 줄일 수 있습니다.
이상 탐지 (보안):
- 은행에서 이상한 거래가 발생했을 때, 기존 AI 는 "이건 정상 거래야 (확신)"라고 잘못 판단할 수 있습니다.
- CreDRO 는 "이건 훈련 데이터와 너무 달라서 불확실성이 매우 높아. 의심해봐야 해"라고 경고합니다.

🏆 5. 결론: 무엇이 달라졌나요?

이 논문은 **"AI 가 모르는 것을 아는 법"**을 더 똑똑하게 만들었습니다.

기존: "우리가 훈련할 때 우연히 의견이 달라졌으니 불확실해." (단순한 무작위성)
CreDRO: "우리가 훈련한 세상과 실제 세상이 다를 수 있으니, 그 차이를 고려해서 불확실성을 계산해." (실질적인 위험 고려)

실험 결과, CreDRO 는 기존 최고의 방법들보다 **이상한 데이터 (Out-of-Distribution)**를 훨씬 잘 찾아냈고, 의료 진단 같은 중요한 분야에서 더 안전한 판단을 내리게 해줍니다.

한 줄 요약:

"AI 에게 "모르는 것"을 가르칠 때, 단순히 "우연히 의견이 다를 수 있어"라고 말하는 대신, "세상이 바뀔 수도 있으니 조심해"라고 가르쳐서 더 똑똑하고 안전한 AI 를 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

예측 불확실성 (Predictive Uncertainty) 의 중요성: 딥러닝 모델의 신뢰성과 안전성 (특히 의료, 자율주행 등) 을 보장하기 위해서는 예측 불확실성을 정량화하는 것이 필수적입니다.
알레토릭 (Aleatoric) vs 인식론적 (Epistemic) 불확실성:
- 알레토릭 불확실성 (AU): 데이터 생성 과정의 내재적 노이즈로 인한 불확실성.
- 인식론적 불확실성 (EU): 모델이 입력 - 출력 관계에 대해 갖지 못한 지식으로 인한 불확실성.
기존 방법의 한계:
- 기존 최첨단 (SOTA) 크레달 (Credal) 예측기 및 앙상블 방법은 주로 무작위 초기화 (Random Initialization) 로 인해 발생하는 모델 간 불일치를 EU 로 간주합니다.
- 이는 최적화 과정의 무작위성에 대한 민감도를 반영할 뿐, 훈련 데이터와 테스트 데이터 간의 분포 차이 (Distribution Shift) 와 같은 더 실질적인 불확실성 소스를 포착하지 못합니다.
- 따라서 실제 배포 환경에서 발생할 수 있는 분포 변화에 대한 불확실성을 과소평가하거나 잘못 추정할 위험이 있습니다.

2. 방법론 (Methodology: CreDRO)

저자들은 인식론적 불확실성 (EU) 을 훈련 데이터와 테스트 데이터 간의 i.i.d. (독립 동일 분포) 가정 완화 정도가 다른 모델들 간의 불일치로 재정의하고, 이를 해결하기 위해 CreDRO (Credal Ensemble via Distributionally Robust Optimization) 를 제안합니다.

2.1. 핵심 아이디어

DRO 기반 앙상블 학습: 분포 강건 최적화 (Distributionally Robust Optimization, DRO) 프레임워크를 활용하여, 훈련 - 테스트 분포 간의 잠재적 편차 (Shift) 를 시뮬레이션하는 다양한 가중치 설정 하에서 앙상블 멤버들을 학습시킵니다.
적대적 재가중 학습 (Adversarially Reweighted Learning, ARL):
- 기존 DRO 는 그룹별 손실 최대화를 수행하지만, CreDRO 는 미니배치 내에서 손실이 가장 큰 상위 $\delta$ 비율의 샘플만 역전파에 사용하도록 설계합니다.
- 이는 훈련 데이터 내의 소수 그룹 (마이너리티) 이나 학습하기 어려운 인스턴스를 강조하여, 잠재적인 도메인 시프트를 시뮬레이션합니다.

2.2. 학습 프로세스

하이퍼파라미터 $\delta_G$ 설정: 사용자는 최악의 경우 분포 편차를 반영하는 전역 하이퍼파라미터 $\delta_G \in [0.5, 1)$ 를 정의합니다.
앙상블 멤버별 $\delta_i$ 할당: $M$ $M$ 개의 앙상블 멤버 각각은 균일한 간격으로 $\delta_G$ $δ_{G}$ 에서 1 까지의 범위를 갖는 서로 다른 $\delta_i$ $δ_{i}$ 값을 갖습니다.
- 공식: $\delta_i = (1 - \delta_G) \frac{i-1}{M-1} + \delta_G$
- 각 멤버는 서로 다른 강도의 분포 편차 (i.i.d. 가정 완화) 에 대해 학습하게 되어, 다양한 시나리오에 대한 확률적 예측을 생성합니다.
크레달 예측 생성 (Inference):
- 학습된 앙상블의 소프트맥스 확률 $\{p_i\}$ 를 각 클래스별 확률 구간 $[\underline{p}_k, \overline{p}_k]$ 로 변환합니다.
- $\underline{p}_k = \min_i p_{i,k}$ , $\overline{p}_k = \max_i p_{i,k}$
- 이러한 구간들로 구성된 박스 크레달 세트 (Box Credal Set) 를 생성합니다. 이는 단순한 볼록 껍질 (Convex Hull) 보다 계산 효율이 높고, OOD 검출 성능이 뛰어납니다.

2.3. 불확실성 정량화

생성된 크레달 세트 $K_B$ 에 대한 EU 는 상한 엔트로피와 하한 엔트로피의 차이 ( $H(K_B) - \underline{H}(K_B)$ ) 로 계산됩니다.
이는 확률 분포의 불확실성 범위를 직접적으로 측정하는 지표입니다.

3. 주요 기여 (Key Contributions)

새로운 EU 정의 및 프레임워크: 무작위 초기화가 아닌, 훈련 - 테스트 분포 편차에 대한 다양한 가정을 기반으로 한 앙상블 불일치를 통해 EU 를 포착하는 새로운 접근법 (CreDRO) 을 제안했습니다.
아키텍처 효율성: 기존 크레달 방법 (예: CreDE) 이 모델의 출력 레이어를 수정하여 상/하한 확률을 직접 예측해야 했던 것과 달리, CreDRO 는 기존의 표준 신경망 아키텍처를 그대로 사용하며 DRO 전략을 적용하여 학습합니다. 이는 모델 복잡도를 낮추고 호환성을 높입니다.
성능 입증: OOD(Out-of-Distribution) 검출 및 선택적 분류 (Selective Classification) 작업에서 기존 SOTA 크레달 방법론 및 딥 앙상블 베이스라인을 일관되게 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

OOD 검출 성능 (CIFAR-10 vs OOD 데이터):
- SVHN, Places365, CIFAR-100, FMNIST, ImageNet 등 다양한 OOD 데이터셋에서 AUROC 점수가 가장 높게 나타났습니다.
- CreDRO 는 기존 딥 앙상블 (DE) 및 다른 크레달 방법 (CreDE, CreWra, CreEns 등) 보다 일관되게 우수한 성능을 보였습니다.
앙상블 크기 영향: 앙상블 크기 ( $M$ ) 가 커질수록 성능이 향상되었으며, 다양한 $M$ 값에서 베이스라인을 우세하게 이겼습니다.
하이퍼파라미터 민감도: $\delta_G$ 값 ( $0.5 \sim 0.9$ ) 에 따라 성능이 크게 변하지 않아 모델이 강건 (Robust) 함을 확인했습니다.
의료 데이터 적용 (Camelyon17):
- 서로 다른 스캐너에서 촬영된 조직병리 이미지 (심한 도메인 시프트) 를 대상으로 한 선택적 분류 (Selective Classification) 실험에서 CreDRO 가 가장 높은 정확도 - 거부 (Accuracy-Rejection) 곡선 (AUC) 을 기록했습니다.
- CreDRO 는 잘못 분류된 샘플에 대해 높은 EU 값을 부여하여 신뢰할 수 있는 불확실성 추정을 수행하는 반면, 기존 방법들은 과신 (Overconfidence) 경향을 보였습니다.
계산 비용:
- CreDRO 는 박스 크레달 세트를 사용하여 엔트로피 최적화 시 볼록 껍질 (Convex Hull) 방식보다 계산 효율이 높으며, 학습 및 추론 시간 면에서 경쟁력 있는 결과를 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

실질적인 불확실성 포착: 이 연구는 모델이 단순히 "무작위성" 때문에 불확실한 것이 아니라, 데이터 분포의 변화 (Distribution Shift) 에 대해 얼마나 불확실한지를 정량화하는 데 성공했습니다. 이는 안전이 중요한 실제 응용 분야 (의료, 자율주행 등) 에서 모델의 신뢰성을 높이는 데 핵심적입니다.
실용성: 복잡한 아키텍처 변경 없이 기존 DRO 기법을 앙상블에 적용하여 구현하기 쉽고, 다양한 크레달 불확실성 측정 방법 중에서도 계산 효율성과 성능을 모두 잡은 우수한 솔루션을 제시했습니다.
미래 작업: 회귀 (Regression) 작업으로의 확장 가능성과 단일 예측 확률을 도출하는 원칙적인 방법론에 대한 연구가 향후 과제로 남았습니다.

요약하자면, CreDRO는 분포 강건 최적화 (DRO) 를 통해 훈련 - 테스트 간 분포 편차를 시뮬레이션하는 앙상블을 학습함으로써, 기존 방법보다 훨씬 더 정확하고 신뢰할 수 있는 인식론적 불확실성 (Epistemic Uncertainty) 을 추정하는 혁신적인 프레임워크입니다.