Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 정답을 맞췄을 때, 그 답이 얼마나 확실한지 어떻게 알 수 있을까?"**라는 질문에 답합니다.

우리가 AI 를 사용할 때 가장 큰 문제는 AI 가 틀렸는데도 "100% 확신합니다!"라고 너무 자신 있게 말한다는 점입니다. 마치 시험을 보다가 정답을 모른 채도 "내 답은 100% 맞을 거야!"라고 외치는 학생과 같습니다.

이 논문은 이런 AI 의 '과신 (Overconfidence)' 문제를 해결하기 위해 두 가지 다른 방법을 비교했습니다.

1. 연구의 배경: AI 는 왜 위험할까?

현대 AI(딥러닝) 는 의료, 로봇, 자율주행 등 중요한 분야에서 쓰입니다. 하지만 AI 는 정답을 맞출 때뿐만 아니라 틀릴 때도 자신감 넘치는 확률 (예: 99%) 을 줍니다.

문제점: AI 가 "이 옷은 셔츠야 (99% 확신)"라고 말했는데, 실제로는 티셔츠라면 어떨까요? AI 는 틀렸다는 신호를 주지 않습니다.
목표: AI 가 "나는 이거 잘 모르겠어"라고 솔직하게 말할 수 있게 하거나, "이건 A 일 수도 있고 B 일 수도 있어"라고 여러 가능성을 제시하게 만드는 방법을 찾았습니다.

2. 비교한 두 가지 방법: "내면의 불안감" vs "통계적 안전장비"

연구진은 두 가지 서로 다른 철학을 가진 방법을 비교했습니다.

방법 A: 몬테카를로 드롭아웃 (MC Dropout) - "AI 의 내면 불안감 측정기"

비유: 같은 문제를 AI 에게 50 번이나 반복해서 물어보는 것입니다.
- 1 번: "셔츠야!"
- 2 번: "아니, 티셔츠인 것 같아."
- 3 번: "셔츠야!"
- ...
- 50 번: "셔츠야."
원리: AI 가 매번 조금씩 다른 답을 내놓으면, AI 는 그 문제에 대해 **불안 (Uncertainty)**을 느끼는 것입니다. 만약 50 번 중 49 번이 같은 답을 준다면 AI 는 확신이 있는 것입니다.
특징: AI 가 스스로의 '불안'을 계산하는 방식입니다.

방법 B: 컨포멀 예측 (Conformal Prediction) - "통계적 안전장비"

비유: AI 가 답을 낼 때, 정답이 그 안에 들어있을 확률이 95% 이상이 되도록 '상자 (Set)'를 만들어주는 것입니다.
- AI 가 "셔츠"라고만 말하면 안 됩니다.
- 대신 "셔츠, 티셔츠, 코트 중 하나일 거야"라고 상자를 줍니다.
- 이 상자를 통해 "정답이 이 상자 안에 있을 확률은 95% 이상이야"라고 통계적으로 보장합니다.
원리: AI 가 얼마나 확신하든 상관없이, 통계적으로 정답을 놓치지 않도록 안전장치를 씌워주는 방식입니다.

3. 실험 내용: 두 가지 AI 모델 비교

이론을 검증하기 위해 옷 사진을 분류하는 두 가지 AI 모델을 사용했습니다.

H-CNN VGG16: 매우 정교하고 복잡한 모델 (정답률은 높음).
GoogLeNet: 조금 더 가볍고 효율적인 모델 (정답률은 약간 낮음).

4. 주요 발견: "정답률"보다 "신뢰도"가 중요하다

결과 1: 정답률이 높은 모델이 더 위험할 수 있다

H-CNN VGG16 (복잡한 모델): 정답률은 93% 로 매우 높았습니다. 하지만 틀렸을 때도 "100% 확신"이라고 외쳤습니다. (과신 현상)
- 마치 시험을 잘 보는 학생이 틀린 문제도 "내 답이 맞다"고 우기는 것과 같습니다.
GoogLeNet (효율적인 모델): 정답률은 89% 로 조금 낮았지만, 틀릴 때는 "모르겠다"거나 "여러 가지 가능성이 있어"라고 더 솔직하게 반응했습니다.
- 이 모델이 더 신뢰할 수 있는 (Reliable) AI 였습니다.

결과 2: 두 방법의 장단점

MC Dropout (내면 측정): AI 가 얼마나 혼란스러워하는지 잘 보여줍니다. 하지만 모델이 과신하면 이 방법도 그 과신을 따라가서 잘못된 확신을 줄 수 있습니다.
컨포멀 예측 (안전장비): AI 가 얼마나 과신하든 상관없이, 통계적으로 정답을 놓치지 않는다는 것을 보장합니다. "정답은 이 상자 안에 있을 거야"라고 말해주기 때문에, 위험한 상황 (의료, 자율주행 등) 에 매우 유용합니다.

5. 결론: 우리는 무엇을 배웠나?

이 연구는 **"AI 가 정답을 맞춘 횟수 (Accuracy) 만으로는 충분하지 않다"**는 것을 증명했습니다.

핵심 메시지: AI 를 평가할 때는 "얼마나 많이 맞췄는가"보다 **"틀렸을 때 얼마나 솔직하게 모르는 척하는가"**가 더 중요합니다.
실제 적용:
- H-CNN VGG16처럼 정답률이 높은 모델은 효율적이지만, 위험한 상황에서는 과신으로 인해 실수를 할 수 있습니다.
- GoogLeNet이나 컨포멀 예측을 사용하면, AI 가 "이건 확실하지 않아"라고 말할 때 우리가 그 신호를 믿고 인간 전문가의 도움을 받을 수 있습니다.

한 줄 요약:

"AI 가 "100% 맞다!"라고 외치는 것보다, "이건 좀 애매하니까 다시 한번 확인해 봐"라고 말할 때를 아는 것이 더 안전하고 신뢰할 수 있는 AI 를 만드는 길입니다."

이 논문은 앞으로 우리가 AI 를 사용할 때, 단순히 점수만 보지 말고 AI 의 '불안감'과 '신뢰도'를 함께 체크해야 한다는 중요한 교훈을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

딥러닝의 한계: 심층 신경망 (DNN) 은 의료, 로봇공학 등 다양한 분야에서 뛰어난 예측 성능을 보이지만, 종종 '블랙박스' 특성을 가지며 과도한 자신감 (Overconfidence) 을 보입니다. 즉, 잘못된 예측을 할 때도 높은 확률 값을 부여하는 보정 불량 (Poor Calibration) 문제가 발생합니다.
불확실성 추정의 필요성: 기존의 DNN 은 점 추정 (Point Estimate) 에만 의존하여 예측의 신뢰성이나 불확실성을 정량화하지 못합니다. 고위험 의사결정 환경에서는 모델이 '얼마나 확실한지'를 아는 것이 정확도만큼 중요합니다.
연구 간극: 기존 연구들은 주로 분류 정확도에 집중했으며, 서로 다른 신경망 아키텍처에서 베이지안 접근법 (Bayesian) 과 비모수적 접근법 (Non-parametric) 인 공형 예측 (Conformal Prediction) 을 체계적으로 비교한 연구는 부족했습니다.

2. 방법론 (Methodology)

2.1. 데이터셋 및 모델 아키텍처

데이터셋: Fashion-MNIST (10 개의 의류 카테고리, 7 만 장의 이미지) 를 사용했습니다.
비교 대상 모델:
1. H-CNN VGG16: 계층적 분류 전략을 도입한 VGG16 기반 모델. 시각적으로 유사한 클래스 (예: 셔츠, 티셔츠, 코트) 를 구분하는 데 특화되어 있으며, 높은 정확도를 보이지만 파라미터 수가 많습니다.
2. GoogLeNet (Inception v1): 병렬 합성곱 경로를 사용하는 Inception 모듈 기반 모델. 파라미터 효율이 높고 계산 비용이 적게 들며, 상대적으로 얕은 구조를 가집니다.

2.2. 불확실성 추정 기법

두 가지 서로 다른 패러다임을 비교 분석했습니다.

몬테카를로 드롭아웃 (Monte Carlo Dropout, MC Dropout):
- 원리: 추론 (Inference) 시에도 드롭아웃을 활성화하여 여러 번의 확률적 순전파 (Stochastic Forward Pass) 를 수행합니다.
- 목적: 베이지안 근사를 통해 사후 분포를 추정하며, 인지적 불확실성 (Epistemic Uncertainty, 모델의 지식 부족) 과 알레토릭 불확실성 (Aleatoric Uncertainty, 데이터 자체의 노이즈) 을 분리하여 측정합니다.
- 지표: 예측 엔트로피 (Predictive Entropy), 상호 정보 (Mutual Information), 표준 편차 등.
공형 예측 (Conformal Prediction, CP):
- 원리: 모델의 구조를 변경하지 않고, 별도의 캘리브레이션 데이터를 사용하여 '비동일성 점수 (Non-conformity Score)'를 계산합니다.
- 목적: 사전에 정의된 유의수준 ( $\alpha$ ) 하에서 통계적으로 보장된 예측 집합 (Prediction Sets) 을 생성합니다.
- 특징: 데이터 분포에 대한 가정이 필요 없으며 (Distribution-free), 유한 표본에서 커버리지 (Coverage) 를 보장합니다.
- 지표: 유효성 (Validity, 실제 라벨이 예측 집합에 포함될 확률), 효율성 (Efficiency, 예측 집합의 크기).

2.3. 평가 지표

일반적 지표: 정확도, 과적합 분석, 희소성 (Sparsity).
보정 지표: 기대 보정 오차 (Expected Calibration Error, ECE).
불확실성 지표: 예측 엔트로피, 상호 정보, 예측 집합 크기 등.

3. 주요 결과 (Key Results)

3.1. 정확도 vs. 신뢰성

정확도: H-CNN VGG16이 GoogLeNet 보다 높은 분류 정확도 (최대 92.99% vs 89.72%) 를 기록했습니다.
보정 (Calibration): 정확도가 높은 H-CNN VGG16 은 과도한 자신감을 보였습니다. ECE(기대 보정 오차) 가 5.66% 로 높았으며, 베이지안 기법을 적용해도 5.61% 로 미미한 개선만 있었습니다. 반면, GoogLeNet은 ECE 가 2.82% 에서 1.37% 로 크게 개선되어 더 잘 보정된 (Well-calibrated) 불확실성 추정을 보여주었습니다.

3.2. 불확실성 분해 및 행동 분석

H-CNN VGG16: 예측 엔트로피가 낮고 일관성이 높습니다. 이는 모델이 모호한 입력 (예: 셔츠와 티셔츠) 에 대해서도 빠르게 확신을 갖는다는 것을 의미하며, 인지적 불확실성 (Epistemic Uncertainty) 을 과소평가하는 경향이 있습니다.
GoogLeNet: 예측 엔트로피 분포가 더 넓고, 특히 모호한 클래스에서 인지적 불확실성을 더 잘 표현합니다. 모델이 확신이 없을 때 더 보수적으로 행동하며, 이는 더 신뢰할 수 있는 불확실성 신호로 이어집니다.

3.3. 공형 예측 (CP) 의 성능

유효성 (Validity): 두 모델 모두 95% 신뢰수준에서 통계적으로 보장된 예측 집합을 생성하여 유효성을 입증했습니다.
효율성 (Efficiency):
- H-CNN VGG16 은 예측 집합 크기가 작아 (주로 1 개 라벨) 효율적이지만, 이는 과신 (Overconfidence) 에 기인한 것입니다.
- GoogLeNet 은 불확실성이 높은 경우 예측 집합을 더 넓게 (2 개 이상) 형성하여, 모델이 혼란스러울 때 이를 명확히 신호로 보냅니다.
상관관계: H-CNN VGG16 은 엔트로피와 예측 집합 크기가 잘 일치했으나, GoogLeNet 은 보수적인 확률 분포로 인해 엔트로피와 집합 크기 간의 상관관계가 덜 명확했습니다. 이는 CP 가 보정되지 않은 모델의 결함을 보완하는 역할을 함을 시사합니다.

4. 주요 기여 (Main Contributions)

체계적 비교: 베이지안 근사 (MC Dropout) 와 비모수적 방법 (Conformal Prediction) 을 서로 다른 두 CNN 아키텍처 (VGG16 계층적 구조 vs GoogLeNet 병렬 구조) 에서 비교 분석했습니다.
아키텍처와 불확실성의 관계 규명: 높은 정확도를 가진 모델 (H-CNN VGG16) 이 오히려 보정 불량과 과신을 보일 수 있음을 입증하고, GoogLeNet 이 더 신뢰할 수 있는 불확실성 추정을 제공함을 보였습니다.
불확실성 분해: 예측 엔트로피를 통해 인지적 (Epistemic) 과 알레토릭 (Aleatoric) 불확실성을 분리하여 분석하고, 모델 설계가 불확실성 표현에 미치는 영향을 규명했습니다.
실용적 통찰: 고위험 의사결정 환경에서는 단순한 정확도보다 신뢰할 수 있는 불확실성 추정이 필수적임을 강조하며, CP 와 MC Dropout 의 상호 보완적 강점을 제시했습니다.

5. 의의 및 결론 (Significance)

이 연구는 딥러닝 모델의 성능 평가가 정확도 (Accuracy) 하나에 국한되어서는 안 됨을 강조합니다.

H-CNN VGG16은 높은 정확도와 효율성을 제공하지만, 특히 모호한 클래스에서 과신으로 인해 위험한 의사결정을 내릴 수 있습니다.
GoogLeNet은 상대적으로 낮은 정확도에도 불구하고, 더 잘 보정된 불확실성 추정을 통해 모델이 '모를 때'를 명확히 인지하게 합니다.
공형 예측 (CP) 은 모델의 보정 상태와 관계없이 통계적으로 보장된 예측 집합을 제공함으로써, 베이지안 방법의 보정 한계를 보완하는 강력한 도구로 작용합니다.

결론적으로, 신뢰할 수 있는 딥러닝 시스템을 구축하기 위해서는 모델의 내부 불확실성 (MC Dropout) 과 통계적 보장 (Conformal Prediction) 을 모두 고려한 종합적인 평가가 필요하며, 특히 안전이 중요한 분야에서는 정확도보다 신뢰성 (Reliability) 을 우선시해야 함을 시사합니다.