From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: AI 의 두 가지 실수

AI 를 소방관이나 의사와 같은 전문가로 상상해 보세요. 이 전문가가 실수할 때는 크게 두 가지 경우가 있습니다.

모르는 것을 아는 척하는 실수 (OOD, Out-of-Distribution):
- 비유: 소방관이 '안개'를 보고 '화재'라고 소리치는 경우입니다. 안개는 훈련 데이터에 없던 낯선 것이지만, AI 는 이를 잘못 인식해 위험하다고 판단합니다.
- 문제: AI 가 훈련받지 않은 낯선 상황을 만나면, 엉뚱한 결론을 내리면서도 "100% 확실해!"라고 자신 있게 말합니다.
아는 것을 잘못 아는 실수 (Failure Prediction, Misclassification):
- 비유: 소방관이 진짜 '화재'를 보았지만, '구름'이라고 잘못 판단하는 경우입니다. 이는 훈련된 데이터 (화재) 안에 있지만, AI 가 실수를 한 경우입니다.
- 문제: AI 가 훈련된 데이터라도 실수할 때가 있는데, 이때도 AI 는 자신이 틀렸다는 걸 모르고 계속 자신 있게 답합니다.

기존의 한계:
지금까지 연구자들은 이 두 가지 실수를 별개의 문제로만 다뤘습니다. "낯선 것을 구별하는 능력"만 평가하거나, "훈련된 데이터에서의 정확도"만 평가했죠. 하지만 현실에서는 이 두 가지가 동시에 일어납니다. 마치 소방관에게 "안개와 화재를 구별하는가?"와 "화재를 제대로 보는가?"를 따로따로 시험보다, **"실제 현장 (안개와 화재가 섞인 곳) 에서 얼마나 잘 대처하는가?"**를 통틀어 봐야 한다는 것입니다.

📏 2. 해결책: "이중 검사 시스템" (Double Scoring)

저자들은 이 문제를 해결하기 위해 두 가지 점수를 동시에 보는 새로운 시스템을 제안합니다.

점수 1 (낯선 정도 점수): "이건 내가 배운 것 같아? 아니면 완전히 새로운 거야?" (OOD 점수)
점수 2 (신뢰도 점수): "내가 이걸 맞췄을 확률이 얼마나 높아?" (ID 신뢰도 점수)

비유: 공항 보안 검색대
기존 방식은 보안관 한 명이 "이 짐이 위험해 보이니?"라고만 물어봤다면, 새로운 방식은 두 명의 보안관이 협력합니다.

보안관 A: "이 짐은 우리 공항에 들어온 적 없는 낯선 물건인가?" (낯선 정도 체크)
보안관 B: "이 물건이 위험할 확률이 높은가?" (신뢰도 체크)

두 보안관이 모두 "안전하다"고 해야만 통과시킵니다. 한 명이라도 "의심스럽다"고 하면, AI 는 "모르겠다"고 답하고 인간에게 넘깁니다. 이렇게 하면 AI 가 실수하거나 낯선 상황에 휘둘릴 확률이 크게 줄어듭니다.

📊 3. 새로운 평가 기준: "DS-F1"과 "DS-AURC"

이제 이 "이중 검사 시스템"이 얼마나 좋은지 측정할 새로운 자尺 (자) 가 필요합니다.

기존의 자: "한 번에 얼마나 잘 맞췄나?" (단일 점수)
새로운 자 (DS-F1, DS-AURC): "두 가지 조건을 모두 만족했을 때, 얼마나 완벽하게 작동하는가?"

비유: 스포츠 선수 평가
기존에는 "달리기만 잘하면 금메달"이었다면, 이제는 **"달리기도 잘하고, 점프도 잘하고, 두 가지를 동시에 했을 때 얼마나 균형 잡혔는지"**를 봅니다.
논문에 따르면, 이 새로운 자를 사용하면 기존에 "최고"라고 생각했던 모델들이 사실은 약점이 많았다는 것을 발견할 수 있고, 실제로 더 튼튼한 모델을 찾아낼 수 있습니다.

🚀 4. 새로운 모델: "SURE+" (신뢰할 수 있는 AI)

저자들은 단순히 평가 방법만 바꾼 게 아니라, 실제로 더 잘 작동하는 AI 모델 **SURE+**를 만들었습니다.

비유: 최고의 요리사
기존 모델 (SURE) 이 맛있는 요리를 만들었다면, SURE+ 는 그 레시피에 **더 좋은 재료 (데이터 증강)**와 **더 안정적인 조리법 (최적화 기법)**을 추가했습니다.
- RegPixMix: 요리에 다양한 재료를 섞어 어떤 상황에서도 맛을 유지하게 합니다.
- F-SAM: 불 조절을 더 정교하게 해서 요리가 타거나 덜 익는 일을 방지합니다.

이 SURE+ 는 낯선 상황 (안개) 이든, 익숙한 상황 (화재) 이든, 두 가지 실수를 모두 줄여주며 가장 신뢰할 수 있는 결과를 보여줍니다.

💡 5. 결론: 왜 이것이 중요한가요?

이 논문의 핵심 메시지는 **"AI 가 완벽할 필요는 없지만, '어디까지 믿을 수 있는지'를 정확히 아는 것이 중요하다"**는 것입니다.

기존: AI 가 틀려도 "내가 맞다"고 우기면 큰 사고가 납니다.
이제: AI 가 "이건 낯선 거야" 혹은 "이건 내가 잘 모를 수도 있어"라고 솔직하게 말할 때, 우리는 AI 를 더 안전하게 쓸 수 있습니다.

이 연구는 AI 가 실생활 (화재 감지, 자율 주행, 의료 진단 등) 에 투입될 때, 실수할 때를 미리 예측하고, 낯선 상황을 거절할 수 있는 '진짜 신뢰할 수 있는 AI'를 만드는 길을 제시합니다.

한 줄 요약:

"AI 가 모르는 것을 모른다고 솔직하게 말하고, 실수할 땐 미리 경고하게 만드는 '이중 검사 시스템'과 새로운 평가 기준을 제안하여, AI 를 더 안전하고 신뢰할 수 있게 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 제목: From Misclassifications to Outliers: Joint Reliability Assessment in Classification

투고처: IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI)

1. 문제 정의 (Problem)

실제 응용 환경 (안전, 의료 등) 에서 머신러닝 분류기를 배포할 때, 단순히 높은 정확도를 달성하는 것만으로는 부족합니다. 신뢰할 수 있는 시스템은 다음 두 가지 능력을 동시에 갖춰야 합니다.

분포 외 (OOD, Out-of-Distribution) 입력 감지: 학습 분포와 다른 입력 (예: 안개, 증기 등) 을 식별하여 신뢰하지 않아야 함.
분포 내 (ID, In-Distribution) 오류 예측: 학습된 클래스 내에서도 모델이 잘못 예측할 가능성이 높은 샘플에 대해 낮은 확신을 부여해야 함.

기존 연구들은 OOD 감지와 **실패 예측 (Failure Prediction)**을 별도의 문제로 다루어 왔습니다. 그러나 실제 세계에서는 ID 와 OOD 입력이 혼재되어 발생하므로, 이를 분리하여 평가하는 것은 모델의 진정한 신뢰성을 왜곡할 수 있습니다. 예를 들어, OOD 감지 성능은 뛰어나지만 ID 내 오류 예측이 나쁜 모델, 혹은 그 반대의 경우를 단일 지표로 평가하면 어떤 모델이 더 우수한지 판단하기 어렵습니다.

2. 방법론 (Methodology)

가. 통합 평가 프레임워크 및 새로운 지표 (DS-F1, DS-AURC)

저자들은 OOD 감지와 실패 예측을 통합적으로 평가하기 위해 이중 점수 함수 (Double Scoring) 방식을 제안합니다. 각 입력에 대해 두 가지 점수를 산출하고 두 개의 임계값을 적용합니다.

$s_{OOD}$ : OOD 감지 점수 (높을수록 ID 일 확률 높음).
$s_{ID}$ : ID 분류 신뢰도 점수 (높을수록 예측이 정확할 확률 높음).
결정 로직: $s_{OOD} > \tau_{OOD}$ (ID 로 간주) 그리고 $s_{ID} > \tau_{ID}$ (신뢰할 수 있음) 일 때만 예측을 수용 (Accept) 합니다.

이러한 이중 임계값 구조를 기반으로 기존 지표를 확장한 두 가지 새로운 메트릭을 제안했습니다.

DS-F1 (Double Scoring F1): 모든 가능한 $(\tau_{OOD}, \tau_{ID})$ 쌍에 대해 계산된 정밀도 (Precision) 와 재현율 (Recall) 의 F1 점수 중 최대값을 찾습니다. 이는 시스템이 최적의 운영점에서 달성할 수 있는 최고의 성능을 나타냅니다.
DS-AURC (Double Scoring Area Under Risk-Coverage): 다양한 커버리지 (수용된 샘플의 비율) 수준에서 달성 가능한 **최소 위험 (Risk)**을 선택하여 적분한 값입니다. 이는 단일 임계값 방식보다 더 낮은 (더 좋은) 위험 곡선을 제공하며, 모델의 전반적인 강건성을 평가합니다.

나. 신뢰할 수 있는 분류기 SURE+ 제안

기존의 신뢰성 분류기인 SURE를 확장하여 **SURE+**를 제안했습니다. SURE+ 는 ID 신뢰도 보정 (Calibration) 과 OOD 강건성을 동시에 향상시키기 위해 다음과 같은 구성 요소를 통합합니다.

데이터 증강: RegMixup (레이블 보존 특징 보간) 과 RegPixMix (픽셀 수준 교란에 대한 강건성) 를 결합.
최적화: F-SAM (Sharpness-Aware Minimization) 을 사용하여 평평한 최소값 (Flat Minima) 을 찾음.
모델 앙상블: 가중치 평균 (SWA) 대신 지수 이동 평균 (EMA) 과 재정규화 배치 정규화 (Re-BN) 를 사용하여 예측 안정성 향상.
단순화: 기존 SURE 의 복잡한 구성 요소 (Correctness Ranking Loss, Cosine Similarity Classifier 등) 를 제거하고 핵심적인 강건성 기법만 유지.

3. 주요 기여 (Key Contributions)

통합 관점의 제시: OOD 감지와 실패 예측이 상호 보완적임을 규명하고, 이를 분리하여 평가하는 것의 한계를 지적했습니다.
새로운 평가 지표 개발: 이중 점수 함수를 기반으로 한 DS-F1과 DS-AURC를 제안하여, 단일 점수 방식보다 모델의 신뢰성을 더 정확하게 측정할 수 있는 기준을 마련했습니다.
성능 입증: OpenOOD 벤치마크를 통한 광범위한 실험을 통해, 제안된 통합 평가 프레임워크가 기존 방법들보다 더 강건하고 신뢰할 수 있는 분류기를 식별함을 증명했습니다.
SURE+ 모델 개발: OOD 감지와 실패 예측의 최신 기법을 통합한 SURE+ 를 제안하여, 다양한 시나리오에서 최첨단 (SOTA) 신뢰성 성능을 달성했습니다.

4. 실험 결과 (Results)

OpenOOD 벤치마크 평가: CIFAR-100 및 ImageNet-1K 데이터셋에서 ResNet-18 및 DINOv3 ViT-L/16 모델을 사용하여 실험을 수행했습니다.
이중 점수 vs 단일 점수: 제안된 이중 점수 방식 (Double Scoring) 은 모든 데이터셋과 평가 설정에서 단일 점수 방식 (Single Scoring) 보다 DS-F1 은 높고 DS-AURC 는 낮게 나타나 더 우수한 성능을 보였습니다.
Far-OOD vs Near-OOD: OOD 기반 접근 방식은 시각적으로 명확하게 다른 Far-OOD 데이터에서는 큰 개선을 보였으나, ID 와 유사한 Near-OOD 조건에서는 개선 폭이 제한적이었습니다. 이는 Near-OOD 감지가 여전히 어려운 과제임을 시사합니다.
SURE+ 의 성능: SURE+ 는 다양한 후처리 (Post-hoc) 점수 함수 (MSP, ReAct, VIM 등) 와 결합되었을 때, 기존 SURE 및 다른 베이스라인 모델들보다 높은 ID 정확도와 더 낮은 DS-AURC를 달성했습니다. 특히 ImageNet-1K 와 같은 대규모 데이터셋에서도 확장성이 입증되었습니다.

5. 의의 및 결론 (Significance)

이 논문은 신뢰할 수 있는 AI 시스템 배포를 위한 새로운 기준을 제시합니다.

실용적 가이드: 단일 지표에 의존하는 기존 평가의 한계를 극복하고, 실제 환경 (ID 와 OOD 가 혼재된 상황) 에 더 부합하는 통합 평가 체계를 제공합니다.
신뢰성 향상: 제안된 SURE+ 는 복잡한 구조 없이도 강력한 강건성을 제공하여, 실제 안전-중요 (Safety-critical) 시스템에 모델을 배포할 때 모델이 언제 자신을 신뢰하지 말아야 하는지 판단하는 능력을 크게 향상시킵니다.
미래 방향: Near-OOD 감지의 어려움과 임계값 선택의 자동화 필요성을 지적하며, 생성 모델을 활용한 보정 데이터 합성 등 향후 연구 방향을 제시했습니다.

결론적으로, 이 연구는 분류기의 신뢰성을 평가하고 향상시키기 위해 OOD 감지와 오류 예측을 분리하지 않고 통합적으로 접근해야 함을 강조하며, 이를 위한 이론적 프레임워크와 실용적인 모델을 동시에 제시했습니다.