Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers

Each language version is independently generated for its own context, not a direct translation.

🏦 1. 문제 상황: "동일한 지원자, 다른 결과" (예측의 다중성)

상상해 보세요. 한 은행에서 100 명의 AI 심사위원 (모델) 을 뽑아서 대출 심사를 시켰습니다. 이 100 명의 심사위원은 모두 99% 이상의 높은 정확도를 자랑합니다. 하지만, 똑같은 '김철수' 씨의 대출 신청서를 보냈을 때 결과가 어떻게 될까요?

50 명은 "통과"
50 명은 "거절"

이런 현상을 논문에서는 **'라슈모노 효과 (Rashomon effect)'**라고 부릅니다. (영화 <라슈모노>처럼 같은 사건을 보는 사람마다 다른 진실을 보는 것처럼, 데이터는 같지만 모델마다 결론이 달라지는 현상입니다.)

이게 왜 문제일까요?

불공정함: 똑같은 사람인데, 심사위원을 누구로 뽑느냐에 따라 운이 좌우됩니다.
소수 계층의 불이익: 연구 결과에 따르면, **소수 계층 (예: 신용 기록이 적은 사람, 특정 직군 등)**은 이 '결과가 오락가락하는' 구역에 훨씬 더 많이 몰려 있었습니다. 즉, 주류 계층보다 AI 의 선택에 따라 불이익을 받을 확률이 훨씬 높았습니다.

🔧 2. 해결책: "AI 의 자신감 조절하기" (보정, Calibration)

AI 모델은 종종 **자신감 (확률)**을 잘못 표현합니다.

"이 사람은 90% 확률로 갚을 거야!"라고 말하지만, 실제로는 60% 만 갚는 경우 (과신).
"이 사람은 40% 확률로 갚을 거야"라고 말하지만, 실제로는 80% 확률인 경우 (과소신).

논문의 핵심은 **"이 AI 들의 자신감을 현실에 맞게 '보정 (Calibration)'하면, 서로 다른 AI 들의 의견이 하나로 수렴될까?"**를 확인하는 것입니다.

저자들은 세 가지 '보정 도구'를 실험했습니다.

플랫 스케일링 (Platt Scaling): AI 의 말투를 부드럽게 조정하는 간단한 공식.
등방성 회귀 (Isotonic Regression): 데이터의 모양에 맞춰 유연하게 꺾어주는 비선형 도구.
온도 스케일링 (Temperature Scaling): AI 의 '뜨거운' 확률을 식혀주는 조절기.

📊 3. 연구 결과: "보정은 '의견 일치'를 만든다"

실험 결과 (9 개의 신용 평가 데이터 사용), 놀라운 사실이 밝혀졌습니다.

의견이 모였다: 보정을 하지 않은 AI 들은 서로 다른 결론을 내렸지만, 보정을 거치자 서로의 의견이 훨씬 더 비슷해졌습니다. 특히 '플랫 스케일링'과 '등방성 회귀'가 가장 효과적이었습니다.
소수 계층의 부담 감소: 원래는 소수 계층이 '결과가 오락가락하는' 구역에 많이 있었는데, 보정을 적용하자 이 불확실성이 줄어들었습니다. 즉, AI 의 선택에 따른 '운'의 요소가 줄어든 것입니다.
신뢰도 향상: AI 가 "90% 확률"이라고 할 때, 실제로 90% 가 맞을 가능성이 높아졌습니다.

💡 4. 핵심 메시지: "단순한 정확도보다 '안정성'이 중요하다"

이 논문이 우리에게 전하는 가장 중요한 메시지는 다음과 같습니다.

"AI 가 99% 정확하다 해도, 같은 사람에게 매번 다른 결과를 내면 그 AI 는 신뢰할 수 없습니다."

특히 소수 계층은 AI 의 '의견 불일치'로 인해 가장 큰 피해를 입습니다. 하지만 **보정 (Calibration)**이라는 과정을 거치면, 서로 다른 AI 모델들이 더 일관된 결론을 내리게 되어 공정하고 안정적인 의사결정을 돕는 '조율자' 역할을 할 수 있습니다.

🎯 한 줄 요약

"AI 모델들이 서로 다른 결론을 내는 '혼란스러운 상황'을, '자신감 보정'이라는 도구로 정리하면 소수 계층에게도 더 공정하고 안정적인 대출 심사가 가능해집니다."

이 연구는 AI 를 단순히 '정답을 맞추는 도구'가 아니라, **'결정이 안정적이고 공정해야 하는 사회적 도구'**로 바라보아야 함을 강조합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

고위험 의사결정 환경의 신뢰성 문제: 의료, 금융, 공공 정책 등 고위험 분야에서 머신러닝 모델이 배포됨에 따라, 단순히 높은 정확도 (Accuracy) 를 넘어 개별 예측의 신뢰성 (Probabilistic Reliability) 과 안정성 (Stability) 이 중요해졌습니다.
예측 다중성 (Predictive Multiplicity) 과 Rashomon 효과:
- 동일한 데이터에 대해 유사한 성능을 내는 여러 모델 (Rashomon 집합) 이 존재할 때, 동일한 개인에 대해 상반된 예측 결과를 도출할 수 있는 현상을 '예측 다중성'이라고 합니다.
- 이는 알고리즘적 임의성 (Algorithmic Arbitrariness) 을 초래하여, 동일한 지원자가 선택된 모델에 따라 다른 신용 결과를 받을 수 있는 불공정성을 야기합니다.
보정 (Calibration) 과의 간극: 기존 연구는 예측 확률의 통계적 타당성을 검증하는 '보정'과 모델 간 예측 불일치를 다루는 '예측 다중성'을 별개의 문제로 다뤘습니다. 그러나 보정이 부재할 경우 예측 확률의 신뢰도가 떨어지고, 이는 예측 다중성으로 인한 임의적 결정의 위험을 증폭시킬 수 있습니다.
핵심 연구 질문:
1. 예측 불확실성이 높은 영역 (낮은 신뢰도) 에서 예측 다중성이 집중되는가?
2. 사후 보정 (Post-hoc Calibration) 기법이 Rashomon 집합을 조율하여 신용 결정의 안정성을 높이고 임의성을 줄일 수 있는가?

2. 연구 방법론 (Methodology)

데이터셋: 신용 리스크 평가 (Credit Risk Scoring) 를 위한 9 개의 공개 벤치마크 데이터셋 (예: German Credit, Give Me Credit, Taiwan Credit 등) 을 사용했습니다. 데이터셋은 관측치 수 (1,000 ~ 25 만) 와 불균형 비율 (2.3 ~ 20.2) 에서 다양성을 갖습니다.
Rashomon 집합 구성:
- h2o AutoML 을 활용하여 다양한 아키텍처 (GBM, Random Forest, DNN, GLM 등) 의 20 개 모델을 학습했습니다.
- 성능 지표인 AUC 가 최우수 모델의 AUC 대비 5% 이내 ( $\epsilon = 0.05$ ) 인 모델들을 Rashomon 집합 ( $R$ ) 으로 정의했습니다.
평가 지표:
- Obscurity (불투명도): 최우수 모델 ( $f_{best}$ ) 과 Rashomon 집합 내 다른 모델들 간의 예측 불일치 비율을 측정하는 지표. 개별 관측치 수준에서 알고리즘적 임의성을 정량화합니다.
- Ambiguity (모호성) & Discrepancy (불일치): 보조 지표로 사용되었습니다.
- 신뢰도 (Confidence): 모델이 예측에 부여한 확률 값.
보정 기법 (Post-hoc Calibration):
- 학습된 분류기의 출력 확률을 보정하는 세 가지 기법을 Rashomon 집합 내 각 모델에 독립적으로 적용했습니다.
  1. Platt Scaling: 로지스틱 변환을 이용한 매개변수적 기법.
  2. Isotonic Regression: 비모수적 기법으로 단조 증가 함수를 적합.
  3. Temperature Scaling: 신경망의 Logits 에 온도 파라미터를 적용.
실험 설계: 데이터를 Train(60%), Calibration(20%), Test(20%) 로 분할하여 보정 효과를 평가했습니다. Wilcoxon 순위합 검정과 Dunn 사후 검정을 통해 통계적 유의성을 검증했습니다.

3. 주요 결과 (Key Results)

신뢰도와 예측 다중성의 역상관 관계:
- 모델의 평균 신뢰도가 높을수록 Obscurity 는 감소하는 경향이 있었습니다.
- 반면, 결정 경계 (Decision Boundary) 부근이나 낮은 신뢰도 영역에서는 모델 간 예측 불일치가 급격히 증가하여, 단일 최우수 모델에 의존할 경우 다양한 유효한 대안 예측이 누락됨을 확인했습니다.
소수 클래스 (Minority Class) 에 대한 불균형한 부담:
- 소수 클래스 (고위험 지원자 등) 관측치는 다수 클래스에 비해 Obscurity 가 유의미하게 높고, 예측 신뢰도가 유의미하게 낮았습니다.
- 이는 소수 클래스가 예측 다중성으로 인한 임의적 결정 (Algorithmic Arbitrariness) 에 더 취약함을 통계적으로 입증했습니다 ( $p < .001$ ).
보정 기법의 효과:
- 전반적 효과: Platt Scaling, Isotonic Regression, Temperature Scaling 모두 Obscurity 를 유의미하게 감소시켰습니다.
- 최적 기법: Platt Scaling과 Isotonic Regression이 예측 다중성 감소에 가장 강력하고 견고한 효과를 보였습니다.
- 계급별 차이:
  - 다수 클래스: 보정 후 Obscurity 가 거의 제로에 가까워질 정도로 크게 감소했습니다.
  - 소수 클래스: 보정 후에도 다수 클래스에 비해 Obscurity 감소 폭이 상대적으로 작았으며, 통계적 강도가 낮았습니다. 이는 소수 클래스의 예측 다중성 문제가 보정만으로는 완전히 해결되기 어렵고 더 깊은 구조적 문제를 내포함을 시사합니다.
- 신뢰도 개선: Platt Scaling 은 소수 클래스의 신뢰도 점수를 유의미하게 개선한 유일한 기법이었으며, Isotonic Regression 과 Temperature Scaling 은 소수 클래스의 신뢰도 개선에 통계적으로 유의미한 효과를 보이지 못했습니다.

4. 주요 기여 (Key Contributions)

통합적 관점 제시: 기존에 분리되어 연구되던 '확률적 보정'과 '예측 다중성'의 상호작용을 최초로 체계적으로 분석했습니다.
소수 클래스의 불공정성 규명: 예측 다중성이 소수 클래스에 불균형하게 집중되어 있으며, 이는 알고리즘적 임의성을 통해 공정성 문제를 악화시킨다는 실증적 증거를 제시했습니다.
보정의 규범적 역할 제안: 보정이 단순한 확률 보정 수단을 넘어, Rashomon 집합을 조율하여 모델 간 합의를 강제 (Consensus-enforcing) 하고 절차적 공정성 (Procedural Fairness) 을 지원하는 도구로 기능할 수 있음을 입증했습니다.
실용적 가이드라인 제공: 신용 리스크 평가와 같은 고위험 분야에서 Platt Scaling 이 소수 클래스에 대해 가장 견고한 보정 및 다중성 감소 효과를 제공함을 제시했습니다.

5. 의의 및 결론 (Significance)

규제 준수 및 투명성: EU AI Act 와 같은 규제 프레임워크 하에서 개별 수준에서의 예측 안정성과 정확성을 입증하는 데 기여합니다. 예측 다중성을 측정하고 보정을 적용함으로써 "결정이 데이터의 안정적인 결과인지, 아니면 임의의 운에 의한 것인지"를 식별할 수 있습니다.
시스템 신뢰성 향상: 보정은 모델의 예측 불확실성을 줄이고, 특히 소수 클래스와 같은 취약 계층에서의 임의적 결정을 완화하여 머신러닝 기반 의사결정 시스템의 신뢰성을 높이는 핵심 레이어가 될 수 있습니다.
향후 연구 방향: 이 연구는 보정이 만능 해결책이 아니며, 데이터 전처리 (불균형 해소 등) 와 함께 고려되어야 함을 강조합니다. 향후 다중 분류 (Multiclass) 환경과 다중성 제약 조건을 포함하는 학습 목적 함수 개발로 연구가 확장될 필요가 있습니다.

요약하자면, 본 논문은 보정 (Calibration) 이 예측 다중성 (Predictive Multiplicity) 을 줄이고 알고리즘적 임의성을 완화하여, 특히 소수 클래스를 대상으로 한 고위험 의사결정 시스템의 공정성과 신뢰성을 높이는 데 필수적인 도구임을 실증적으로 증명했습니다.

Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers

🏦 1. 문제 상황: "동일한 지원자, 다른 결과" (예측의 다중성)

🔧 2. 해결책: "AI 의 자신감 조절하기" (보정, Calibration)

📊 3. 연구 결과: "보정은 '의견 일치'를 만든다"

💡 4. 핵심 메시지: "단순한 정확도보다 '안정성'이 중요하다"

🎯 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference