LOCUS: A Distribution-Free Loss-Quantile Score for Risk-Aware Predictions

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로커스 (Locus)"**라는 새로운 도구를 소개합니다. 이 도구는 인공지능 (AI) 이 내린 예측이 얼마나 '위험한지' 알려주는 경고등 역할을 합니다.

기존의 AI 모델들은 "평균적으로" 매우 정확할 수 있지만, 가끔은 치명적인 실수를 하기도 합니다. 예를 들어, AI 가 집 가격을 예측할 때 평균 오차는 작지만, 특정 집 한 채에 대해서는 10 억 원이나 틀릴 수도 있습니다. 이런 '큰 실수'가 실제 비즈니스나 의료 현장에서 가장 큰 비용을 발생시킵니다.

로커스는 **"이 예측은 믿어도 될까, 아니면 다시 한번 확인해야 할까?"**를 알려주는 나침반입니다.

🏠 1. 문제 상황: "평균"은 우리를 속일 수 있습니다

상상해 보세요. 어떤 요리사가 100 개의 요리를 만들었습니다. 99 개는 완벽했지만, 1 개는 완전히 타버렸습니다.

기존 AI 의 접근: "평균 점수는 99 점입니다! 이 요리사는 훌륭합니다!"라고 말합니다.
현실의 문제: 하지만 그 '타버린 요리'를 먹은 손님은 화가 납니다. 우리는 평균 점수가 아니라, 지금 이 요리를 먹어도 안전한지 알고 싶습니다.

기존의 AI 기술들은 "이 예측의 불확실성 (분산)"을 계산합니다. 마치 "이 요리의 재료가 얼마나 들쭉날쭉한지"를 재는 것과 비슷합니다. 하지만 문제는, 재료가 고르게 섞여 있어도 (불확실성이 낮아도) 요리사 (AI 모델) 가 실수를 해서 맛이 없을 수 있다는 점입니다.

🛡️ 2. 로커스 (Locus) 의 해결책: "실제 손해"를 측정하는 자

로커스는 불확실성을 재는 것이 아니라, **"실제로 얼마나 손해가 날지"**를 직접 측정합니다.

🌟 핵심 비유: "예상 지진 규모" vs "실제 피해 예상도"

기존 방법 (불확실성 측정): "이 지역은 지진 발생 확률이 낮아요 (분산이 작아요)."라고 말합니다. 하지만 지진 발생 확률이 낮아도, 만약 지진이 나면 건물이 무너질 수도 있습니다.
로커스 (Locus): "이 건물에 지진이 오면 **얼마나 큰 피해 (손해)**가 날지 계산해 봅니다."라고 말합니다.
- 만약 예상 피해가 100 만 원이라면? "안전합니다."
- 만약 예상 피해가 10 억 원이라면? "위험합니다! 이 예측은 믿지 마세요."

로커스는 AI 가 내린 예측과 실제 결과가 얼마나 다를지 (손실, Loss), 그 손실의 크기를 직접적으로 예측합니다.

🎯 3. 어떻게 작동할까요? (3 단계 프로세스)

로커스는 복잡한 수식을 쓰지 않고, 다음과 같은 간단한 단계로 작동합니다.

과거 데이터로 학습하기 (예비 훈련):
AI 가 이미 예측한 결과와 실제 결과를 비교해서, "어떤 상황에서 AI 가 얼마나 큰 실수를 했는지"를 기록합니다. 마치 과거의 사고 기록을 분석하는 것과 같습니다.
안전 마진 설정하기 (보정):
"우리는 95% 의 확률로 이 예측이 틀릴 때의 손해가 이 정도 (예: 5 천만 원) 를 넘지 않기를 원한다"라고 정합니다. 이때, 데이터가 부족한 지역 (예상치 못한 상황) 에서는 더 보수적으로, 즉 "더 큰 손해가 날 수 있다"고 가정하여 안전 장치를 두껍게 만듭니다.
경고등 켜기 (플래그ging):
새로운 예측이 들어오면 로커스는 "이 예측의 예상 최대 손해"를 계산합니다.
- 초록불 (안전): 예상 손해가 우리가 정한 기준 (예: 1 천만 원) 보다 작으면 → "이 예측을 믿고 실행하세요."
- 빨간불 (위험): 예상 손해가 기준보다 크면 → "이 예측은 위험합니다! 사람이 다시 확인하세요."

💡 4. 왜 이것이 특별한가요?

이해하기 쉬운 숫자: 로커스는 "불확실성 지수 0.8" 같은 복잡한 숫자가 아니라, **"이 예측을 믿으면 최대 1 억 원의 손해를 볼 수 있습니다"**라고 직접적인 돈 (또는 점수) 으로 알려줍니다.
모델이 틀려도 안전합니다: AI 모델이 아무리 이상한 예측을 하더라도, 로커스는 과거 데이터를 바탕으로 "최악의 경우"를 보장해 줍니다. 마치 자동차의 안전벨트처럼, 사고가 났을 때의 충격을 줄여줍니다.
데이터가 적은 곳도 챙깁니다: AI 가 처음 보는 낯선 상황 (데이터가 적은 곳) 에서는 더 보수적으로 작동하여, "아직 잘 모르니 조심하자"라고 경고합니다.

🚀 5. 요약: 로커스는 무엇을 해주는가?

로커스는 **"AI 가 언제 실수할지, 그리고 그 실수가 얼마나 큰지"**를 미리 알려주는 현실적인 안전장치입니다.

의사: "이 환자에게 이 약을 줘도 될까?" → 로커스가 "이 약을 쓰면 부작용으로 인한 손해가 클 수 있으니 다시 확인하세요"라고 경고합니다.
신용평가: "이 사람에게 대출을 줘도 될까?" → 로커스가 "이 대출은 연체될 확률이 낮아 보이지만, 만약 연체되면 막대한 손실이 예상되니 거절하세요"라고 알려줍니다.

결론적으로, 로커스는 AI 를 맹신하지 않고, 위험을 관리하며 AI 를 현명하게 사용하는 방법을 제시합니다. "평균적인 정확함"이 아닌, **"안전한 실행"**을 가능하게 해주는 도구입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대 기계학습 모델은 평균적으로 높은 정확도를 보이지만, 배포 환경에서는 개별 예측 (per-instance) 에 따라 치명적인 손실이 발생할 수 있습니다.

평균 성능의 한계: RMSE 나 정확도 (Accuracy) 와 같은 전통적인 지표는 전체 분포에 대한 평균 성능을 측정할 뿐, 특정 입력 $x$ 에 대한 예측의 위험도를 알려주지 않습니다.
불확실성 (Uncertainty) 의 오해: 기존 접근법 (베이지안 예측 분포, 앙상블, 드롭아웃 등) 은 주로 예측값 $Y$ 의 불확실성 (분산, 엔트로피 등) 을 추정합니다. 그러나 실제 배포에서 중요한 것은 **실제 발생한 손실 (Realized Loss)**입니다. 예측 분산이 낮더라도 모델이 해당 영역에서 잘못 적합 (misfit) 되어 있다면 손실은 클 수 있습니다.
목표: 특정 예측 함수 $g(x)$ 와 손실 함수 $L$ 이 주어졌을 때, 실제 손실 $Z = L(g(X), Y)$ 가 사용자가 정의한 허용 오차 $\tau$ 를 초과할 확률을 제어하면서, 개별 입력에 대한 신뢰도 점수를 제공하는 방법론이 필요합니다.

2. 방법론 (Methodology)

저자들은 **Locus (LOss Control using Uncertainty Scores)**라는 새로운 프레임워크를 제안합니다. 이는 고정된 예측 함수 $g$ 에 대한 손실 (Loss) 의 분포를 모델링하고 이를 분포 자유 (distribution-free) 방식으로 보정하는 래퍼 (wrapper) 입니다.

핵심 단계:

손실 데이터 생성:
- 배포된 예측기 $g$ 와 손실 함수 $L$ 을 사용하여, 보정 데이터 (Calibration Data) $D$ 에서 관측된 손실 $Z_i = L(g(X_i), Y_i)$ 를 계산합니다.
예측 분포 모델링 (Step 2):
- 보정 데이터의 일부 ( $D_1$ ) 를 사용하여 손실 $Z$ 의 조건부 분포 $F_Z(\cdot | x)$ 를 추정하는 확률적 모델 (Base Model) 을 학습합니다.
- 예측 모델 예시: MC Dropout, BART (Bayesian Additive Regression Trees), 혼합 밀도 네트워크 (MDN) 등.
- 인지적 불확실성 (Epistemic Uncertainty) 반영: 데이터가 희소한 영역에서는 예측이 불확실하므로, 더 보수적인 (conservative) 분포를 위해 예측 CDF 의 하위 엔벨로프 (lower envelope) 를 사용하거나, kNN 기반의 희소성 점수를 통해 분포를 확장 (inflation) 하는 기법을 도입합니다.
분포 자유 보정 (Step 3 - Split-Calibration):
- 보정 데이터의 나머지 부분 ( $D_2$ ) 을 사용하여 PIT (Probability Integral Transform) 값을 계산합니다.
- 목표하는 꼬리 수준 (tail level) $\alpha$ 에 해당하는 임계값 $t_{1-\alpha}$ 를 $D_2$ 의 PIT 값들로부터 구합니다.
- 최종 점수 $U_\alpha(x)$ 를 정의합니다:
  $U_\alpha(x) = \hat{F}^{-1}(t_{1-\alpha} | x)$
  이는 주어진 입력 $x$ 에서 손실이 $U_\alpha(x)$ 이하일 확률이 적어도 $1-\alpha$ 임을 보장하는 **보정된 손실 상한선 (Calibrated Upper Bound)**입니다.

플래깅 규칙 (Flagging Rule):

사용자가 정의한 손실 허용치 $\tau$ 가 주어지면, $U_\alpha(x) \le \tau$ 인 경우만 예측을 신뢰하고 (Accept), 그 외는 플래그 (Flag) 합니다.
이론적 보장 (Theorem 3): 이 규칙은 "신뢰하지만 나쁜 (trusted-but-bad)" 사건의 확률을 분포에 무관하게 제어합니다.
$P(Z > \tau, X \in A_{\tau;\alpha}) \le \alpha$
즉, 신뢰하는 예측들 중 허용치 이상의 손실이 발생할 비율이 $\alpha$ 이하로 보장됩니다.

3. 주요 기여 (Key Contributions)

손실 중심의 보정 점수 (Calibrated Loss-Quantile Score):
- 예측값 $Y$ 의 불확실성이 아닌, 실제 손실 $Z$ 의 분포를 직접 모델링합니다.
- 임의의 예측 CDF 엔진을 사용하여 유한 표본 (finite-sample) 에서 분포 자유 (distribution-free) 한 마진 유효성 (marginal validity) 을 보장하는 점수 $U_\alpha(x)$ 를 생성합니다.
명확한 손실 제어 플래깅 규칙:
- 단순한 불확실성 임계값이 아닌, **손실 단위 (loss units)**로 해석 가능한 상한선을 제공합니다.
- $U_\alpha(x) \le \tau$ 라는 투명한 규칙을 통해, 신뢰하는 예측 집합 내에서 큰 손실 발생 빈도를 이론적으로 통제할 수 있습니다.
인지적 불확실성 인식 (Epistemic-aware Inflation):
- 데이터가 부족한 영역 (extrapolation) 에서 모델이 과신 (overconfidence) 하지 않도록, kNN 기반의 희소성 지표를 사용하여 예측 분포를 보수적으로 확장하는 메커니즘을 제안합니다. 이는 보정 단계의 보장을 훼손하지 않으면서 견고성을 높입니다.
실용적 튜닝 (Locus-Tuned):
- 조건부 초과 확률 (conditional exceedance) 을 특정 목표치 $\eta$ 로 맞추기 위해 검증 데이터 (validation set) 를 활용한 $\lambda$ (임계값) 또는 $\alpha$ (보정 수준) 튜닝 기법을 제공합니다.

4. 실험 결과 (Results)

데이터셋: 13 개의 회귀 벤치마크 데이터셋 (House prices, Bike sharing, Superconductivity 등) 에서 평가.
비교 대상:
- IFlag: Isolation Forest 기반 OOD (Out-of-Distribution) 탐지.
- VARNet: 예측 라벨의 분산 (Label Variance) 기반.
- Locus: 제안된 방법 (BART, MC Dropout 기반).
주요 발견:
- 손실 제어 능력: 동일한 수용률 (Acceptance Rate, 약 70%) 을 유지할 때, Locus 는 기존 방법들 (IFlag, VARNet) 보다 신뢰하는 예측 집합 내에서 허용치 이상의 손실이 발생할 확률 (Conditional Large-Loss Rate) 을 현저히 낮췄습니다.
- 해석 가능성: 분산 기반 점수는 실제 손실 크기와 직접적인 연관이 없음을 보여줍니다. 예를 들어, 분산은 낮지만 모델이 잘못 적합되어 실제 손실이 큰 경우를 Locus 는 정확히 포착하여 플래그했습니다.
- 보정 유효성: 실험 결과, $P(Z \le U_\alpha(X))$ 는 이론적으로 기대된 $1-\alpha$ (예: 90%) 이상을 유지하여 분포 자유 보정이 잘 작동함을 입증했습니다.

5. 의의 및 결론 (Significance)

실무적 가치: 의료, 신용평가, 자율주행 등 고위험 분야에서 "어떤 예측을 신뢰할지"에 대한 정량적이고 해석 가능한 기준을 제공합니다. 단순히 "불확실하다"는 신호가 아니라, "이 예측은 $1000$ 달러 이상의 손실 위험이 10% 미만이다"와 같은 구체적인 정보를 제공합니다.
모델 중립성: 어떤 예측 모델 (딥러닝, 랜덤 포레스트 등) 이든, 해당 모델이 생성한 손실 분포 추정치만 있다면 Locus 래퍼를 적용하여 신뢰도 점수를 생성할 수 있습니다.
이론적 엄밀함: 분포 가정 없이 유한 표본에서 손실 초과 확률을 보장한다는 점은 기존 불확실성 추정 방법론의 주요 약점을 해결한 것입니다.

요약하자면, Locus는 기계학습 모델의 평균 성능이 아닌, **개별 예측의 위험 (실제 손실)**을 직접적으로 측정하고 통제할 수 있는 새로운 패러다임을 제시하며, 안전이 중요한 AI 시스템 배포에 필수적인 도구로 평가됩니다.