Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

1. 기존의 방식: "점 찍기" (Point Estimate)

과거의 데이터 예측 모델들은 마치 날씨 예보관이 "내일 기온은 20 도입니다"라고 딱 하나만 말해주는 것과 같았습니다.

문제점: 만약 내일 기온이 20 도가 아니라 10 도일 수도 있고 30 도일 수도 있다면? 20 도라는 숫자 하나만으로는 그 위험을 알 수 없습니다.
현실: 많은 AI 모델 (특히 TabPFN 같은 최신 모델들) 이 이제 "내일 기온은 20 도일 확률이 50%, 10 도일 확률이 30%, 30 도일 확률이 20% 입니다"라고 **분포 (히스토그램)**를 예측할 수 있게 되었습니다. 이는 훨씬 더 똑똑한 접근입니다.

2. 하지만 평가 기준이 잘못되었습니다!

이제 AI 가 "확률 분포"를 예측할 수 있게 되었으니, 우리가 그 성능을 어떻게 평가할지 고민해야 합니다.

기존의 잘못된 평가: "예측한 평균값이 실제 값과 얼마나 가까운가?" (예: 예측 20 도 vs 실제 22 도 = 오차 2 도).
논문의 주장: 이건 마치 주사위를 던졌을 때, "다음에 나올 숫자는 3.5 입니다"라고 말하는 것과 같습니다. 3.5 는 평균값이지만, 주사위에서는 절대 나올 수 없는 숫자죠!
- 만약 어떤 일이 '두 개의 봉우리'를 가진 복잡한 형태 (예: 비가 오거나 안 오거나, 중간은 안 오거나) 라면, 평균값은 현실과 전혀 동떨어진 엉뚱한 숫자가 될 수 있습니다.

3. 새로운 해결책: "맞춤형 채점 규칙" (Proper Scoring Rules)

논문은 AI 를 평가할 때, 단순히 평균 오차만 보는 게 아니라 **"예측한 확률 분포가 실제 상황과 얼마나 잘 맞는지"**를 평가하는 전문적인 채점 규칙을 써야 한다고 말합니다.

이를 위해 두 가지 주요 도구를 소개합니다:

CRPS (연속 순위 확률 점수): 예측한 분포가 실제 데이터의 모양 (모양, 폭, 위치) 을 얼마나 잘 흉내 냈는지 전체적으로 평가하는 '만능 자' 같은 도구입니다.
CRLS (로그 점수): 아주 드문 사건 (꼬리 부분) 이 얼마나 정확하게 예측되었는지 평가하는 도구입니다.

비유:

기존 방식: "공을 던져서 목표물에서 얼마나 멀리 떨어졌나?" (거리만 재기).
새로운 방식: "공이 목표물 주변에 어떻게 퍼져 있는가? 목표물 바로 옆에 모여 있는가, 아니면 멀리 흩어져 있는가?" (분포의 질을 재기).

4. 중요한 발견: "채점 규칙에 따라 우승자가 바뀐다"

이 논문에서 가장 놀라운 점은, 어떤 채점 규칙을 쓰느냐에 따라 가장 잘하는 AI 모델이 달라진다는 것입니다.

비유: 축구 경기에서 "득점왕"을 뽑는다고 해봅시다.
- 규칙 A: "공을 가장 많이 찬 사람"을 뽑으면, 수비수가 공을 많이 찬 수비수가 1 위가 될 수 있습니다.
- 규칙 B: "골을 가장 많이 넣은 사람"을 뽑으면, 공격수가 1 위가 됩니다.
- 결론: 두 규칙 모두 '공을 잘 다루는 사람'을 찾는 건 맞지만, 우승자 (최적 모델) 는 규칙에 따라 완전히 달라집니다.

논문은 AI 모델을 훈련시킬 때 어떤 '채점 규칙'을 쓰느냐에 따라 AI 가 배우는 성향 (편향) 이 달라진다고 말합니다.

CRPS 로 훈련하면: 전체적인 분포를 잘 맞추는 AI 가 됩니다.
로그 점수로 훈련하면: 드문 사건을 잘 맞추는 AI 가 됩니다.

5. 결론 및 제안: "맞춤형 AI"가 필요하다

이제 우리는 AI 를 단순히 "평균을 잘 맞추는 기계"로만 쓰지 말아야 합니다.

비즈니스 상황마다 다른 규칙이 필요합니다:
- 재해 예측: "큰 재해가 날 확률"을 과소평가하면 안 되므로, 꼬리 부분을 중요하게 여기는 채점 규칙이 필요합니다.
- 일상적인 판매 예측: 전체적인 평균 흐름이 중요하므로 다른 규칙이 필요합니다.

요약하자면:
이 논문은 "AI 가 확률 분포를 예측할 수 있게 되었으니, 이제 우리는 단순한 숫자 맞추기 게임을 멈추고, 상황에 맞는 전문적인 채점 규칙으로 AI 를 평가하고 훈련시켜야 한다"고 외치고 있습니다. 그래야만 AI 가 실제 비즈니스나 생활에서 더 똑똑하고 유용한 결정을 내릴 수 있게 됩니다.

한 줄 요약:

"예측의 정확도를 잴 때, 단순히 '숫자 하나'의 오차만 보면 안 되고, '전체적인 확률 모양'이 얼마나 잘 맞는지 평가하는 전문적인 채점 도구를 써야 진짜 똑똑한 AI 를 만들 수 있다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

현재의 한계: TabPFN, TabICL 과 같은 사전 데이터 적합 네트워크 (PFN) 기반의 표본 학습 (Tabular Learning) 모델은 분류 및 회귀 분야에서 기존 경향성 기반 모델 (Gradient Boosted Models) 을 능가하는 성능을 보여주고 있습니다. 그러나 현재 존재하는 벤치마크 (TabArena, TALENT 등) 는 주로 **점 추정 (Point Estimate)**인 평균 제곱 오차 (MSE) 나 결정 계수 ( $R^2$ ) 와 같은 지표를 사용하여 성능을 평가합니다.
핵심 문제: 이러한 평가 방식은 모델이 단순히 '평균값'을 얼마나 잘 예측하는지에만 초점을 맞추고 있습니다. 이는 확률적 예측 (Probabilistic Forecasting) 의 본질인 **불확실성 (Aleatoric Uncertainty)**을 무시합니다. 특히, 목표 변수가 다중 모드 (Multi-modal) 분포를 가지는 경우, 평균값은 실제 관측치가 존재하지 않는 영역에 위치할 수 있어 실용적 가치가 떨어질 수 있습니다.
필요성: 분산 회귀 (Distributional Regression) 를 수행하는 모델의 성능을 평가하기 위해서는 점 추정치가 아닌 전체 확률 분포의 정확성을 측정할 수 있는 **적합한 스코어링 규칙 (Proper Scoring Rules)**이 벤치마크에 도입되어야 합니다.

2. 방법론 (Methodology)

적합한 스코어링 규칙 (Proper Scoring Rules) 의 적용:
- 논문은 예측 분포가 실제 분포와 일치할 때 기대 스코어가 최소화되는 'Strictly Proper Scoring Rules'를 도입할 것을 제안합니다.
- CRPS (Continuous Ranked Probability Score): 분포의 전체적인 형태와 위치를 고려하며, 예측값과 실제값 간의 거리를 고려하여 점수화합니다. 이는 이진 분류의 Cross-Entropy 와 달리 회귀 문제의 순서적 특성을 반영합니다.
- CRLS (Continuous Ranked Logarithmic Score): 로그 스코어의 연속적 버전으로, 꼬리 (Tail) 영역의 민감도를 다르게 조절할 수 있습니다.
- Beta Energy Score: $\beta$ 파라미터를 통해 평균 절대 오차 ( $\beta=1$ ) 와 평균 제곱 오차 ( $\beta=2$ ) 사이의 균형을 조절할 수 있는 에너지 점수 계열을 사용합니다.
실험 설계:
- 모델: realTabPFNv2.5 와 TabICLv2 를 대상으로 실험 수행.
- 데이터: OpenML 의 다양한 회귀 데이터셋 (3000 개 샘플로 무작위 하위 표본 추출) 을 사용.
- 평가 방식: 5-fold 교차 검증을 수행하며, 베이스라인 모델 (realTabPFNv2.5) 과 미세 조정 (Fine-tuning) 된 모델 또는 TabICLv2 를 비교합니다.
- 지표: MAE, RMSE, $R^2$ 뿐만 아니라 CRPS, CRLS, Interval Score 등 확률적 예측 지표를 함께 보고합니다.

3. 주요 기여 (Key Contributions)

벤치마크 개선 제안: 표본 학습 회귀 벤치마크에 점 추정 지표뿐만 아니라 CRPS를 포함한 확률적 회귀 지표를 필수적으로 포함할 것을 강력히 주장합니다.
실제 모델 평가: realTabPFNv2.5 와 TabICLv2 에 대한 최초의 적합 스코어링 규칙 (CRPS, Beta Energy Score) 기반 평가 결과를 제공합니다.
미세 조정 (Fine-tuning) 효과 입증: 사전 학습 (Pre-training) 시 사용된 손실 함수와 다른 스코어링 규칙 (예: Beta Energy Score, CRLS) 으로 미세 조정할 경우, 유한한 샘플 수 (Finite-sample) 에서 모델 성능이 향상됨을 보여줍니다.
스코어링 규칙의 선택이 유도 편향 (Inductive Bias) 에 미치는 영향 규명:
- 서로 다른 스코어링 규칙은 서로 다른 오류 유형에 다른 페널티를 부과하므로, 최적의 예측 모델이 달라질 수 있음을 이론적 및 실증적으로 증명합니다.
- 특히 $\beta$ -Energy Score 에서 $\beta$ 값에 따라 최적 예측이 중앙값 (Median) 이나 평균 (Mean) 으로 달라지는 것을 분석했습니다.
미래 방향 제시: 특정 비즈니스 목적 (예: 금융, 제약) 에 맞는 비대칭적 위험 구조를 반영하기 위해, 사용자 정의 스코어링 규칙에 적응 가능한 모델 (Promptable 또는 Fine-tuning) 의 필요성을 논의합니다.

4. 실험 결과 (Results)

미세 조정의 효과:
- realTabPFNv2.5 를 Beta Energy Score ( $\beta=1.8$ ) 또는 CRLS로 미세 조정했을 때, 대부분의 데이터셋에서 MAE, RMSE, CRPS 등 모든 지표에서 베이스라인 대비 개선 (평균 약 1~4% 향상) 을 보였습니다.
- 특히 Mercedes Benz, Pol, NYC Taxi 데이터셋에서 두드러진 성능 향상을 기록했습니다.
모델 간 비교 (TabICLv2 vs realTabPFNv2.5):
- TabICLv2는 realTabPFNv2.5 보다 CRPS, CRLS, Interval Score 측면에서 전반적으로 우수한 성능을 보였습니다.
- TabICLv2 는 확률적 분포를 더 잘 포착하는 것으로 보이며, 특히 Digits, Mercedes Benz 등에서 큰 격차를 보였습니다.
스코어링 규칙에 따른 모델 순위 변화:
- 토이 모델 (Toy Model) 실험을 통해, 동일한 데이터셋과 아키텍처라도 사용된 스코어링 규칙 (손실 함수) 에 따라 최적의 모델 순위가 달라질 수 있음을 확인했습니다.
- 이는 "어떤 손실 함수를 사용하느냐"가 모델의 학습 방향 (Inductive Bias) 을 결정하며, 이는 유한한 샘플 환경에서 중요한 요소임을 시사합니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 기계 학습 커뮤니티가 단순한 점 추정 (Mean/Median) 에서 전체 확률 분포 예측으로 평가 기준을 전환해야 함을 강조합니다.
실무적 함의: 비즈니스 의사결정 (예: 금융 리스크 관리, 재고 관리) 에서는 평균값보다 분포의 꼬리나 특정 구간 (Quantile) 의 정확도가 중요할 수 있습니다. 따라서 모델 개발 시 사용자의 목적에 맞는 스코어링 규칙을 선택하거나, 이를 반영한 미세 조정이 필수적입니다.
향후 과제: 일반 목적의 기초 모델 (Foundation Model) 을 사전 학습한 후, 특정 사용자의 스코어링 규칙 (비대칭적 위험 등) 에 맞춰 적응시키는 방법 (Prompting 또는 Fine-tuning) 에 대한 연구가 필요함을 제기합니다.

요약하자면, 이 논문은 TabPFN 과 같은 최신 표본 학습 모델이 가진 확률적 예측 능력을 제대로 평가하고 활용하기 위해서는 기존의 MSE/ $R^2$ 중심의 벤치마크를 탈피하여 CRPS 와 같은 적합 스코어링 규칙을 도입하고, 이를 통해 모델의 유도 편향을 제어할 수 있어야 함을 주장합니다.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

1. 기존의 방식: "점 찍기" (Point Estimate)

2. 하지만 평가 기준이 잘못되었습니다!

3. 새로운 해결책: "맞춤형 채점 규칙" (Proper Scoring Rules)

4. 중요한 발견: "채점 규칙에 따라 우승자가 바뀐다"

5. 결론 및 제안: "맞춤형 AI"가 필요하다

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression