Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

이 논문은 현재 TabPFN 과 같은 표본 기반 모델의 회귀 평가가 평균값 예측에 치중되어 있다는 한계를 지적하고, 확률적 회귀의 품질을 평가하기 위해 적절한 스코어링 규칙 (특히 CRPS) 을 도입하고 모델의 유도 편향을 고려한 파인튜닝 또는 프롬프트 기반 접근의 필요성을 주장합니다.

Jonas Landsgesell, Pascal Knoll

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존의 방식: "점 찍기" (Point Estimate)

과거의 데이터 예측 모델들은 마치 날씨 예보관이 "내일 기온은 20 도입니다"라고 딱 하나만 말해주는 것과 같았습니다.

  • 문제점: 만약 내일 기온이 20 도가 아니라 10 도일 수도 있고 30 도일 수도 있다면? 20 도라는 숫자 하나만으로는 그 위험을 알 수 없습니다.
  • 현실: 많은 AI 모델 (특히 TabPFN 같은 최신 모델들) 이 이제 "내일 기온은 20 도일 확률이 50%, 10 도일 확률이 30%, 30 도일 확률이 20% 입니다"라고 **분포 (히스토그램)**를 예측할 수 있게 되었습니다. 이는 훨씬 더 똑똑한 접근입니다.

2. 하지만 평가 기준이 잘못되었습니다!

이제 AI 가 "확률 분포"를 예측할 수 있게 되었으니, 우리가 그 성능을 어떻게 평가할지 고민해야 합니다.

  • 기존의 잘못된 평가: "예측한 평균값이 실제 값과 얼마나 가까운가?" (예: 예측 20 도 vs 실제 22 도 = 오차 2 도).
  • 논문의 주장: 이건 마치 주사위를 던졌을 때, "다음에 나올 숫자는 3.5 입니다"라고 말하는 것과 같습니다. 3.5 는 평균값이지만, 주사위에서는 절대 나올 수 없는 숫자죠!
    • 만약 어떤 일이 '두 개의 봉우리'를 가진 복잡한 형태 (예: 비가 오거나 안 오거나, 중간은 안 오거나) 라면, 평균값은 현실과 전혀 동떨어진 엉뚱한 숫자가 될 수 있습니다.

3. 새로운 해결책: "맞춤형 채점 규칙" (Proper Scoring Rules)

논문은 AI 를 평가할 때, 단순히 평균 오차만 보는 게 아니라 **"예측한 확률 분포가 실제 상황과 얼마나 잘 맞는지"**를 평가하는 전문적인 채점 규칙을 써야 한다고 말합니다.

이를 위해 두 가지 주요 도구를 소개합니다:

  1. CRPS (연속 순위 확률 점수): 예측한 분포가 실제 데이터의 모양 (모양, 폭, 위치) 을 얼마나 잘 흉내 냈는지 전체적으로 평가하는 '만능 자' 같은 도구입니다.
  2. CRLS (로그 점수): 아주 드문 사건 (꼬리 부분) 이 얼마나 정확하게 예측되었는지 평가하는 도구입니다.

비유:

  • 기존 방식: "공을 던져서 목표물에서 얼마나 멀리 떨어졌나?" (거리만 재기).
  • 새로운 방식: "공이 목표물 주변에 어떻게 퍼져 있는가? 목표물 바로 옆에 모여 있는가, 아니면 멀리 흩어져 있는가?" (분포의 질을 재기).

4. 중요한 발견: "채점 규칙에 따라 우승자가 바뀐다"

이 논문에서 가장 놀라운 점은, 어떤 채점 규칙을 쓰느냐에 따라 가장 잘하는 AI 모델이 달라진다는 것입니다.

  • 비유: 축구 경기에서 "득점왕"을 뽑는다고 해봅시다.
    • 규칙 A: "공을 가장 많이 찬 사람"을 뽑으면, 수비수가 공을 많이 찬 수비수가 1 위가 될 수 있습니다.
    • 규칙 B: "골을 가장 많이 넣은 사람"을 뽑으면, 공격수가 1 위가 됩니다.
    • 결론: 두 규칙 모두 '공을 잘 다루는 사람'을 찾는 건 맞지만, 우승자 (최적 모델) 는 규칙에 따라 완전히 달라집니다.

논문은 AI 모델을 훈련시킬 때 어떤 '채점 규칙'을 쓰느냐에 따라 AI 가 배우는 성향 (편향) 이 달라진다고 말합니다.

  • CRPS 로 훈련하면: 전체적인 분포를 잘 맞추는 AI 가 됩니다.
  • 로그 점수로 훈련하면: 드문 사건을 잘 맞추는 AI 가 됩니다.

5. 결론 및 제안: "맞춤형 AI"가 필요하다

이제 우리는 AI 를 단순히 "평균을 잘 맞추는 기계"로만 쓰지 말아야 합니다.

  • 비즈니스 상황마다 다른 규칙이 필요합니다:
    • 재해 예측: "큰 재해가 날 확률"을 과소평가하면 안 되므로, 꼬리 부분을 중요하게 여기는 채점 규칙이 필요합니다.
    • 일상적인 판매 예측: 전체적인 평균 흐름이 중요하므로 다른 규칙이 필요합니다.

요약하자면:
이 논문은 "AI 가 확률 분포를 예측할 수 있게 되었으니, 이제 우리는 단순한 숫자 맞추기 게임을 멈추고, 상황에 맞는 전문적인 채점 규칙으로 AI 를 평가하고 훈련시켜야 한다"고 외치고 있습니다. 그래야만 AI 가 실제 비즈니스나 생활에서 더 똑똑하고 유용한 결정을 내릴 수 있게 됩니다.


한 줄 요약:

"예측의 정확도를 잴 때, 단순히 '숫자 하나'의 오차만 보면 안 되고, '전체적인 확률 모양'이 얼마나 잘 맞는지 평가하는 전문적인 채점 도구를 써야 진짜 똑똑한 AI 를 만들 수 있다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →