Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

이 논문은 의도적으로 단순화된 이산 토큰화 기법과 적응형 가우시안 평활화를 결합하여 트랜스포머가 기존 그라디언트 부스팅보다 탁월한 보정된 확률 밀도 함수 예측 성능을 달성할 수 있음을 입증합니다.

Yael S. Elmatad

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"데이터 분석의 거인 (XGBoost) 을 이긴 새로운 AI 의 등장"**에 대한 이야기입니다.

기존에 표 형태의 데이터 (예: 나이, 날씨, 거리 등 숫자와 범주로 된 정보) 를 예측할 때는 XGBoost라는 강력한 알고리즘이 압도적으로 잘 작동했습니다. 반면, 최근 화두인 Transformer(ChatGPT 같은 모델의 핵심 기술) 는 이런 표 데이터에서는 XGBoost 를 이기기 힘들었습니다.

이 논문은 "왜 Transformer 가 실패했을까?"를 고민하다가, 단순한 '분류'와 '부드러운 예측'을 섞은 새로운 방법을 찾아냈고, 그 결과 XGBoost 를 능가하는 성과를 냈습니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.


1. 핵심 비유: "주사위 vs 정밀한 눈금자"

기존의 문제점 (Transformer 의 실패)
Transformer 는 원래 "연속된 이야기"를 잘 이해합니다. 하지만 표 데이터는 마치 매우 불규칙한 주사위와 같습니다.

  • 예를 들어, "날씨가 20 도일 때"와 "20.1 도일 때"의 결과가 완전히 다를 수 있습니다.
  • 기존 Transformer 는 이런 불규칙한 데이터 사이를 부드럽게 연결하려다 보니, 오히려 중요한 '경계선'을 놓쳐버렸습니다. (너무 부드럽게 그려서 세밀한 차이를 못 보는 것)

이 논문이 발견한 해결책 (이산화 토큰화)
저자는 "아, Transformer 가 주사위를 잘 못 다루는 건, 주사위를 너무 부드럽게 보려고 해서구나!"라고 깨달았습니다.
그래서 의도적으로 데이터를 '조각'으로 잘라냈습니다.

  • 비유: 20.1 도, 20.2 도를 구분하지 않고, "20 도 대"라는 **하나의 상자 (통)**로 묶어버린 것입니다.
  • 이렇게 하면 Transformer 는 "20 도 대 상자"라는 명확한 규칙을 배우게 되어, XGBoost 가 잘하는 '경계선 찾기'를 흉내 낼 수 있게 됩니다.

2. 새로운 기술: "부드러운 점수 (가우시안 스무딩)"

단순히 통으로 묶으면 너무 딱딱해져서 오차가 생길 수 있습니다. (예: 19.9 도가 20 도 통에 들어가는 건 맞지만, 19.9 도와 20.0 도의 차이를 무시하면 안 되죠.)

이 논문은 가우시안 스무딩이라는 기술을 썼습니다.

  • 비유: 목표 점수가 20 도일 때, 정답을 딱 20 도만 찍는 게 아니라, 20 도를 중심으로 주변 (19.8 도, 20.2 도 등) 에도 조금씩 점수를 주는 것입니다.
  • 마치 포물선 모양의 안개를 뿌려서, 정답 근처일수록 점수를 높게 주고, 멀어질수록 낮게 주는 방식입니다.
  • 이렇게 하면 모델이 "정답은 20 도지만, 19.9 도도 충분히 가능성 있어"라고 유연하게 생각하게 되어 예측이 훨씬 정확해집니다.

3. 시간의 흐름을 읽는 "리듬 토큰"

이 데이터는 마라톤 선수들의 기록입니다. 단순히 "날씨가 좋았다"만 중요한 게 아니라, **"지난 경기가 언제였는가?"**가 매우 중요합니다.

  • 비유: 오늘 달린 기록이 좋다면, 어제 달렸는지, 1 년 전에 달렸는지에 따라 의미가 완전히 다릅니다.
  • 이 모델은 **'시간 간격 (Time Delta)'**이라는 특별한 토큰을 만들어서, "지난 경기와 이번 경기 사이가 2 주다"라는 정보를 언어처럼 입력합니다.
  • 덕분에 모델은 선수의 **리듬 (Cadence)**을 이해하고, 시간이 많이 흘렀을 때의 예측도 정확하게 할 수 있게 되었습니다.

4. 실제 성과: "XGBoost 를 10% 이상 능가하다"

이 모델 (RunTime) 은 60 만 명의 선수 데이터를 학습했습니다.

  • 결과: 기존에 가장 잘하던 XGBoost 보다 오차 (MAE) 가 10.8% 줄었습니다.
  • 속도: 더 정확할 뿐만 아니라, 학습 시간도 더 짧았습니다.
  • 신뢰도: 단순히 "몇 분일 것이다"라고 숫자만 말하는 게 아니라, **"90% 확률로 3 시간 10 분~3 시간 15 분 사이일 것이다"**라는 **확률 분포 (PDF)**를 내놓습니다. 이는 의사결정에 훨씬 유용합니다.

5. 결론: 왜 이것이 중요한가?

이 논문은 **"AI 가 더 복잡해져서 (Transformer) 잘하는 게 아니라, 데이터를 어떻게 '잘게 쪼개고 부드럽게 처리'하느냐가 핵심"**임을 증명했습니다.

  • 기존 생각: "더 큰 모델, 더 많은 데이터"가 답이다.
  • 이 논문의 통찰: "데이터를 **통 (Bin)**으로 나누고, 그 통 사이를 **부드러운 안개 (Gaussian)**로 연결하면, Transformer 도 표 데이터의 왕 (XGBoost) 을 이길 수 있다."

한 줄 요약:

"AI 에게 표 데이터를 가르칠 때, 너무 세밀하게 보지 말고 '통'으로 묶어서 가르치고, 그 사이를 '부드러운 안개'로 채워주면, ChatGPT 같은 모델도 엑셀 데이터 분석의 대가보다 더 똑똑해질 수 있습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →