Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"데이터 분석의 거인 (XGBoost) 을 이긴 새로운 AI 의 등장"**에 대한 이야기입니다.

기존에 표 형태의 데이터 (예: 나이, 날씨, 거리 등 숫자와 범주로 된 정보) 를 예측할 때는 XGBoost라는 강력한 알고리즘이 압도적으로 잘 작동했습니다. 반면, 최근 화두인 Transformer(ChatGPT 같은 모델의 핵심 기술) 는 이런 표 데이터에서는 XGBoost 를 이기기 힘들었습니다.

이 논문은 "왜 Transformer 가 실패했을까?"를 고민하다가, 단순한 '분류'와 '부드러운 예측'을 섞은 새로운 방법을 찾아냈고, 그 결과 XGBoost 를 능가하는 성과를 냈습니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.

1. 핵심 비유: "주사위 vs 정밀한 눈금자"

기존의 문제점 (Transformer 의 실패)
Transformer 는 원래 "연속된 이야기"를 잘 이해합니다. 하지만 표 데이터는 마치 매우 불규칙한 주사위와 같습니다.

예를 들어, "날씨가 20 도일 때"와 "20.1 도일 때"의 결과가 완전히 다를 수 있습니다.
기존 Transformer 는 이런 불규칙한 데이터 사이를 부드럽게 연결하려다 보니, 오히려 중요한 '경계선'을 놓쳐버렸습니다. (너무 부드럽게 그려서 세밀한 차이를 못 보는 것)

이 논문이 발견한 해결책 (이산화 토큰화)
저자는 "아, Transformer 가 주사위를 잘 못 다루는 건, 주사위를 너무 부드럽게 보려고 해서구나!"라고 깨달았습니다.
그래서 의도적으로 데이터를 '조각'으로 잘라냈습니다.

비유: 20.1 도, 20.2 도를 구분하지 않고, "20 도 대"라는 **하나의 상자 (통)**로 묶어버린 것입니다.
이렇게 하면 Transformer 는 "20 도 대 상자"라는 명확한 규칙을 배우게 되어, XGBoost 가 잘하는 '경계선 찾기'를 흉내 낼 수 있게 됩니다.

2. 새로운 기술: "부드러운 점수 (가우시안 스무딩)"

단순히 통으로 묶으면 너무 딱딱해져서 오차가 생길 수 있습니다. (예: 19.9 도가 20 도 통에 들어가는 건 맞지만, 19.9 도와 20.0 도의 차이를 무시하면 안 되죠.)

이 논문은 가우시안 스무딩이라는 기술을 썼습니다.

비유: 목표 점수가 20 도일 때, 정답을 딱 20 도만 찍는 게 아니라, 20 도를 중심으로 주변 (19.8 도, 20.2 도 등) 에도 조금씩 점수를 주는 것입니다.
마치 포물선 모양의 안개를 뿌려서, 정답 근처일수록 점수를 높게 주고, 멀어질수록 낮게 주는 방식입니다.
이렇게 하면 모델이 "정답은 20 도지만, 19.9 도도 충분히 가능성 있어"라고 유연하게 생각하게 되어 예측이 훨씬 정확해집니다.

3. 시간의 흐름을 읽는 "리듬 토큰"

이 데이터는 마라톤 선수들의 기록입니다. 단순히 "날씨가 좋았다"만 중요한 게 아니라, **"지난 경기가 언제였는가?"**가 매우 중요합니다.

비유: 오늘 달린 기록이 좋다면, 어제 달렸는지, 1 년 전에 달렸는지에 따라 의미가 완전히 다릅니다.
이 모델은 **'시간 간격 (Time Delta)'**이라는 특별한 토큰을 만들어서, "지난 경기와 이번 경기 사이가 2 주다"라는 정보를 언어처럼 입력합니다.
덕분에 모델은 선수의 **리듬 (Cadence)**을 이해하고, 시간이 많이 흘렀을 때의 예측도 정확하게 할 수 있게 되었습니다.

4. 실제 성과: "XGBoost 를 10% 이상 능가하다"

이 모델 (RunTime) 은 60 만 명의 선수 데이터를 학습했습니다.

결과: 기존에 가장 잘하던 XGBoost 보다 오차 (MAE) 가 10.8% 줄었습니다.
속도: 더 정확할 뿐만 아니라, 학습 시간도 더 짧았습니다.
신뢰도: 단순히 "몇 분일 것이다"라고 숫자만 말하는 게 아니라, **"90% 확률로 3 시간 10 분~3 시간 15 분 사이일 것이다"**라는 **확률 분포 (PDF)**를 내놓습니다. 이는 의사결정에 훨씬 유용합니다.

5. 결론: 왜 이것이 중요한가?

이 논문은 **"AI 가 더 복잡해져서 (Transformer) 잘하는 게 아니라, 데이터를 어떻게 '잘게 쪼개고 부드럽게 처리'하느냐가 핵심"**임을 증명했습니다.

기존 생각: "더 큰 모델, 더 많은 데이터"가 답이다.
이 논문의 통찰: "데이터를 **통 (Bin)**으로 나누고, 그 통 사이를 **부드러운 안개 (Gaussian)**로 연결하면, Transformer 도 표 데이터의 왕 (XGBoost) 을 이길 수 있다."

한 줄 요약:

"AI 에게 표 데이터를 가르칠 때, 너무 세밀하게 보지 말고 '통'으로 묶어서 가르치고, 그 사이를 '부드러운 안개'로 채워주면, ChatGPT 같은 모델도 엑셀 데이터 분석의 대가보다 더 똑똑해질 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 표형 데이터 (Tabular Data) 예측 분야에서 여전히 XGBoost 와 같은 그래디언트 부스팅 (Gradient Boosting) 모델이 트랜스포머 (Transformer) 보다 우세한 성능을 보이고 있습니다.
근본 원인: 트랜스포머는 기본적으로 부드러운 함수 근사기 (smooth function approximator) 이지만, 표형 데이터는 축 정렬 분할 (axis-aligned splits) 을 통해 생성된 불규칙한 이산적 결정 경계 (discrete regimes) 를 가집니다. 기존 트랜스포머는 이러한 이산적 패턴을 포착하는 데 어려움을 겪습니다.
목표: 트랜스포머가 표형 데이터에서 그래디언트 부스팅을 능가할 수 있도록 하되, 단순한 점 추정 (point estimate) 이 아닌 보정된 확률 밀도 함수 (Calibrated PDF) 를 출력하여 불확실성을 정량화하는 모델을 개발하는 것입니다.

2. 방법론 (Methodology)

저자는 RunTime이라는 모델을 제안하며, 다음과 같은 핵심 설계 결정을 내렸습니다.

2.1 이산 토큰화 (Discrete Tokenization)

전략: 환경적 맥락 (기온, 습도 등) 과 타겟 값 (페이스) 을 이산적인 빈 (bins) 으로 변환하여 토큰화합니다.
동기: 트랜스포머가 각 빈 내부에 주의를 집중 (attention) 할 수 있게 하여, 나무 기반 모델이 포착하는 '이산적 레짐 (discrete regimes)'을 모방합니다.
구현:
- 환경/페이스: 균형을 맞춘 양분법 (quantile-based) 을 사용하여 빈을 생성하고, 너무 넓은 빈은 재귀적으로 분할합니다.
- 시간 간격 (Time Delta): '지난 경기 후 주수', '목표 경기까지 주수'와 같은 시간 간격은 이산화하지 않고 직접 토큰으로 인코딩하여 모델이 실제 시간적 맥락을 학습하도록 합니다.
- 구조: 각 이벤트 블록은 [환경/인구통계 토큰][페이스 토큰][시간 간격 토큰] 순서로 구성되며, 인과적 (causal) 트랜스포머 아키텍처를 사용합니다.

2.2 가우시안 통합 소프트 타겟 (Gaussian-integrated Soft Targets)

문제: 단순한 원-핫 (one-hot) 인코딩은 순서 (ordinality) 정보를 잃고, 너무 좁은 빈에서는 과적합을 유발할 수 있습니다.
해결: 실제 값 ( $y_{true}$ $y_{t r u e}$ ) 을 중심으로 가우시안 분포를 적용하여 인접한 빈에도 점수를 부여하는 '소프트 타겟'을 사용합니다.
- $T_i = \int_{b_{start}}^{b_{end}} \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-y_{true})^2}{2\sigma^2}\right) dx$

2.3 적응형 스무딩 (Adaptive Smoothing)

핵심 아이디어: 모든 빈에 동일한 $\sigma$ 를 적용하는 대신, 빈의 너비 ( $w_i$ ) 에 따라 스무딩 강도를 동적으로 조절합니다.
공식: $\sigma_i = \sqrt{\sigma_{floor}^2 + (k \cdot w_i)^2}$ $σ_{i} = σ_{f l oor}^{2} + (k \cdot w_{i})^{2}$
- 좁은 빈 (1~3 초) 은 날카로운 분포를 유지하고, 넓은 빈은 비례적으로 더 많은 질량을 받도록 합니다.
- 이는 이질적인 빈 폭을 가진 표형 데이터의 특성에 맞춰 보정 (calibration) 을 안정화시킵니다.

2.4 평가 설정 (Entity-Disjoint Split)

데이터는 60 만 명의 주자를 기준으로 학습/검증/테스트 세트로 나뉘며, 단 한 명의 주자도 세트를 공유하지 않습니다. 이는 모델이 특정 개인을 암기하는 것이 아니라, 보지 못한 주자에게 일반화하는 능력을 평가하기 위함입니다.

3. 주요 기여 (Key Contributions)

아키텍처 통찰: 더 큰 트랜스포머 모델이 아니라, 이산적 레짐을 명시적으로 표현하는 토큰화가 표형 데이터 성능을 unlocking 한다는 것을 증명했습니다.
적응형 가우시안 스무딩: 빈 너비에 비례하여 스무딩 강도를 조절하는 새로운 기법을 도입하여, 이질적인 타겟 분포에서도 우수한 보정 성능을 달성했습니다.
실증적 우위: 튜닝된 XGBoost 대비 중앙값 MAE 에서 10.8% 개선 (35.94s vs 40.31s) 을 달성했습니다.
보정 분석 방법론: 전역 지표뿐만 아니라 **층화 보정 분석 (stratified calibration)**을 통해 잔류 오차를 진단하는 방법론을 제시했습니다.
시퀀스 인식 모델링: 시간 간격 토큰을 명시적으로 포함하여 불규칙한 시간 간격을 가진 시계열 데이터를 효과적으로 처리했습니다.

4. 실험 결과 (Results)

성능 비교 (테스트 세트 50 만 개 예측):
- RunTime (Full Model): 중앙값 MAE 35.94 초, KS 통계량 0.0045 (매우 높은 보정 수준).
- Tuned XGBoost: 중앙값 MAE 40.31 초.
- Riegel 공식 (물리 기반): 중앙값 MAE 49.74 초.
- 결과: RunTime 은 XGBoost 대비 약 10.8% 더 정확하며, 물리 기반 모델 대비 약 30% 개선되었습니다.
보정 (Calibration):
- 적응형 $\sigma$ 를 최적화한 체크포인트는 KS 통계량이 0.0045 로, 예측 분포가 실제 분포와 거의 일치함을 보여줍니다.
- 사후 온도 스케일링 (post-hoc temperature scaling) 없이 학습 중 보정이 이루어졌습니다.
Ablation Study (모델 구성 요소 분석):
- 시간 간격 토큰 제거: 중앙값 MAE 약 1.8% 증가 (35.94s → 36.58s).
- 순서 무작위화 (Shuffling): 중앙값 MAE 약 2.0% 증가 (35.94s → 36.65s). 이는 시간적 순서가 패턴 학습에 필수적임을 의미합니다.
- 수렴 속도: 시간 간격 토큰이 있을 때 학습 수렴이 훨씬 빨랐습니다 (60 시간 vs 107 시간).

5. 의의 및 결론 (Significance & Conclusion)

트랜스포머의 표형 데이터 적용 가능성 입증: 트랜스포머가 표형 데이터에서도 XGBoost 를 능가할 수 있음을 보여주었으며, 그 핵심은 "더 큰 모델"이 아닌 "적절한 이산화 (Discretization)"에 있음을 규명했습니다.
불확실성 정량화: 단순한 점 예측이 아닌, 보정된 확률 분포 (PDF) 를 제공함으로써 의사결정 시 불확실성을 고려할 수 있게 합니다.
확장성: 이 방법론은 마라톤 기록 예측을 넘어, 이질적인 빈 폭을 가진 모든 순서 회귀 (ordinal regression) 문제나 불규칙한 시계열 데이터에 적용 가능합니다.
미래 작업: 입력 토큰화에도 적응형 가우시안을 적용하여 엔드 - 투 - 엔드 학습을 가능하게 하거나, 생존 분석 (Survival Analysis) 및 생성적 시뮬레이션 (Generative Simulation) 으로 확장할 수 있는 가능성을 제시했습니다.

이 논문은 트랜스포머 아키텍처를 표형 데이터에 성공적으로 적응시키기 위한 새로운 패러다임 (이산 토큰화 + 적응형 스무딩) 을 제시하며, 기존 그래디언트 부스팅 모델의 독주를 깨뜨릴 수 있는 강력한 대안을 제시합니다.