Forecast collapse of transformer-based models under squared loss in financial time series

Each language version is independently generated for its own context, not a direct translation.

📉 핵심 메시지: "복잡한 머리가 오히려 방해가 된다"

1. 상황 설정: "예측 가능한 날씨" vs "예측 불가능한 주사위"

이 논문의 핵심은 데이터의 성질에 따라 AI 의 역할이 완전히 달라진다는 점입니다.

성공하는 경우 (전력 사용량, 교통량):
- 비유: 내일 아침 7 시에 출근길 교통량이 얼마나 될지 예측하는 상황입니다.
- 특징: 매일 아침 7 시는 출근 시간이라 차가 많고, 주말은 적습니다. 이런 **뚜렷한 패턴 (구조)**이 있습니다.
- AI 의 역할: AI 는 과거 데이터를 보고 "아, 월요일 아침 7 시엔 항상 막히네"라고 학습합니다. 복잡한 AI 일수록 이 패턴을 더 정교하게 찾아내서 예측이 정확해집니다.
실패하는 경우 (주식, 환율):
- 비유: 다음 1 분 뒤 주가가 오를지 내릴지 예측하는 상황입니다.
- 특징: 금융 시장은 **'효율적 시장 가설'**에 따라, 과거 데이터로 미래 가격을 예측하는 것은 사실상 주사위를 던지는 것과 같습니다. (오늘의 가격이 내일의 가격을 결정하지 않음)
- 현실: 미래는 현재 가격과 거의 같거나 (가격), 변동폭은 0 (수익률) 이어야 하는 것이 수학적으로 '가장 합리적인' 예측입니다.

2. 문제의 원인: "소음 (Noise) 을 패턴으로 착각하다"

여기서부터가 이 논문의 핵심입니다.

단순한 모델 (선형 회귀):
- 비유: "내일 주가는 오늘과 똑같을 거야"라고 말하는 바보 같은 친구입니다.
- 행동: 이 친구는 데이터의 잡음 (소음) 을 무시하고, 가장 안전한 답 (오늘 가격 = 내일 가격) 을 말합니다.
- 결과: 금융 시장의 본질 (무작위성) 을 잘 반영하므로, 실수가 적습니다.
복잡한 모델 (트랜스포머/AI):
- 비유: 모든 것을 기억하고 분석하려는 천재적인 탐정입니다.
- 행동: 이 탐정은 과거 데이터를 보면, "아! 3 일 전 10 시 2 분에 주가가 0.01% 올랐을 때, 5 분 뒤에 0.02% 올랐어! 이 패턴이 중요해!"라고 무의미한 잡음 (소음) 을 패턴으로 착각합니다.
- 결과: AI 는 진짜 패턴이 없는데도, 잡음까지 패턴으로 만들어서 예측합니다. 이를 **'잡음의 재사용 (Noise Reuse)'**이라고 합니다.
- 붕괴: AI 가 예측한 값은 "오늘 가격"이라는 정답 주위에서 불필요하게 요동치기만 합니다. 예측이 0 이 아니라, 0 주변에서 무작위로 흔들리는 것입니다.

3. 결론: "더 똑똑해질수록 더 엉망이 된다"

논문은 다음과 같은 역설을 지적합니다.

"금융 시장처럼 예측할 수 없는 (잡음이 많은) 데이터에서는, 모델이 더 똑똑해질수록 (복잡해질수록) 오히려 예측 오차가 커진다."

왜? 복잡한 모델은 잡음까지 학습하려 하기 때문입니다.
비유: 소음이 가득한 방에서 "조용히 해"라고 외치는 것 (단순 모델) 이, "소음의 패턴을 분석해서 소음을 제거하자"라고 복잡한 장비를 가동하는 것 (복잡한 AI) 보다 더 조용한 결과를 낳는 것과 같습니다.

4. 실험 결과 (유로/달러 환율 데이터)

저자는 실제 유로/달러 환율 데이터를 가지고 실험했습니다.

결과: 최신 AI 모델 (PatchTST) 은 단순한 선형 모델보다 약 1.7 배 더 큰 오차를 보였습니다.
의미: AI 가 예측한 값은 단순한 "오늘 가격 유지"보다 훨씬 더 많이 흔들렸고, 그 흔들림이 오차의 원인이 되었습니다.

💡 요약 및 교훈

이 논문은 **"AI 가 무조건 좋다는 말은 아니다"**라고 경고합니다.

패턴이 있는 곳 (날씨, 교통): AI 는 천재입니다. 복잡한 구조를 찾아내서 예측을 잘합니다.
패턴이 없는 곳 (주식, 환율): AI 는 바보가 됩니다. 잡음을 패턴으로 착각해서 예측을 망칩니다.
해결책: 금융 예측을 위해 더 복잡한 AI 를 만드는 것은 시간 낭비입니다. 대신 **"무엇을 예측할지 (예: 가격 자체가 아니라 확률 분포)"**나 **"어떤 목표를 설정할지"**를 다시 생각해야 합니다.

한 줄 요약:

"주식 시장은 주사위 게임인데, AI 는 그 주사위 굴러가는 소리를 분석해서 '내일은 6 이 나올 거야'라고 너무 열심히 예측하다가, 단순한 '오늘과 똑같을 거야'라는 말보다 더 엉뚱한 답을 내놓고 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: Transformer 아키텍처 (Informer, Autoformer, PatchTST 등) 는 전력 수요, 교통 흐름 등 구조화된 시계열 데이터에서 장기 예측에 탁월한 성능을 보입니다. 그러나 금융 시계열 (주가, 환율 등) 에 적용할 때는 성능이 급격히 저하되거나, 가격 예측은 최근 값에 수렴하고 수익률 예측은 0 에 수렴하는 등 사실상 무의미한 (trivial) 예측을 생성하는 경향이 있습니다.
기존 설명의 한계: 기존 연구들은 이를 낮은 신호 대 잡음비 (SNR), 비정상성, 데이터 부족, 또는 최적화의 어려움으로 설명했으나, 더 복잡한 모델이나 더 큰 데이터로 해결될 수 있다는 가정을 내포했습니다.
핵심 질문: 왜 표현력 (expressivity) 이 높은 Transformer 모델들은 금융 데이터에서 오히려 성능이 떨어지는가?

2. 방법론 및 이론적 프레임워크 (Methodology & Theoretical Framework)

저자는 시계열 예측을 경로 대 경로 (trajectory-to-trajectory) 학습 문제로 정의하고, 경험적 위험 최소화 (Empirical Risk Minimization, ERM) 관점에서 분석합니다.

A. 수학적 설정

입력/출력: 과거 $L$ 개의 관측치 $X^{(L)}_t$ 를 입력으로 받아 미래 $H$ 개의 경로 $Y^{(H)}_t$ 를 예측합니다.
손실 함수: 경로 수준의 제곱 오차 (Mean Squared Error, MSE) 를 사용합니다.
$\ell(Y, \hat{Y}) = \| Y - \hat{Y} \|^2_2$
베이지안 최적 예측자 (Bayes-optimal Predictor): 제곱 손실 하에서 위험 (Risk) 을 최소화하는 예측자는 조건부 기댓값 (Conditional Mean) 입니다.
$f^*(X^{(L)}_t) = \mathbb{E}[Y^{(H)}_t \mid \mathcal{F}_t]$

B. 핵심 이론적 통찰: 예측 붕괴의 메커니즘

구조화된 데이터 vs 금융 데이터:
- 구조화된 데이터 (전력, 교통 등): 미래 경로가 과거에 의존하는 결정론적 구조 (계절성, 추세) 를 가짐. 조건부 기댓값이 의미 있는 정보를 포함하므로, 모델이 복잡해질수록 이 구조를 더 잘 학습하여 성능이 향상됨.
- 금융 데이터: 효율적 시장 가설 (Efficient Market Hypothesis) 에 기반하여, 가격 변화는 예측 불가능한 무작위 보행 (Random Walk) 또는 마팅게일 (Martingale) 특성을 가짐. 즉, $\mathbb{E}[X_{t+1} \mid \mathcal{F}_t] = X_t$ (가격) 또는 $\mathbb{E}[R_{t+1} \mid \mathcal{F}_t] = 0$ (수익률).
- 결과: 금융 데이터에서 조건부 기댓값은 퇴화 (degenerate) 되어 있습니다. 최적 예측자는 가격의 경우 "현재 가격과 동일한 평평한 선", 수익률의 경우 "0"입니다.
고표현력 모델의 실패 메커니즘:
- 모델이 충분히 표현력이 높고 (interpolating predictors), ERM 으로 훈련될 때, 최적 예측자가 단순한 상수 (flat/zero) 인 경우, 모델은 신호를 학습하는 것이 아니라 훈련 데이터의 잡음 (noise) 을 재사용 (reuse) 하게 됩니다.
- 이로 인해 예측값은 최적 예측자 (평평한 선) 주위에 ** spurrious trajectory fluctuations (허위 경로 변동)** 을 일으키며, 편향 (bias) 은 줄어들지 않지만 분산 (variance) 이 급격히 증가합니다.
- 결론적으로, 모델이 복잡해질수록 오히려 예측 오차가 증가하게 됩니다.

3. 주요 기여 (Key Contributions)

이론적 증명 (Proposition 1 & 2):
- 제곱 손실 하에서 금융 데이터의 최적 예측자가 평평한 선 (flat) 이거나 0 임을 증명했습니다.
- 단순한 선형 모델과 고표현력 (interpolating) 모델의 예측 오차를 비교하여, 신호가 없는 (weak-signal) regime에서는 고표현력 모델이 선형 모델보다 엄격하게 더 큰 기대 예측 오차를 가진다는 것을 수학적으로 증명했습니다.
- 이는 모델이 훈련 데이터의 잡음을 과적합하여 분산을 증가시키기 때문입니다.
실증적 검증 (Numerical Experiments):
- 데이터: 2020 년 12 월부터 2025 년 7 월까지의 고빈도 EUR/USD 환율 데이터 (30 초 간격).
- 모델 비교: 단순 선형 회귀 (Linear Benchmark) vs PatchTST (Transformer 기반).
- 결과:
  - PatchTST 모델의 평균 경로 예측 오차는 선형 모델보다 약 1.71 배 컸습니다.
  - 테스트 윈도우의 약 92% 에서 Transformer 모델이 선형 모델보다 더 큰 오차를 발생시켰습니다.
  - 오차 분포는 전체적으로 우측으로 이동하여 (오차가 큼), 극단적인 사건이 아닌 전역적인 성능 저하를 보였습니다.

4. 결과 및 논의 (Results & Discussion)

성능 저하의 본질: Transformer 모델의 실패는 아키텍처의 결함이 아닙니다. 오히려 모델이 더 잘 최적화되고 데이터가 많아질수록, 베이지안 최적 예측자 (단순한 평평한 선) 로 더 빠르게 수렴하면서, 그 주변에 잡음으로 인한 변동성을 더 많이 생성하기 때문입니다.
분산 주도적 실패: 예측 오차의 증가는 편향 감소가 아닌 분산 증가에 기인합니다. 이는 고표현력 모델이 "신호"가 없는 환경에서 "잡음"을 학습하여 발생하는 전형적인 현상입니다.
모델 크기의 영향: 실험에서 모델 크기를 키울수록 단순 선형 모델과의 성능 격차는 더 벌어졌습니다. 이는 모델이 커질수록 훈련 잡음을 더 잘 재사용 (interpolate) 하기 때문입니다.

5. 의의 및 시사점 (Significance)

금융 머신러닝에 대한 근본적 성찰:
- 금융 시계열 예측에서 아키텍처의 미세 조정 (attention mechanism, patching 등) 만으로는 성능 향상을 기대하기 어렵습니다.
- 학습 목표 (Learning Objective) 의 재정의가 필요합니다. 조건부 기댓값 (점 예측) 을 학습하는 대신, 조건부 분포 전체를 학습하거나 (확률적 예측), 불확실성을 고려한 의사결정 문제를 설정해야 합니다.
모델 선택의 가이드라인:
- 신호 대 잡음비 (SNR) 가 낮고 미래가 예측 불가능한 (martingale-like) 환경에서는 단순한 모델 (선형, 이동평균 등) 이 복잡한 딥러닝 모델보다 우월할 수 있음을 이론적으로 뒷받침합니다.
향후 연구 방향:
- Diffusion 모델이나 확률적 예측 (Probabilistic Forecasting) 과 같이 불확실성과 고차 모멘트를 포착하는 모델이 금융 데이터에서 더 의미 있을 수 있음을 제안합니다.
- 구조화된 데이터와 금융 데이터 간의 예측 가능성 전환점 (transition point) 을 규명하는 연구가 필요하다고 강조합니다.

요약

이 논문은 "금융 데이터의 예측 불가능성 (마팅게일 성질) 과 제곱 손실 함수의 결합이, 고표현력 Transformer 모델로 하여금 최적 예측자 (평평한 선) 주변에 잡음을 생성하게 만들어 성능을 붕괴시킨다" 는 강력한 이론적 주장을 펼치고, 이를 EUR/USD 고빈도 데이터 실험으로 입증했습니다. 이는 금융 AI 분야에서 모델 복잡도 증가가 항상 성능 향상으로 이어지지 않음을 경고하며, 학습 목표와 문제 정의의 재설계가 필요함을 시사합니다.