Same Error, Different Function: The Optimizer as an Implicit Prior in Financial Time Series

Each language version is independently generated for its own context, not a direct translation.

🍳 요리의 비유: "같은 맛, 다른 레시피"

상상해 보세요. 두 명의 셰프가 같은 재료를 가지고 같은 요리를 만들었습니다.

셰프 A (SGD 옵티마이저): 아주 단순하고 깔끔한 레시피를 사용했습니다.
셰프 B (Adam 옵티마이저): 아주 정교하고 복잡한 레시피를 사용했습니다.

이제 맛을 평가하는 심사위원 (테스트 데이터) 이 두 요리를 맛봤습니다. 결과는 어떨까요?
"두 요리 모두 100 점 만점에 99 점입니다. 맛의 차이를 구별할 수 없습니다."

대부분의 사람들은 "아, 두 셰프의 실력이 똑같네. 아무거나 골라도 되겠군"이라고 생각할 것입니다. 하지만 이 논문은 **"아니요! 두 요리는 완전히 다릅니다!"**라고 외칩니다.

🔍 이 논문이 발견한 3 가지 놀라운 사실

1. "점수"만 보면 속아넘어갑니다 (예측의 동등성)

금융 시장 (특히 주식 변동성) 은 소음 (노이즈) 이 너무 많은 곳입니다. 마치 안개 낀 날에 멀리 있는 산을 보는 것과 같죠.

복잡한 딥러닝 모델 (신경망) 이든, 간단한 통계 모델이든, 예측 오차 (실수) 는 거의 똑같습니다.
마치 두 요리가 모두 "99 점"을 받은 것처럼, 모델의 성능 지표 (NMSE) 는 서로 구별이 안 됩니다.
그래서 사람들은 "어떤 모델을 써도 똑같지"라고 생각하며, 단순히 점수만 보고 모델을 선택합니다.

2. 하지만 '맛'을 내는 '방식'은 다릅니다 (함수의 분기)

이 논문은 점수 (오차) 가 같아도, 모델이 데이터를 어떻게 해석하는지를 자세히 들여다봤습니다.

셰프 A (SGD): 아주 단순하고 직선적인 방식으로 맛을 냅니다. "이 재료가 많으면 맛도 비례해서 강해져"라고 생각합니다. (선형적 반응)
셰프 B (Adam/Muon): 아주 복잡하고 비선형적인 방식으로 맛을 냅니다. "이 재료가 너무 많으면 오히려 맛이 떨어질 수도 있어"라고 생각하며, 극단적인 상황을 피하는 복잡한 규칙을 만듭니다. (비선형적 반응)

핵심: 점수는 같지만, 세상 (시장) 을 바라보는 눈 (논리) 이 완전히 다릅니다.

3. 이 차이가 돈에 영향을 줍니다 (실제 투자 결정)

이게 왜 중요할까요? 이 두 셰프가 만든 요리를 식당 메뉴판에 올린다고 상상해 보세요.

셰프 A (단순한 모델): 맛이 안정적입니다. 재료가 조금 바뀌어도 메뉴판의 순위는 크게 변하지 않습니다. 거래 횟수 (Turnover) 가 적습니다.
셰프 B (복잡한 모델): 아주 예민합니다. 재료가 아주 조금만 바뀌어도 "아, 이거 이제 1 등이다!"라고 순위가 뒤바뀝니다. 거래 횟수가 매우 많습니다.

결과:
두 모델의 예측 정확도는 똑같지만, 셰프 B 의 모델을 쓰면 거래를 너무 자주 하게 되어 수수료 (거래 비용) 가 많이 나갑니다. 결국 실제 수익률은 셰프 A 가 더 나을 수 있습니다.

💡 이 연구가 우리에게 주는 교훈

최적화기 (Optimizer) 는 단순한 도구가 아닙니다.
- 보통 개발자들은 "Adam 이니까 그냥 쓰자"라고 생각합니다. 하지만 이 논문은 어떤 최적화기를 쓰느냐에 따라 모델이 배우는 '세계관'이 달라진다고 말합니다. 최적화기는 모델에게 "어떤 종류의 정답을 찾아라"라고 암묵적으로 지시하는 선입견 (Prior) 역할을 합니다.
점수 (Loss) 만 믿지 마세요.
- "오차가 같으니 모델이 같다"는 생각은 위험합니다. 오차가 같아도 모델이 내리는 결정 (투자 전략) 은 완전히 다를 수 있습니다.
금융에서는 '안정성'이 '정확도'만큼 중요합니다.
- 예측이 조금 더 정확할지라도, 그로 인해 거래가 너무 자주 일어나서 수수료가 날아가면 의미가 없습니다. 따라서 모델을 고를 때는 어떤 최적화기를 썼는지, 그 모델이 얼마나 안정적인지를 함께 봐야 합니다.

📝 한 줄 요약

"금융 예측에서 모델의 '점수'가 같다고 해서 '성격'이 같은 것은 아닙니다. 같은 실수를 범하더라도, 어떤 모델을 쓰느냐에 따라 거래 비용과 수익이 완전히 달라질 수 있으니, 모델의 '성격 (함수)'까지 꼼꼼히 확인해야 합니다."

이 논문은 금융 AI 를 개발할 때, 단순히 "어떤 모델이 더 잘 맞나?"를 묻는 것을 넘어, **"어떤 모델이 더 현명한 결정을 내리는가?"**를 고민해야 한다고 말합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

과소 지정 (Underspecification) 문제: 금융 시계열은 신호 대 잡음비 (Signal-to-Noise Ratio) 가 매우 낮습니다. 이로 인해 다양한 딥러닝 아키텍처 (MLP, CNN, LSTM, Transformer) 와 선형 모델 (OLS, LASSO) 이 테스트 손실 (NMSE) 에서 통계적으로 구별 불가능한 성능을 보입니다.
리더보드 동점 (Leaderboard Ties): 기존 연구들은 성능이 비슷할 때 아키텍처나 데이터 소스만 변경하는 데 집중했으나, 최적화기 (Optimizer) 선택은 단순한 구현 세부 사항으로 치부되었습니다.
핵심 질문:
1. 테스트 손실이 동일한 모델들은 실제로 상호 교환 가능한가? (Deep Learning 사용의 필요성)
2. 테스트 손실이 변하지 않더라도, 최적화기 선택이 학습된 함수의 본질에 영향을 미치는가?

2. 방법론 (Methodology)

저자들은 S&P 500 구성주들의 일일 실현 변동성 (Garman-Klass 추정치 사용) 을 예측하는 과제를 설정하고, 다음과 같은 통제된 실험을 수행했습니다.

실험 설계:
- 아키텍처 (4 가지): MLP, CNN, LSTM, Transformer.
- 최적화기 (3 가지): SGD (비적응형), Adam (적응형), Muon (행렬 인식형).
- 총 12 가지 조합 (4 아키텍처 × 3 최적화기) 에 대해 하이퍼파라미터 (학습률, 가중치 감쇠) 를 최적화하여 테스트 손실을 최소화했습니다.
손실 지표 외의 기능적 진단 (Functional Diagnostics):
- 임펄스 응답 분석 (Impulse Response): 과거 변동성 충격에 대한 모델의 반응 곡선 ( $R(k, \delta)$ ) 을 시각화하여 비선형성 패턴을 분석.
- 함수 차이 표면 (Functional Difference Surfaces): 서로 다른 최적화기로 학습된 모델 간의 출력 차이 ( $D(x) = \hat{y}_{Muon} - \hat{y}_{Adam}$ ) 를 계산하여 구조적 차이를 확인.
- SHAP 분석: 각 시점 (Lag) 의 중요도 분포를 비교하여 시간적 의존성 (Temporal Dependence) 패턴을 분석.
- 앙상블 검증: 서로 다른 최적화기 기반 모델들을 앙상블하여 오차가 완벽하게 상관되지 않음을 확인.
- 투자 전략 시뮬레이션: 예측된 변동성을 기반으로 포트폴리오를 구성하고, 샤프 비율 (Sharpe Ratio) 과 회전율 (Turnover) 을 비교.

3. 주요 결과 (Key Results)

3.1. 예측적 동등성 (Predictive Equivalence)

모든 아키텍처와 최적화기 조합은 선형 모델 (OLS, LASSO) 과 통계적으로 구별 불가능한 NMSE 를 기록했습니다.
하이퍼파라미터 최적화를 수행해도 이 동점 (Tie) 은 깨지지 않았습니다. 이는 금융 데이터의 낮은 신호 대 잡음비로 인해 발생하는 구조적 현상임을 시사합니다.

3.2. 기능적 발산 (Functional Divergence)

손실은 동일하지만 학습된 함수는 질적으로 달랐습니다.

함수의 복잡도: SGD 는 단순하고 평탄한 (Flat) 응답 곡선을 학습하는 반면, Adam 과 Muon 은 복잡한 비선형 (시그모이드 형태) 응답 곡선을 학습하여 극단적인 변동성 충격을 감쇠시키는 패턴을 보였습니다.
시간적 의존성 (Temporal Dependence):
- CNN: 아키텍처가 주된 결정 요인이었으나, LSTM에서는 최적화기가 결정적 역할을 했습니다. Muon 은 LSTM 의 장기 기억 능력을 활용하여 장기 의존성을 포착한 반면, Adam 은 최근 시점에만 집중했습니다. SGD 는 두 경우 모두 최근 시점만 사용했습니다.
- 이는 최적화기가 모델의 '수용 영역 (Receptive Field)'을 implicitly 결정함을 의미합니다.
기하학적 차이: 최적화기 간 차이 표면은 평면이 아닌 복잡한 구조를 보였으며, 이는 단순한 스케일링 차이가 아님을 증명했습니다.

3.3. 메커니즘: Edge of Stability (EoS)

곡률 (Curvature) 과 안정성: SGD 는 곡률이 낮은 (Flat) 영역으로 수렴하는 경향이 있는 반면, Adam 과 같은 적응형 최적화기는 곡률이 높은 (Sharp) 영역으로 안정적으로 수렴할 수 있습니다.
개입 실험 (Intervention Experiments):
- Adam 으로 학습된 복잡한 모델에서 SGD 로 전환하면 모델은 빠르게 단순한 SGD 해로 붕괴했습니다.
- 반대로 SGD 모델에서 Adam 으로 전환하면 복잡한 함수가 복원되었습니다.
- 이는 최적화기의 업데이트 기하학 (Update Geometry) 이 특정 해 (Minima) 를 선택하는 '암시적 사전분포 (Implicit Prior)' 역할을 함을 시사합니다.

3.4. 의사결정 수준의 영향 (Decision-Level Consequences)

샤프 - 회전율 프론티어 (Sharpe-Turnover Frontier):
- 모든 모델의 샤프 비율은 비슷했으나, 포트폴리오 회전율 (Turnover) 은 최적화기에 따라 크게 달랐습니다.
- Adam/Muon 기반 모델은 입력 상태의 작은 변화에 민감하게 반응하여 순위가 자주 바뀌었고, 이로 인해 회전율이 SGD 모델 대비 최대 3 배까지 높았습니다.
- 이는 실제 거래 비용 (Transaction Costs) 을 고려할 때, 동일한 예측 정확도라도 SGD 기반 모델이 더 실용적이고 수익성이 높을 수 있음을 의미합니다.

4. 주요 기여 (Contributions)

예측 동등성의 재정의: 금융 예측에서 "동일한 손실 = 동일한 모델"이라는 가정이 잘못되었음을 증명했습니다. 손실 지표는 함수의 질적 차이를 포착하지 못합니다.
최적화기의 역할 규명: 최적화기는 단순한 학습 도구가 아니라, 암시적 사전분포 (Implicit Prior) 로서 학습된 함수의 형태 (단순함 vs 복잡함, 단기 의존성 vs 장기 의존성) 를 결정하는 핵심 요소임을 밝혔습니다.
새로운 벤치마킹 패러다임 제안: 모델 선택 시 예측 정확도 (NMSE) 뿐만 아니라 해석 가능성 (Interpretability), 함수의 안정성, 그리고 실제 투자 전략에서의 구현 가능성 (Turnover 등) 을 함께 평가해야 함을 주장했습니다.
엔semble 의 유효성 증명: 서로 다른 최적화기로 학습된 모델들은 서로 다른 신호 성분을 포착하므로, 이들을 앙상블하면 개별 모델보다 더 낮은 오차를 달성할 수 있음을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 금융 머신러닝 분야에서 "리더보드 동점 (Leaderboard Tie)"이 발생할 때, 어떤 모델을 선택해야 하는지에 대한 새로운 기준을 제시합니다.

실무적 함의: 투자 전략을 구축할 때, 단순히 예측 오차가 낮은 모델을 선택하는 것이 아니라, 최적화기에 의해 유도된 함수의 행동 특성 (예: 과도한 거래를 유발하지 않는지, 장기 패턴을 포착하는지) 을 고려해야 합니다.
이론적 함의: 금융과 같은 저신호 (Low-Signal) 환경에서는 데이터가 모델을 충분히 제약하지 못하므로, 최적화 과정 자체가 모델의 일부가 됩니다. 따라서 모델 평가는 손실 함수를 넘어 학습된 함수의 기능적, 경제적 결과를 포함해야 합니다.

결론적으로, 저자들은 "모델 선택은 함수 선택 (Model selection is function selection)" 이며, 리더보드에서 동점이 발생할 때는 하류 작업 (Downstream task) 의 목적에 부합하는 함수를 선택할 수 있도록 최적화기를 신중하게 선택해야 한다고 강조합니다.