Comparative e-backtests for general risk measures

Each language version is independently generated for its own context, not a direct translation.

1. 왜 새로운 방법이 필요한가요? (기존 방식의 한계)

지금까지 은행들은 "내 위험 예측 모델이 틀리지 않았나요?"라고 스스로를 점검했습니다. 이를 표준 백테스트라고 합니다.

비유: 마치 "내 운전 실력이 안전운전 기준을 지켰나요?"라고 묻는 것과 같습니다.
문제점: 하지만 금융 감독관 (중앙은행 등) 은 단순히 "틀리지 않았는지"만 확인하는 게 아닙니다. **"내 모델이 기준이 되는 표준 모델 (예: 다른 유명 은행의 모델) 보다 더 잘하는가?"**를 비교해야 합니다.
기존 방식의 약점: 기존의 통계 방법은 데이터를 모두 모아서 한 번에 결론을 내거나, 데이터가 꼬여있을 때 (예: 금융 위기 때) 제대로 작동하지 않았습니다. 마치 "지난 1 년간의 운전 기록을 다 모아서 한 번에 점수를 매기는" 방식이라, 위기 순간에 어떤 모델이 더 잘 대처했는지 실시간으로 알기 어려웠습니다.

2. 이 논문이 제안한 해결책: 'e-값 (e-value)'과 'e-과정 (e-process)'

저자들은 **'e-값'**이라는 새로운 도구를 사용했습니다. 이를 **'증거의 화폐'**라고 상상해 보세요.

e-값 (증거 화폐): "내 모델이 표준 모델보다 낫다"는 가설을 믿을 때, 얼마나 많은 증거 (화폐) 를 쌓을 수 있는지 나타냅니다.
e-과정 (실시간 계좌): 이 화폐가 시간이 지남에 따라 어떻게 쌓이거나 사라지는지 보여주는 **'실시간 계좌'**입니다.
장점:
1. 언제나 유효 (Anytime-valid): 데이터를 하나하나 받아볼 때마다 (매일매일) 계좌를 확인해도 됩니다. "오늘은 내 모델이 이겼다, 내일은 표준 모델이 이겼다"를 실시간으로 알 수 있습니다.
2. 모델 무관 (Model-free): "이 데이터는 정규분포를 따른다" 같은 복잡한 가정을 하지 않아도 됩니다. 데이터가 어떻게 생겼든 상관없이 작동합니다.

3. 비교 테스트의 핵심: '세 가지 구역'과 '약한 우위'

이 논문은 두 모델을 비교할 때 단순히 '이겼다/졌다'가 아니라, 3 가지 구역으로 나누어 더 정교하게 판단합니다.

초록색 구역 (Pass): 내 모델이 표준 모델보다 확실히 낫습니다. (증거 화폐가 기준선을 넘었습니다.)
빨간색 구역 (Fail): 내 모델이 표준 모델보다 확실히 못합니다.
노란색 구역 (Uncertain): 둘 다 기준선을 넘어서서, "누가 더 낫지?"라고 혼란스러운 상태입니다.

여기서 이 논문의 핵심 아이디어인 '약한 우위 (Weak Dominance)'가 등장합니다.
노란색 구역에서도 포기하지 않습니다. 두 모델의 **'증거 화폐 계좌'**를 자세히 살펴봅니다.

크기 (Magnitude): 최종적으로 쌓인 화폐의 총량이 더 많은 모델이 우위입니다. (누가 더 많은 증거를 모았나?)
속도 (Speed): 기준선에 더 빨리 도달한 모델이 우위입니다. (누가 더 빨리 문제를 찾아냈나?)

비유: 두 선수가 마라톤을 뛰는데, 둘 다 결승선을 넘었습니다. 누가 더 잘했는지 모르겠다면, **"누가 더 멀리 달렸는지 (크기)"**와 **"누가 더 빨리 달렸는지 (속도)"**를 비교해서 승자를 가립니다.

4. 실제 적용: 구조적 변화 (금융 위기) 에 강한 도구

금융 시장은 평온할 때와 위기 (2008 년 금융위기, 코로나 팬데믹 등) 일 때 완전히 다릅니다. 이를 **'구조적 변화'**라고 합니다.

기존 방식: 위기 때 모델이 망가져도, 과거의 평균 데이터만 보고 "전체적으로 괜찮다"고 할 수 있었습니다.
이 논문의 방식: 위기 순간이 오면 **계좌를 리셋 (Restart)**하고 다시 시작합니다.
- 비유: 비행기가 난기류를 만나면, "지난 1 년 평균 비행 실력"을 잊어버리고 **"지금 이 순간의 조종 실력"**을 다시 평가하는 것입니다.
- 효과: 2008 년 위기 때는 A 모델이, 2020 년 팬데믹 때는 B 모델이 더 잘할 수 있다는 것을 실시간으로 포착해냅니다.

5. 요약: 이 논문이 우리에게 주는 메시지

이 연구는 금융 감독관과 은행들에게 다음과 같은 도구를 줍니다.

실시간 감시: 데이터를 모아서 나중에 평가하는 게 아니라, 매일매일 모델을 감시할 수 있습니다.
공정한 비교: "내 모델이 기준 모델보다 낫다"는 것을 통계적으로 확신할 수 있게 해줍니다.
유연한 대응: 시장이 갑자기 변해도 (위기), 그 순간에 어떤 모델이 더 안전한지 바로 알아차릴 수 있습니다.
명확한 결론: "누가 이겼는지"가 애매할 때조차, '누가 더 빨리, 더 많이' 증명했는지를 통해 더 나은 결론을 내립니다.

한 줄 요약:

"이 논문은 금융 위험 예측 모델을 평가할 때, **'증거 화폐'**를 실시간으로 쌓아가며, 시장이 변할 때마다 **'계좌를 리셋'**해서 가장 안전한 모델을 찾아내는 똑똑하고 유연한 새로운 감시 시스템을 제안합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 금융 규제에서 위험 측정 지표 (VaR, ES 등) 의 예측 모델 검증 (백테스트) 은 핵심적인 과제입니다. 기존 표준 백테스트는 단일 모델이 관측된 손실과 통계적으로 일치하는지 여부를 평가합니다.
문제점:
1. 규제적 요구: 금융 당국은 내부 모델이 규제 기준 (Benchmark) 모델보다 우수한 성능을 보이는지 비교 평가하기를 원합니다. 그러나 기존 표준 백테스트는 이러한 '상대적 성능'을 평가하지 못합니다.
2. 기존 비교 백테스트의 한계: 기존 비교 백테스트 (Fissler et al., 2016; Nolde and Ziegel, 2017) 는 주로 고정된 표본 크기를 가정하거나 p-value 에 기반하여, 순차적 모니터링 (Sequential Monitoring) 하에서 '언제든 유효한 (Anytime-valid)' 추론을 제공하지 못합니다. 또한, 모델 오지정 (Misspecification) 이나 데이터의 종속성에 민감할 수 있습니다.
3. ES 의 비선형성: 기대 손실 (Expected Shortfall, ES) 은 그 자체로 'elicitable' (추정 가능) 하지 않아 백테스트가 어렵다는 문제가 있습니다.
목표: 금융 규제 환경에 적합한, 모델 프리 (Model-free) 이고 순차적 (Sequential) 인 일반적인 위험 측정 지표 (elicitable risk measures) 에 대한 비교적 백테스트 프레임워크를 개발하는 것입니다.

2. 방법론 (Methodology)

이 논문은 e-value와 e-process 개념을 기반으로 한 새로운 통계적 프레임워크를 제안합니다.

2.1 핵심 개념: e-value 및 e-process

e-value: 귀무가설 하에서 기대값이 1 이하가 되는 비음수 확률변수입니다.
e-process: 시간 $t$ 에 따라 업데이트되는 확률 과정으로, 귀무가설 하에서 모든 정지 시간 (stopping time) 에서 기대값이 1 이하가 되는 초과 martingale (supermartingale) 성질을 가집니다.
장점: p-value 기반 검정과 달리, 데이터가 순차적으로 들어오더라도 임의의 시점에 검정을 중단하더라도 Type-I 오류를 통제할 수 있습니다 (Ville's inequality).

2.2 표준 e-백테스트 (Standard e-backtests)

목적: 내부 모델이 실제 위험 측정 지표 (Regulatory Risk Measure) 를 과소평가하는지 확인.
기법: 식별 가능 (Identifiable) 인 위험 측정 지표에 대해 식별 함수 (Identification function) 를 사용하여 e-value 를 구성합니다.
- 예: 평균, 분산, VaR, ES, expectile 등.
- Proposition 1 및 Theorem 1, 2 를 통해 식별 가능한 위험 지표에 대한 e-process 의 존재와 성질을 증명합니다.

2.3 비교적 e-백테스트 (Comparative e-backtests)

가정: 내부 모델 $\{R_t\}$ 와 기준 모델 $\{R^*_t\}$ 의 예측력을 비교합니다.
가설 설정:
- $H^-_0$ : 내부 모델이 기준 모델보다 우세하다 (조건부 S-dominance).
- $H^+_0$ : 기준 모델이 내부 모델보다 우세하다.
e-process 구성: 스코어링 함수 (Scoring function) $S$ $S$ 를 사용하여 두 모델의 예측 오차 차이를 기반으로 e-process 를 구성합니다.
- $M^-_t$ : 내부 모델이 우세하다는 가설을 검증하는 과정.
- $M^+_t$ : 기준 모델이 우세하다는 가설을 검증하는 과정.
약한 우세 (Weak Dominance) 개념 도입:
- 기존 3-zone 접근법 (Nolde and Ziegel, 2017) 을 수정하여, 두 가설이 동시에 기각되는 경우 (Yellow zone) 에도 추가적인 판단 기준을 제공합니다.
- Magnitude (크기): 최종 e-value 의 크기를 비교.
- Speed (속도): 임계값을 초과하는 시점 (Stopping time) 을 비교.
- 이를 통해 어느 모델이 더 강력한 증거를 제공하는지 'Orange zone'으로 분류합니다.

2.4 베팅 과정 (Betting Process) 선택

e-process 의 성장 속도를 최적화하기 위해 GREL (Growth-rate for Empirical Losses) 방법을 사용하여 베팅 계수 $\lambda_t$ 를 동적으로 결정합니다. 이는 데이터 기반의 최적 베팅 전략을 근사합니다.

3. 주요 기여 (Key Contributions)

모델 프리 순차적 프레임워크 개발: 금융 규제용 일반적인 elicitable 위험 측정 지표 (VaR, ES, expectile 등) 에 대한 비교적 백테스트를 위한 모델 프리 순차적 프레임워크를 최초로 제시했습니다.
약한 우세 (Weak Dominance) 기반 3-zone 접근법 수정: 두 모델 간 비교에서 두 가설이 모두 기각되거나 기각되지 않는 모호한 상황에서, e-process 의 '크기'와 '속도'를 비교하여 더 정보적인 결론 (Orange zone) 을 도출하는 방법을 제안했습니다.
식별 가능 위험 지표에 대한 일반적 e-backtest 구성: 식별 함수를 기반으로 한 표준 e-backtest 의 이론적 기반 (e-value 의 형태, e-process 의 구성) 을 체계화했습니다.
다중 검정 및 오류 통제: 순차적 재시작 (Restart) 전략을 통해 다중 검정 문제에서의 오류율 (PCER, FDR 관련) 을 통제하는 방법을 제시했습니다.

4. 실험 결과 (Results)

4.1 시뮬레이션 연구

표준 백테스트: VaR 과 ES 의 과소평가 시나리오에서 제안된 방법이 높은 검정력 (Power) 을 보이며, 특히 ES 예측이 잘못되었을 때 VaR 만 정확해도 검정이 가능함을 확인했습니다.
비교적 백테스트 (i.i.d. 및 시계열):
- 다양한 모델 (FP, FHS, EVT 등) 간 비교에서 제안된 방법이 기존 p-value 기반 방법보다 더 명확한 결론을 도출했습니다.
- 특히, 두 모델 모두 기각되는 경우 (Orange zone) 에도 e-process 의 성장 추이를 통해 어느 모델이 상대적으로 우월한지 판단 가능했습니다.
- 구조적 변화 (Structural Change) 가 있는 데이터셋에서, 재시작 (Restart) 전략을 통해 변화 전후의 모델 성능 변화를 효과적으로 포착했습니다.

4.2 실증 분석 (NASDAQ 데이터)

2008 년 금융 위기 및 COVID-19 팬데믹 기간과 같은 시장 변동성 시기에 적용했습니다.
결과: 시장 충격 기간 동안 모델 간 우위 관계가 역전되거나 변동하는 것을 실시간으로 포착했습니다. 예를 들어, 2008 년 위기 시에는 특정 모델이 우세했으나, 팬데믹 기간에는 다른 모델이 우세해지는 등 시점에 따라 최적의 모델이 달라짐을 확인했습니다.
기존 방법으로는 도출하기 어려운 '동적 우위 관계'를 e-process 의 성장 속도와 크기를 통해 시각화하고 해석할 수 있었습니다.

5. 의의 및 결론 (Significance)

규제적 실용성: 금융 당국이 내부 모델을 평가할 때, 단순히 "통계적으로 일치하는가"를 넘어 "기준 모델보다 우수한가"를 순차적으로, 실시간으로 검증할 수 있는 강력한 도구를 제공합니다.
강건성: 모델 오지정, 데이터 종속성, 구조적 변화에 강건하며, 언제든 검정을 중단하더라도 오류를 통제할 수 있습니다 (Anytime-valid).
새로운 패러다임: 기존의 통계적 모델 선택 (Model Selection) 과는 구별되는, 규제 목적에 특화된 비교적 백테스트의 새로운 기준을 제시했습니다.
확장성: VaR, ES 뿐만 아니라 expectile 등 다양한 위험 측정 지표에 적용 가능하며, 향후 베팅 전략 최적화 및 다중 검정 오류 통제 연구의 기초가 됩니다.

이 논문은 금융 리스크 관리 분야에서 모델 검증의 정밀성과 유연성을 크게 향상시키는 이론적, 실증적 기여를 한 것으로 평가됩니다.