Comparative e-backtests for general risk measures

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何更聪明地给银行“风险预测模型”打分的学术论文。

为了让你轻松理解，我们可以把这篇论文的核心内容想象成一场**“赛车手选拔赛”**，而不仅仅是传统的“考试”。

1. 背景：传统的“考试”vs. 新的“赛车”

传统的做法（标准回测）：
想象银行是一个赛车手，他每天预测明天赛道会不会下雨（预测风险）。监管机构（考官）会拿他的预测和第二天实际发生的天气（实际损失）做对比。

传统方法（P 值检验）： 就像传统的考试。考官问：“你的预测准不准？”如果预测偏差太大，就判你不及格。
缺点： 这种方法只能告诉你“你及格了吗？”，但无法告诉你“你是不是比隔壁老王（监管规定的基准模型）跑得更快？”在金融监管中，银行不仅要及格，还得证明自己的模型比监管规定的“标准模型”更优秀，才能少交点保证金。

这篇论文的新方法（比较性 e-回测）：
作者提出了一种新的“赛车计时系统”。

核心工具：e-值（E-values）和 e-过程（E-processes）。
- 比喻： 想象这是一个**“实时积分牌”**。
- e-值： 就像你手里的筹码。如果模型预测得准，筹码就增加；预测得烂，筹码就减少。
- e-过程： 就是随着时间推移，筹码累积的过程。
- 优势： 传统的考试必须等考完（数据收集完）才能出分。而这个新系统允许**“随时看分”**。只要筹码积累到一定程度（比如超过 10 倍），考官就可以立刻说：“停！这个模型明显比标准模型差（或好）！”不需要等到年底。而且，无论数据怎么乱变（比如金融危机突然爆发），这个系统依然有效。

2. 核心创新：不仅仅是“及格”，而是“谁更强”

论文提出了一个**“三色区域”**的判定法，比简单的“通过/不通过”更聪明：

🟢 绿色区域（通过）： 内部模型明显比标准模型强。就像赛车手不仅跑完了比赛，还甩开了基准模型一大截。
🔴 红色区域（不通过）： 内部模型明显比标准模型差。就像赛车手连基准模型都追不上，甚至撞车了。
🟡 黄色区域（纠结/待定）： 两个模型互有胜负，或者都还没达到“绝对输赢”的标准。
- 创新点： 以前遇到这种情况，考官可能只能摇头说“无法判断”。但这篇论文说：“别急，我们看速度和力度！”
- 弱优势（Weak Dominance）： 即使两个模型都没被彻底“判死刑”，我们也可以看谁的积分涨得更快（速度），或者谁的最终积分更高（力度）。这就像两个选手都没拿金牌，但我们可以看出谁在冲刺阶段更有爆发力。

3. 为什么这个新方法很厉害？（三大法宝）

法宝一：不挑食（模型无关）

比喻： 传统的测试方法像“挑食”，只吃特定类型的食物（比如假设数据是正态分布的）。如果数据像“辣椒”一样刺激（金融市场的极端波动），传统方法就消化不良，容易出错。
新方法： 像“杂食动物”，不管数据是温和的牛奶还是狂暴的辣椒，它都能消化并给出准确的评价。它不需要假设数据服从某种特定的分布，非常鲁棒（Robust）。

法宝二：随时叫停（序列有效性）

比喻： 传统考试是“期末考”，必须等所有题做完。新方法是“随堂测验 + 实时直播”。
优势： 如果市场突然发生剧变（比如 2008 年金融危机或新冠疫情），新系统能立刻发现模型失效，并给出警告。它不需要你预先设定“我要测多少天”，数据来了就测，随时可以下结论。

法宝三：应对“换赛道”（结构变化）

比喻： 赛车手平时在平路跑，突然赛道变成了泥地。
操作： 论文提出，当发现赛道变了（数据分布发生结构性改变），我们可以**“重置积分牌”，重新开始计分。这样，模型在旧赛道上的表现不会拖累它在新赛道上的评价。这让监管者能实时看到模型在当前**环境下的真实水平。

4. 实际应用：真的有用吗？

作者用模拟数据和真实的纳斯达克股市数据做了测试：

模拟实验： 他们故意让模型“作弊”（低估风险），新系统能迅速发现并扣分。
真实数据： 在 2008 年金融危机和 2020 年疫情期间，新系统成功捕捉到了不同模型的表现差异。
- 比如在 2008 年危机时，某些模型表现很好（绿色），而另一些则惨败（红色）。
- 到了 2020 年疫情，情况可能反转。
- 结论： 没有一种模型是永远的神。新系统能像**“实时导航”**一样，告诉监管者：“现在这个模型最好用，但下个月如果市场变了，可能要换那个模型。”

总结

这篇论文就像给金融监管者发了一套**“智能实时裁判系统”**。

以前： 只能等赛季结束，看总分，而且只能看“及格没”。
现在： 可以随时看积分，不仅知道“及格没”，还能知道“谁比谁跑得快”。即使两个模型都表现一般，也能通过“谁涨分更快”来分出高下。

这套系统不挑食、反应快、能应对突发路况，让银行的风险管理更加透明、科学，也能在危机来临时更快地做出反应，保护大家的钱袋子。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Comparative e-backtests for general risk measures》（一般风险度量比较性 e-回测）的详细技术总结。

1. 研究背景与问题 (Problem)

背景：
在金融监管中，风险度量（如风险价值 VaR 和预期亏损 ES）的预测模型需要通过回测（Backtesting）来验证其统计一致性。传统的回测方法（标准回测）主要评估单一模型是否与观测到的损失数据在统计上一致。然而，监管实践通常要求将金融机构的内部模型与监管规定的基准模型进行相对性能评估。

核心问题：

标准回测的局限性： 传统方法无法直接回答“内部模型是否优于基准模型”这一监管核心问题。
现有比较回测的不足： 现有的比较回测（如基于 p 值的方法）通常假设数据独立同分布（i.i.d.），难以处理金融时间序列中的强时间依赖性，且无法在数据连续到达时提供“随时有效”（anytime-valid）的推断。
模型选择与监管验证的区别： 金融监管中的比较回测不同于一般的统计模型选择（旨在寻找最佳模型），其目的是验证内部模型是否相对于基准模型表现“足够好”，具有非对称性和预设阈值的特点。
复杂风险度量的挑战： 许多风险度量（如 ES）本身不可 elicitable（可诱导性），或者其比较涉及复杂的联合分布，传统方法处理起来较为困难。

2. 方法论 (Methodology)

本文提出了一种基于 e-值 (e-values) 和 e-过程 (e-processes) 的非参数序贯框架，用于一般可诱导（elicitable）风险度量的比较性回测。

2.1 核心工具：e-值与 e-过程

e-值 (E-value)： 一个非负随机变量 $E$ ，在原假设 $H$ 下，对于任何分布 $Q \in H$ ，满足 $E_Q[E] \le 1$ 。
e-过程 (E-process)： 一个适应于滤子 $\{F_t\}$ 的非负随机过程 $\{M_t\}$ ，使得对于任何停时 $\tau$ ， $E_Q[M_\tau] \le 1$ 。
优势： 允许在数据连续到达时进行序贯检验，无需假设特定的分布形式（非参数），且对模型误设和依赖性具有鲁棒性。

2.2 标准 e-回测 (Standard e-backtests)

作为构建比较回测的基础，论文首先构建了针对可识别 (identifiable) 风险度量的标准回测：

利用识别函数 (identification function) 构建 e-变量。
针对监管风险度量（如 VaR）和统计量（如 ES 或矩）构建联合检验。
证明了基于识别函数的 e-过程在零假设下是上鞅（supermartingale）。

2.3 比较 e-回测 (Comparative e-backtests)

这是论文的核心贡献，用于比较内部模型 $\{R_t\}$ 和基准模型 $\{R^*_t\}$ ：

假设设定： 基于评分函数 $S$ $S$ 的条件优势（Conditional S-dominance）。
- $H^-_0$ : 内部模型优于或等于基准模型 ( $E[S(L_t, R_t) - S(L_t, R^*_t)|F_{t-1}] \le 0$ )。
- $H^+_0$ : 基准模型优于或等于内部模型。
e-过程构建： 利用评分函数差值构建两个互补的 e-过程 $\{M^-_t\}$ ${M_{t}^{-}}$ 和 $\{M^+_t\}$ ${M_{t}^{+}}$ 。
- $M^-_t = \prod (1 + \lambda_t (S(L_t, R_t) - S(L_t, R^*_t)))$
- 其中 $\lambda_t$ 是下注过程 (betting process)，需满足非负性约束。
弱优势 (Weak Dominance) 与三区域法 (Modified Three-Zone Approach)：
- 传统方法在两个假设同时被拒绝时往往无法得出结论。本文提出利用 e-过程的幅度 (Magnitude) 和 速度 (Speed) 来定义“弱优势”：
  - 幅度优势： 比较两个 e-过程达到的最大值。
  - 速度优势： 比较两个 e-过程首次超过阈值的时间。
- 区域划分：
  1. 红色区域： 拒绝 $H^-_0$ 但未拒绝 $H^+_0$ $\rightarrow$ 内部模型失败。
  2. 绿色区域： 拒绝 $H^+_0$ 但未拒绝 $H^-_0$ $\rightarrow$ 内部模型通过。
  3. 黄色区域： 两者均未被拒绝 $\rightarrow$ 无明确结论。
  4. 橙色区域（新增）： 两者均被拒绝，但通过弱优势比较（幅度或速度），可以判断一方在统计证据上更强。这提供了比传统方法更丰富的信息。

2.4 误差控制与下注策略

第一类错误控制： 基于 Ville 不等式，确保在任何停时下，错误拒绝概率不超过显著性水平 $\alpha$ （阈值设为 $1/\alpha$）。
多重检验控制： 提出了在预设时间点或拒绝时重启 e-过程的策略，以控制每比较错误率 (PCER) 和平均错误拒绝数。
下注过程选择： 采用 GREL (Growth-rate for Empirical Losses) 方法，基于历史数据最大化对数资本增长率来动态选择 $\lambda_t$ ，确保检验功效。

3. 主要贡献 (Key Contributions)

模型无关的序贯框架： 首次为一般可诱导风险度量（包括均值、方差、VaR、ES、期望分位数 expectiles 等）建立了非参数的比较性回测框架，适用于任意依赖结构。
弱优势与改进的三区域法： 提出了“弱优势”概念，解决了传统比较回测在双侧拒绝时结论模糊的问题，通过比较 e-过程的幅度和速度，将结果细化为红、绿、黄、橙四个区域，提供了更具信息量的监管决策依据。
理论基石： 系统刻画了基于识别函数和评分函数的 e-变量形式，并证明了其在标准回测和比较回测中的有效性（定理 1-3）。
广泛的适用性： 该方法不仅适用于 VaR 和 ES，还扩展到了期望分位数 (expectiles) 等更广泛的风险度量，并给出了具体的构造公式。

4. 实验结果 (Results)

4.1 模拟研究

标准回测： 在 i.i.d. 数据下，展示了该方法对 VaR 和 ES 低估的敏感性，能够准确识别模型误设。
比较回测 (i.i.d.)： 展示了在不同偏差程度下，比较回测能有效区分内部模型与基准模型，且第一类错误控制在理论水平以下。
时间序列数据 (AR-GARCH)： 在模拟的波动率聚集和偏态分布数据中，该方法能准确识别出基于真实分布假设的模型（如 st-FP）优于错误假设的模型（如 n-FP）。
结构突变 (Structural Change)： 在数据分布发生突变（如波动率系数改变）时，通过重启 e-过程，该方法能动态适应并识别出在不同阶段表现更优的模型（例如，在平稳期 EVT 方法更优，在剧烈波动期 FHS 方法更优）。

4.2 实证分析 (NASDAQ 指数)

使用 2003-2025 年 NASDAQ 指数数据，应用该方法比较了六种不同的风险预测模型。
危机表现： 在 2008 年金融危机和 2019 年新冠疫情期间，e-过程显示出剧烈的增长，表明模型性能在这些时期发生了显著变化。
动态优势： 结果显示，没有一种模型在所有时期都绝对占优。例如，在 2008 年危机期间，某些模型（如 st-FP）显著优于基准，但在随后的新冠疫情期间，优势关系可能发生逆转。
结论： 该方法能够实时捕捉模型性能的动态变化，提供了传统 p 值检验无法提供的实时指导。

5. 意义与影响 (Significance)

监管实践革新： 为金融监管机构提供了一种更灵活、更强大的工具，用于评估银行内部模型。它不再要求模型在统计上“完美”，而是关注其相对于基准的相对表现，且能适应市场环境的动态变化。
解决“不可比”难题： 通过引入 e-过程和弱优势概念，解决了传统方法在双侧拒绝时无法得出结论的痛点，使得即使在复杂市场环境下也能给出明确的监管建议（如橙色区域的判定）。
鲁棒性与适应性： 该方法不依赖特定的分布假设，对模型误设、时间序列依赖性和结构性突变具有极强的鲁棒性，非常适合处理真实的金融数据。
理论扩展： 将 e-值理论从统计模型选择成功扩展到金融监管回测领域，丰富了 e-值在风险管理中的应用场景。

总结：
这篇论文通过引入 e-值理论，构建了一个强大的、非参数的、序贯的比较性回测框架。它不仅解决了传统回测在处理相对模型比较时的局限性，还通过“弱优势”和“多区域”判定机制，为金融监管提供了更细致、更实时的决策支持，特别适用于应对金融危机等极端市场环境下的模型评估。