Comparative e-backtests for general risk measures

本文提出了一种基于 e 值和 e 过程的非参数序贯框架,用于对均值、方差、VaR、ES 及期望分位数等一般可识别风险度量进行具有任意时间有效性且稳健的比较回测,并通过改进的弱优势三区域方法提供了比传统方法更具信息量的结论。

Zhanyi Jiao, Qiuqi Wang, Yimiao Zhao

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何更聪明地给银行“风险预测模型”打分的学术论文。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成一场**“赛车手选拔赛”**,而不仅仅是传统的“考试”。

1. 背景:传统的“考试”vs. 新的“赛车”

传统的做法(标准回测):
想象银行是一个赛车手,他每天预测明天赛道会不会下雨(预测风险)。监管机构(考官)会拿他的预测和第二天实际发生的天气(实际损失)做对比。

  • 传统方法(P 值检验): 就像传统的考试。考官问:“你的预测准不准?”如果预测偏差太大,就判你不及格。
  • 缺点: 这种方法只能告诉你“你及格了吗?”,但无法告诉你“你是不是隔壁老王(监管规定的基准模型)跑得更快?”在金融监管中,银行不仅要及格,还得证明自己的模型比监管规定的“标准模型”更优秀,才能少交点保证金。

这篇论文的新方法(比较性 e-回测):
作者提出了一种新的“赛车计时系统”。

  • 核心工具:e-值(E-values)和 e-过程(E-processes)。
    • 比喻: 想象这是一个**“实时积分牌”**。
    • e-值: 就像你手里的筹码。如果模型预测得准,筹码就增加;预测得烂,筹码就减少。
    • e-过程: 就是随着时间推移,筹码累积的过程。
    • 优势: 传统的考试必须等考完(数据收集完)才能出分。而这个新系统允许**“随时看分”**。只要筹码积累到一定程度(比如超过 10 倍),考官就可以立刻说:“停!这个模型明显比标准模型差(或好)!”不需要等到年底。而且,无论数据怎么乱变(比如金融危机突然爆发),这个系统依然有效。

2. 核心创新:不仅仅是“及格”,而是“谁更强”

论文提出了一个**“三色区域”**的判定法,比简单的“通过/不通过”更聪明:

  1. 🟢 绿色区域(通过): 内部模型明显比标准模型强。就像赛车手不仅跑完了比赛,还甩开了基准模型一大截。
  2. 🔴 红色区域(不通过): 内部模型明显比标准模型差。就像赛车手连基准模型都追不上,甚至撞车了。
  3. 🟡 黄色区域(纠结/待定): 两个模型互有胜负,或者都还没达到“绝对输赢”的标准。
    • 创新点: 以前遇到这种情况,考官可能只能摇头说“无法判断”。但这篇论文说:“别急,我们看速度力度!”
    • 弱优势(Weak Dominance): 即使两个模型都没被彻底“判死刑”,我们也可以看谁的积分涨得更快(速度),或者谁的最终积分更高(力度)。这就像两个选手都没拿金牌,但我们可以看出谁在冲刺阶段更有爆发力。

3. 为什么这个新方法很厉害?(三大法宝)

法宝一:不挑食(模型无关)

  • 比喻: 传统的测试方法像“挑食”,只吃特定类型的食物(比如假设数据是正态分布的)。如果数据像“辣椒”一样刺激(金融市场的极端波动),传统方法就消化不良,容易出错。
  • 新方法: 像“杂食动物”,不管数据是温和的牛奶还是狂暴的辣椒,它都能消化并给出准确的评价。它不需要假设数据服从某种特定的分布,非常鲁棒(Robust)

法宝二:随时叫停(序列有效性)

  • 比喻: 传统考试是“期末考”,必须等所有题做完。新方法是“随堂测验 + 实时直播”。
  • 优势: 如果市场突然发生剧变(比如 2008 年金融危机或新冠疫情),新系统能立刻发现模型失效,并给出警告。它不需要你预先设定“我要测多少天”,数据来了就测,随时可以下结论。

法宝三:应对“换赛道”(结构变化)

  • 比喻: 赛车手平时在平路跑,突然赛道变成了泥地。
  • 操作: 论文提出,当发现赛道变了(数据分布发生结构性改变),我们可以**“重置积分牌”,重新开始计分。这样,模型在旧赛道上的表现不会拖累它在新赛道上的评价。这让监管者能实时看到模型在当前**环境下的真实水平。

4. 实际应用:真的有用吗?

作者用模拟数据真实的纳斯达克股市数据做了测试:

  • 模拟实验: 他们故意让模型“作弊”(低估风险),新系统能迅速发现并扣分。
  • 真实数据: 在 2008 年金融危机和 2020 年疫情期间,新系统成功捕捉到了不同模型的表现差异。
    • 比如在 2008 年危机时,某些模型表现很好(绿色),而另一些则惨败(红色)。
    • 到了 2020 年疫情,情况可能反转。
    • 结论: 没有一种模型是永远的神。新系统能像**“实时导航”**一样,告诉监管者:“现在这个模型最好用,但下个月如果市场变了,可能要换那个模型。”

总结

这篇论文就像给金融监管者发了一套**“智能实时裁判系统”**。

  • 以前: 只能等赛季结束,看总分,而且只能看“及格没”。
  • 现在: 可以随时看积分,不仅知道“及格没”,还能知道“谁比谁跑得快”。即使两个模型都表现一般,也能通过“谁涨分更快”来分出高下。

这套系统不挑食、反应快、能应对突发路况,让银行的风险管理更加透明、科学,也能在危机来临时更快地做出反应,保护大家的钱袋子。