Bayes, E-values and Testing

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给**“如何在不确定的世界里做实时决策”制定一套新的“交通规则”**。

想象一下，你正在管理一个自动驾驶车队，或者监控一个医院的病人生命体征。数据是源源不断流进来的，而且你随时可能因为突发事件（比如“看起来不对劲”）而决定停下来检查。

传统的统计学方法（比如算 P 值）就像是在跑一场**“定距离赛跑”：你必须事先约定好跑多远（样本量），中途不能停，否则成绩作废。但在现实世界中，我们往往需要“随时可以停车的马拉松”**。

这篇论文提出了一套名为**"E 值（E-values）”和"E 过程”**的新工具，并把它拆解成了三个清晰的层次，就像盖房子一样：地基（表示层）、结构（有效性层）和装修（决策层）。

以下是用通俗语言和比喻对论文核心内容的解读：

1. 核心问题：为什么旧方法会“翻车”？

在传统的统计测试中，如果你还没跑完规定的距离就停下来看结果（这叫“可选停止”），你的结论就会失效，就像作弊一样。

比喻：如果你玩掷硬币游戏，规定掷 100 次看正反面比例。如果你掷了 5 次全是正面，就立刻喊“停！这硬币有问题！”，那你其实是在作弊，因为如果你继续掷，后面可能会全是反面。
新工具：E 过程就像是一个**“永不作弊的计分板”**。无论你在第几步停下来，只要这个计分板上的数字超过了某个界限，你就有把握说“出问题了”。

2. 三层架构：把“证据”拆解开

作者把这套复杂的数学工具拆成了三层，每层负责不同的事，互不干扰：

第一层：表示层（Representation）—— “证据长什么样？”

这是关于**“我们如何描述证据”**。

核心发现：在大多数情况下，最自然、最符合逻辑的证据形式是**“似然比”（Likelihood Ratio）**。
比喻：想象你在玩侦探游戏。
- 似然比就像是**“嫌疑人与无辜者的对比度”**。如果嫌疑人做这件事的概率是无辜者的 100 倍，那么证据就是 100。
- 论文证明，如果你想要最聪明、最省力的判断方式（在数学上叫“最小化贝叶斯风险”），“似然比”是唯一的标准答案。其他的证据形式要么不够好，要么只是碰巧有效。

第二层：有效性层（Validity）—— “证据靠谱吗？”

这是关于**“如何保证不犯错”**。

核心发现：只要证据是一个**“非负超鞅”（Nonnegative Supermartingale）**，它就能保证在任何时候停下来，犯错的概率都不会超过设定值。
比喻：这就像是一个**“防作弊的保险箱”**。
- 不管你怎么操作（随时停止、随时查看），只要这个保险箱里的数字（E 值）没有超过警戒线，你就不能断定“出事了”。
- 论文还发现了一个有趣的**“代码陷阱”：有些为了压缩数据而设计的完美算法（如 NML 编码），虽然能写出最短的代码，但它们不能**直接变成这种“防作弊保险箱”。如果你强行用它们做实时监测，保险箱会漏风（失去有效性）。

第三层：决策层（Decision）—— “什么时候喊停？”

这是关于**“效率”**。

核心发现：如果你只关心“不犯错”（有效性），你可以随便设个门槛。但如果你还想知道**“多久能发现异常”**（效率），你就必须利用第一层的“似然比”结构。
比喻：
- 普通门槛：就像在森林里设一个通用的警报器，响了就报警。它很安全，但可能很久才响一次，或者响得太晚。
- 优化门槛：就像根据风向和地形（似然比结构）专门设计的警报器。它能以最快的速度发现异常。
- 论文给出了一个公式：发现异常所需的时间，大致等于 log(警戒线) / 信息量。这意味着，如果你选对了证据形式（似然比），你发现问题的速度会快得多。

3. 几个关键的“避坑指南”

论文通过实验和理论指出了几个常见的误区：

误区一：把“代码长度”当证据。
- 比喻：有些算法（如 MDL）擅长把故事讲得最短。但“故事最短”不等于“证据最强”。如果你直接用代码长度差来做实时监测，可能会在还没发现真问题时就误报，或者在真出问题时反应迟钝。
- 对策：要用“预序（Prequential）”方法，即一步步预测，而不是事后诸葛亮地算总账。
误区二：模型选错了，证据就废了。
- 比喻：如果你怀疑有人在作弊，但你设定的“作弊模型”是错的（比如你以为他在出老千，其实他是用了高科技），那么你的“证据计分板”可能会一直往下掉，让你误以为一切正常。
- 对策：在实时监测中，要考虑到模型可能不完美，使用混合多种可能性的方法（混合 E 过程）来增加鲁棒性。
误区三：不同的评分规则不能混用。
- 比喻：就像你不能把“足球的进球数”和“篮球的得分”直接相加来比较谁更强。
- 对策：论文证明，只有**“对数损失”（Log-loss，即似然比的基础）**这种特定的评分规则，才能天然地生成这种“防作弊”的证据链条。其他常用的评分规则（如 Brier 分数）虽然也是好的，但不能直接用来做这种实时的、随时停止的测试。

4. 总结：这对我们意味着什么？

这篇论文不仅仅是数学推导，它为人工智能和机器学习的实时应用提供了一套**“安全操作手册”**：

在线监控更安心：无论是监控自动驾驶、医疗 AI 还是金融交易，你可以随时检查系统，不用担心因为“看多了”而误判。
效率更高：通过选择正确的证据形式（似然比），你可以更快地发现系统故障或异常模式。
避免踩雷：它警告开发者，不要随意把“数据压缩算法”或“其他评分标准”直接拿来当实时警报器用，否则可能会失效。

一句话总结：
这就好比给实时决策系统装上了**“带防作弊功能的智能导航”**：它告诉你，只要按照特定的路线（似然比）走，无论你在哪里停车（随时停止），你都不会迷路（保证错误率），而且能最快到达目的地（发现异常）。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种类型化框架（Typed Framework），旨在将顺序检验中的证据（Sequential Evidence）分解为三个逻辑上独立的层次：表示（Representation）、有效性（Validity）和决策（Decision）。文章旨在解决 E-values（E-值）和 E-processes（E-过程）在文献中常被混淆的问题，特别是它们在贝叶斯推理、表示结构和计算可行性之间的关系。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：在现代机器学习和自适应实验中（如在线 A/B 测试、模型监控），数据是连续生成的，且停止规则往往是数据依赖的（optional stopping）。传统的固定样本推断（如 p 值、置信区间）在任意停止规则下会失效。
E-values 的兴起：E-values 和 E-processes（非负上鞅）通过 Ville 不等式提供了“随时有效”（anytime-valid）的推断保证，即无论何时停止，第一类错误率都能控制在 $1/c$ 以内。
核心问题：尽管 E-values 应用广泛，但现有文献常混淆以下三个层面：
1. 证据是什么？（是似然比？还是某种编码长度？）
2. 为什么有效？（是因为上鞅性质？还是 Kraft 不等式？）
3. 如何使用？（是固定阈值？还是基于贝叶斯风险的边界？）
  这种混淆导致实践中出现无效的证据度量（如直接使用 NML 编码长度作为 E 值）或统计功效低下的检验。

2. 方法论：类型化框架 (Methodology)

作者构建了一个三层框架，将顺序证据解耦：

表示层 (Representation Layer)：
- 关注证据的数学形式，特别是 Radon-Nikodým 导数（似然比）和 log-loss 几何结构。
- 核心问题：在什么条件下，证据必须表现为似然比？
有效性层 (Validity Layer)：
- 关注统计保证，即过程在零假设 $H_0$ 下是否为非负上鞅（Supermartingale）。
- 核心工具：Ville 不等式，确保任意停止时间下的错误控制。
决策层 (Decision Layer)：
- 关注停止边界的设计（Stopping boundary）和效率校准。
- 核心问题：如何选择阈值以平衡检测速度和错误率？

3. 主要贡献与理论结果 (Key Contributions & Results)

(1) 对数损失下的规范性 (Canonicality under Log-Loss)

定理 3.1：在相干预测（coherent prediction）和对数损失（log-loss）贝叶斯风险最小化的假设下，**似然比（Likelihood Ratio, LR）**是唯一的规范证据表示。
意义：证明了在贝叶斯框架下，基于 LR 的 E-process 是最优的。其他有效的 E-process 可能不是 LR，但在对数损失下无法达到贝叶斯风险最优。

(2) 中等偏差停止边界与效率差距 (Moderate-Deviation Stopping & Efficiency Gap)

定理 5.4：在 Cramér 条件下，LR 过程的停止时间 $\tau_b$ 满足：
$E_1[\tau_b] = \frac{\log b}{\mu} + O(\sqrt{\log b})$
其中 $\mu = D_{KL}(P_1 \| P_0)$ 。
命题 5.9：仅满足有效性（Validity-only，如基于 Markov 不等式构造）的 E-process 无法保证指数级的增长速率。它们被限制在 $O(1/b)$ 的校准尺度上，缺乏 LR 过程那样的 $\frac{\log b}{\mu}$ 检测效率。
结论：利用表示层信息（LR 结构）可以显著减少检测所需的样本量，而仅依赖有效性层的通用构造则效率低下。

(3) 计算障碍：从代码到 E 值的转换 (Computational Obstruction)

命题 6.1：后悔最优的代码（如 NML/MDL）通常不能直接转化为有效的 E-process。
- 原因：NML 的归一化常数依赖于整个样本量 $n$ ，破坏了顺序分解（sequential factorization）所需的条件，导致其不满足上鞅性质。
定理 6.2：提出了代码转化为有效 E-process 的充要条件（Sequential Liftability）：诱导的预测因子必须是关于过去信息的可测子概率核。
解决方案：使用预序（Prequential）代码（如基于 MLE 的序列预测器）可以构造有效的 E-process，而静态的 NML 代码则不行。

(4) 证据类的代数性质与最大性

定理 4.2：E-process 类在凸组合、贝叶斯混合、可预测停止和缩放（ $c \in (0,1]$ ）下是封闭的。
命题 4.3：证明了该证据类是满足 Ville 控制的最大凸类。
应用：支持在在线管道中模块化地构建证据（例如，通过“缝合”Stitching 不同阶段的证据）。

(5) 评分规则的唯一性

命题 7.2：在所有严格 Proper Scoring Rules 中，对数损失（Log-loss）是唯一能产生满足上鞅性质的乘积证据过程的规则。其他规则（如 Brier 分数）产生的过程在零假设下会指数衰减至零，缺乏信息量。

(6) 与保形预测（Conformal Prediction）的联系

命题 8.3：在交换性假设下，基于非一致性（nonconformity）的 E 值可以提供随时有效的覆盖率保证，将类型化框架扩展到分布无关的在线学习。

4. 实验验证 (Experiments)

论文通过蒙特卡洛模拟验证了理论预测：

检测效率：在伯努利分布假设检验中，LR E-process 的停止时间分布紧密符合 $\frac{\log b}{\mu}$ 理论值，而无效构造（如未归一化的 ML 比率）会导致第一类错误率严重膨胀（从名义上的 5% 升至 22.5%）。
模型误设敏感性：如果备择假设 $P_1$ 误设（即真实数据 $P_{true}$ 离 $P_1$ 比离 $P_0$ 更远），LR 证据会向零漂移，导致无法检测，这突显了表示层选择的重要性。

5. 意义与影响 (Significance)

理论澄清：该框架清晰地分离了证据的“表示”、“有效性”和“决策”，解决了文献中长期存在的概念混淆。
实践指导：
- 在线模型验证：建议使用基于似然比的 E-process 进行模型监控，以获得最佳的检测速度。
- MDL 与在线学习：警告 practitioners 不要直接将 NML 代码长度用作顺序证据，而应使用预序（Prequential）预测器。
- 自适应实验：提供了在不进行 $\alpha$ 消耗（ $\alpha$ -spending）调整的情况下，组合多阶段实验证据的数学基础。
连接领域：将 E-values、PAC-Bayes 界限、大偏差理论和信息论（MDL）统一在一个类型化的数学结构中。

总结：这篇论文不仅深化了对 E-values 的理论理解，还提供了一个实用的工程架构，指导如何在保证统计有效性的同时，最大化顺序检验的效率和计算可行性。它强调了在构建顺序证据时，必须同时考虑其概率结构（上鞅性）和表示结构（似然比/编码），二者缺一不可。