Each language version is independently generated for its own context, not a direct translation.

这篇文章《Bayes with No Shame》（无羞耻的贝叶斯）探讨了一个非常深刻的问题：在统计学和机器学习中，到底什么才算是一个“好”的预测方法？

作者认为，世界上并不存在一个唯一的“完美标准”来衡量所有预测方法。相反，存在四种完全不同的“完美”标准，它们就像四个不同的维度，彼此之间无法互相替代，甚至互不兼容。

为了让你轻松理解，我们可以把预测方法想象成赛车手，把预测任务想象成赛车比赛。而这篇文章的核心观点就是：不同的比赛有不同的规则，不同的规则下，冠军也不同。

核心隐喻：四种不同的“冠军”标准

想象一下，我们有一群赛车手（预测算法），他们要在不同的赛道上比赛。作者提出了四种不同的“冠军”判定标准（即四种“无羞耻”的几何结构）：

1. 贝叶斯冠军（Blackwell Admissibility）：

标准：“只要我按我的剧本走，我就永远是最优的。”
比喻：这位赛车手手里拿着一本详细的剧本（先验概率 Prior）。他相信世界是按照这个剧本运行的。只要剧本是对的，他在每一圈（每一次预测）都做出了当时最完美的选择。
特点：如果你发现他输给了别人，那一定是因为你的剧本（假设）不对。只要你的剧本和他一样，你就无法指责他。
证书：他的“支持超平面先验”（Supporting-hyperplane prior）。就像他手里拿着的剧本，证明他每一步都问心无愧。

2. 随时有效冠军（Anytime-Valid Admissibility）：

标准：“无论你在什么时候喊停，我都不会让你输。”
比喻：这位赛车手参加的是赌博游戏。他手里有一个非负的超级鞅（Supermartingale），就像是一个永远不会变成负数的钱包。无论观众（裁判）在比赛的第 1 分钟、第 10 分钟还是第 100 分钟突然喊“停”，他的钱包里都不会亏钱（控制第一类错误）。
特点：他不在乎每一圈跑得有多快，他只在乎无论何时停止，我都安全。这非常适合临床试验，因为医生可能随时决定停止试验。
证书：非负鞅性质。就像他的钱包永远鼓鼓的，不会破产。

3. 覆盖率冠军（Marginal Coverage Validity）：

标准：“我不猜具体是多少，但我保证猜的范围内有 95% 的概率包含真相。”
比喻：这位赛车手不猜具体的圈速，他猜一个范围（预测区间）。比如他说：“冠军的圈速在 1 分 30 秒到 1 分 35 秒之间”。他的目标是：在 100 次比赛中，至少有 95 次，真正的圈速落在这个范围内。
特点：他不需要知道具体的概率分布，只要数据是“可交换的”（即大家地位平等），他就能保证覆盖率。这就像保龄球，只要球瓶倒下的概率够高就行，不管球是怎么飞过去的。
证书：交换性排名（Exchangeability rank）。就像他手里拿着一个“保龄球瓶计数表”，保证倒下的数量达标。

4. 长期平均冠军（CAA-admissibility / Approachability）：

标准：“虽然我现在可能跑得很烂，但跑完一万圈后，我的平均成绩一定是顶尖的。”
比喻：这位赛车手使用防御性预测（Defensive Forecasting）。他不需要知道剧本，也不需要保证每一圈都安全。他只需要保证：在长跑的终点，我的平均表现会收敛到理论上的最佳边界。他像一个老练的棋手，通过固定点论证（Fixed-point argument），确保长期来看不会输。
特点：他不在乎单局的输赢，只在乎长期的平均表现。这就像“积少成多”，只要时间足够长，他就能达到最优。
证书：切萨罗（Cesàro）导向论证。就像他的“长期平均成绩单”。

文章的核心发现：没有“全能冠军”

这篇文章最震撼的结论是：这四个标准是互不兼容的（Pairwise Non-nested）。

贝叶斯冠军（按剧本跑）可能不是“随时有效冠军”（因为如果剧本错了，他在中途喊停时可能会输）。
随时有效冠军（保证不破产）可能不是“贝叶斯冠军”（因为他可能为了安全而跑得很慢，没有利用剧本优化每一圈）。
覆盖率冠军（猜范围）可能不是“贝叶斯冠军”（因为他猜的是范围，而不是具体的点，无法最小化具体的损失函数）。
长期平均冠军（长跑王）可能不是“贝叶斯冠军”（因为他可能在每一圈都跑得很烂，只是最后平均好了）。

这就好比：

一个短跑冠军（贝叶斯）不一定能拿马拉松冠军（长期平均）。
一个越野赛车手（随时有效）不一定能在F1 赛道（贝叶斯）上拿第一。
一个保龄球手（覆盖率）根本就不是在开赛车。

什么是“无羞耻”（No Shame）？

作者用了一个很妙的词：“羞耻”（Shame）。

如果你用了一个**被“支配”（Dominated）**的算法，意味着存在另一个算法，在所有情况下都比你的好。这就好比你在比赛中明明可以跑得更快，却选了个慢的方法，这就是“羞耻”。
“无羞耻”策略就是：在你的规则体系下，没有任何其他方法能比你更好。
- 在贝叶斯规则下，贝叶斯算法是“无羞耻”的。
- 在随时有效规则下，鞅算法是“无羞耻”的。
- 在覆盖率规则下，共形预测是“无羞耻”的。

关键点：一个算法在规则 A 下是“无羞耻”的（完美的），但在规则 B 下可能“羞耻”得要死（被支配）。这取决于你先选择了哪条赛道。

现实生活中的启示

这篇文章对现在的 AI 和机器学习有巨大的指导意义：

不要盲目追求“校准”（Calibration）：
现在的 AI 大模型（LLM）经常说“我很自信，我有 90% 的把握”。如果它只是“自我一致”（自己觉得自己准），那就像那个插值 MLE 算法（Plug-in MLE），虽然看起来像鞅（自洽），但实际上在真实世界里是有羞耻的（会被贝叶斯方法完爆）。
- 教训：不要只看模型自己觉得准不准，要看它在真实数据分布下是否真的最优。
根据任务选择规则：
- 如果你在做临床试验，随时喊停是常态，那你必须选**随时有效（Anytime-Valid）**的算法，哪怕它不是贝叶斯最优的。
- 如果你在做风险预测（比如预测明天会不会下雨），你需要覆盖率保证，那就用共形预测。
- 如果你有一个明确的物理模型，那就用贝叶斯。
没有万能药：
不要试图找一个“全能算法”来解决所有问题。如果你试图用一个算法同时满足所有标准（既要贝叶斯最优，又要随时有效，又要覆盖率），你会发现这是几何上不可能的。

总结

这篇文章就像是在告诉统计学家和 AI 工程师：

“别吵架了，也别试图找一个‘上帝视角’的终极标准。你们只是在不同的赛道上比赛。贝叶斯方法在它的赛道上是冠军，共形预测在它的赛道上是冠军。只要你清楚自己是在哪条赛道上，并且遵守那条赛道的规则，你就是‘无羞耻’的。但如果你试图用短跑的规则去评判马拉松选手，那才是真的‘羞耻’。”

这就是**“无羞耻的贝叶斯”**：承认不同的完美标准，并在自己选择的几何结构中做到最好。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：《无羞耻的贝叶斯：预测推断的容许性几何》

标题：Bayes with No Shame: Admissibility Geometries of Predictive Inference
作者：Nicholas G. Polson (芝加哥大学) & Daniel Zantedeschi (南佛罗里达大学)
日期：2026 年 3 月 6 日 (预印本)

1. 研究背景与核心问题

在预测推断领域，存在四个活跃但语言不通的研究方向：

贝叶斯优化与适当评分规则（Proper Scoring Rules）：关注风险最小化。
随时有效推断（Anytime-Valid Inference）：基于 e-processes，关注任意停止时间下的误差控制。
共形预测（Conformal Prediction）：关注分布无关的覆盖率（Coverage）。
在线学习与防御性预测（Defensive Forecasting）：基于 Blackwell 逼近性（Approachability），关注长期平均校准。

核心问题：这四个领域都声称其算法是“最优”的，但它们基于不同的目标函数、不同的偏序关系和不同的最优性证明（证书）。本文旨在揭示这些“最优性”概念在几何结构上是互不嵌套（pairwise non-nested）的，即不存在一个统一的框架能同时涵盖所有四种最优性。

核心隐喻：“无羞耻”（No Shame）。作者借用威廉姆斯（Bernard Williams）的道德哲学，将“羞耻”定义为一种策略被另一个策略在风险上严格占优（dominated）的状态。如果一个策略是“无羞耻”的（即容许的，Admissible），那么不存在另一个策略能在所有参数下提供更低的风险。然而，什么是“羞耻”取决于你采用的评价标准（几何结构）。

2. 方法论与理论框架

论文建立了一个统一的决策理论框架，通过定义四种不同的容许性几何（Admissibility Geometries）来形式化上述问题。

2.1 基础定义

统计决策问题：包含参数空间 $\Theta$ 、动作空间 $A$ 、损失函数 $L$ （允许 $+\infty$ ，如 log loss）、样本空间 $X$ 和模型 $P$ 。
风险集（Risk Set）： $R = \{r(\delta) : \delta \in D\}$ ，其中 $r(\delta)$ 是决策规则 $\delta$ 在所有 $\theta$ 下的风险向量。
容许性（Admissibility）：规则 $\delta$ 是容许的，当且仅当其风险向量位于风险集 $R$ 的下边界（Lower Boundary, $\partial_- R$ ）上。

2.2 四种容许性几何

论文定义了四种不同的最优性标准，每种对应不同的可行集 $F$ 和证书（Certificate）：

Blackwell 容许性 (B)：
- 目标：最小化贝叶斯风险（无约束）。
- 证书：支撑超平面先验（Supporting-hyperplane prior）。
- 性质：等价于贝叶斯最优性（Corollary 3.12）。
- 几何：凸风险集的下边界。
随时有效容许性 (A, Anytime-Valid)：
- 目标：在任意停止时间 $\tau$ 控制 I 类错误。
- 证书：非负上鞅（Non-negative supermartingale / e-process）。
- 性质：在 e-process 类中，容许性等价于非负鞅性质。
- 几何：非负上鞅锥。
边际覆盖率容许性 (C, Coverage)：
- 目标：满足边际覆盖率 $P(Y \in \hat{C}) \ge 1-\alpha$ 。
- 证书：可交换性秩（Exchangeability rank）。
- 性质：共形预测集在可交换性假设下达到边界。
- 几何：覆盖率可行区域（半空间）。
Cesàro 逼近性容许性 (D, CAA)：
- 目标：时间平均风险收敛到风险集下边界。
- 证书：Cesàro 导向论证（Cesàro steering argument，基于不动点或极小极大定理）。
- 性质：防御性预测（Defensive forecasting）属于此类，它不要求每一步都是贝叶斯最优，只要求长期平均收敛。
- 几何：逼近性类。

2.3 关键理论工具

约束贝叶斯问题（Constrained Bayes Problem）：所有四种几何都可以统一为： $\min_{\delta \in F} \int R(\theta, \delta) d\Pi(\theta)$ ，其中 $F$ 是特定的可行集（如 $F=D$ , $F=CAV$ , $F=CCov$ 等）。
鞅相干性（Martingale Coherence）：
- 是 Blackwell 容许性的必要条件（贝叶斯预测序列必须是鞅）。
- 是随时有效容许性的充要条件（在 e-process 类中）。
- 不是 Blackwell 容许性的充分条件（如 MLE 是鞅但被贝叶斯规则占优）。
- 不是覆盖率或 CAA 容许性的必要条件。

3. 主要结果

3.1 准则分离定理 (Criterion Separation Theorems)

这是论文的核心贡献（Theorem 5.9 和 6.6）：

结论：上述四类容许程序集合（ $B, A, C, D$ $B, A, C, D$ ）是两两互不嵌套的。
- $B \not\subseteq A, A \not\subseteq B$
- $B \not\subseteq C, C \not\subseteq B$
- $A \not\subseteq C, C \not\subseteq A$
- 加入第四类后， $D$ 与其他三类也互不嵌套。
含义：不存在一个单一的程序能同时满足所有四种最优性标准。这种分离是结构性的（Structural），源于可行集和偏序关系的几何不兼容性，而非近似误差。

3.2 构造性反例 (Bernoulli 实验室)

论文在伯努利模型中构造了具体算法来证明分离性：

P1 (贝叶斯预测)：Blackwell 容许，但不是 e-process，也不产生预测集。
P2 (MLE/Plug-in)：满足鞅性质，但不是 Blackwell 容许（在 Log Loss 下风险为无穷大，被贝叶斯规则严格占优）。
P3 (e-process)：随时有效容许，但不优化点预测损失。
P4 (共形预测集)：满足覆盖率，但不是点预测的贝叶斯规则，也不是 e-process。
P5 (防御性预测)：Cesàro 容许（长期校准），但在任何有限步都不是贝叶斯最优，也不满足其他标准。

3.3 高斯模型验证

在高斯位置模型（平方损失）下，分离现象依然存在。样本均值 $\bar{X}_n$ 是 Blackwell 容许的，但不是 e-process；共形区间满足覆盖率但不是点预测的贝叶斯最优。

4. 关键发现与意义

4.1 鞅相干性的局限性

论文澄清了一个常见误区：“看起来校准”（自洽/鞅性质）并不等同于“容许”（无羞耻）。

例如，MLE 在自身预测分布下是校准的（鞅），但在真实数据生成过程下，由于对不可能事件赋予零概率（导致 Log Loss 无穷大），它是被严格占优的。
这解释了为什么在 LLM 校准和概率预测中，仅追求自洽性是不够的，必须引入正则化（如贝叶斯先验）以避免无限风险。

4.2 道德多元主义的统计类比

论文将统计推断中的“最优性”比作道德哲学中的多元主义。不同的评价标准（几何）定义了不同的“无羞耻”状态。一个在贝叶斯框架下“无羞耻”的预测器，在共形预测框架下可能是“可耻”的（覆盖率不足），反之亦然。没有单一的“上帝视角”能统一所有标准。

4.3 对实践的指导意义

概率预测与 LLM：应将校准视为可行性约束（Feasibility Constraint），在满足校准约束的集合内优化贝叶斯风险（Constrained Bayes）。
临床试验：e-process 框架提供了随时停止的灵活性，但需意识到它可能牺牲 Neyman-Pearson 意义下的检验功效。
黑盒预测器：共形包装（Conformal Wrapper）可以将任意预测器转化为满足覆盖率的方法，但这改变了评价对象（从点预测变为集合预测），因此不能直接比较其原始损失。

5. 总结

本文通过引入四种几何结构（凸风险集、上鞅锥、覆盖区域、逼近类），严格证明了预测推断中不同“最优性”概念的不可通约性（Incommensurability）。

核心贡献：提出了“准则分离定理”，证明了 Blackwell、Anytime-Valid、Coverage 和 CAA 四种容许性几何是两两互不嵌套的。
理论突破：揭示了鞅性质在不同几何中的不同地位（必要、充要或无关），并统一了所有标准为“约束贝叶斯”形式。
实践启示：研究者和从业者必须明确其目标函数和约束条件（即选择了哪种几何），因为不存在通用的“最佳”算法。选择一种可行性约束（如校准、覆盖率或任意停止）即隐含选择了一种特定的最优性几何，而分离定理保证了没有算法能同时在所有几何中达到最优。

这篇论文为理解现代机器学习、统计推断和在线学习中的各种“最优”算法提供了一个深刻的几何统一视角，强调了在评价算法时明确“评价标准”的重要性。

Bayes with No Shame: Admissibility Geometries of Predictive Inference