以下是论文《物理与人工智能中的不确定性：分类、量化与验证》的通俗解读，辅以生动的类比。

宏观图景：为何仅靠猜测是不够的

想象你是一位试图发现新粒子的物理学家，或者是一位利用人工智能诊断疾病的医生。在这两种情况下，得出正确答案固然重要，但了解你对该答案有多确信则更为关键。

如果人工智能说：“有 99% 的把握这是肿瘤”，但实际上那只是一道阴影，那就很危险。如果物理学家宣称：“我们发现了一种新粒子”，但其数学计算未考虑数据的“模糊性”，那他们可能会出错。

这篇论文是科学家和人工智能研究人员的指南。它主张我们需要一种通用的语言来讨论不确定性（预测中的“模糊性”或“疑虑”），并制定严格的规则来核查这种不确定性是否被如实报告。

1. 疑虑词典（分类法）

论文首先指出，物理学家和人工智能专家经常用不同的词汇描述相同的事物，这导致了混淆。他们提出了一份清晰的“词典”，包含两个主要维度来梳理不确定性：

维度 A：疑虑从何而来？（来源）

统计不确定性（“噪声”）： 想象你试图通过测量三个人来猜测房间里人的平均身高。你的猜测可能出错，仅仅是因为你测量的人数不够。这就是统计性的。如果你测量了 1000 个人，这种疑虑就会消失。
系统不确定性（“坏尺子”）： 想象你测量了 1000 个人，但你的尺子实际上短了 1 英寸。无论你测量多少人，你的答案永远都是错的。这就是系统性的。它源于糟糕的工具或错误的假设，而非数据不足。

维度 B：我们能解决它吗？（性质）

偶然不确定性（“掷骰子”）： 这是自然界固有的随机性。想象抛硬币。即使你了解关于硬币和抛掷者的所有信息，你也无法预测下一次的结果。这是不可约减的。你无法通过获取更多数据来解决这个问题；这就是世界的运作方式。
认知不确定性（“缺失的拼图块”）： 这是由知识匮乏引起的疑虑。想象你正在试图拼凑拼图，但少了一半的碎片。如果你获得更多碎片（更多数据）或更清楚地看到拼图的全貌（更好的理论），这种疑虑就会消失。这是可约减的。

论文的关键洞见： 这些类别是相互重叠的。例如，一把“坏尺子”（系统性）可能是一块“缺失的拼图块”（认知性），如果我们还不知道尺子是坏的话。论文提供了一张图表来帮助梳理这些概念，以免科学家将它们混淆。

2. 两种思维方式（频率学派 vs. 贝叶斯学派）

论文解释了处理这些疑虑的两种主要思想流派：

频率学派（“长期赌徒”）： 这种方法问的是：“如果我重复这个实验 1000 次，我的答案有多少次是正确的？”他们关注覆盖率。如果他们说“我有 95% 的把握”，意思是说在 100 次重复实验中，有 95 次真实答案会落在他们的范围内。
贝叶斯学派（“信念更新者”）： 这种方法问的是：“考虑到我之前的知识和刚刚看到的内容，我的答案有多大可能性？”他们从“先验信念”（基于过去经验的猜测）开始，利用新数据将其更新为“后验”（新的、更新后的信念）。

论文指出，粒子物理学通常喜欢频率学派的方法，而宇宙学往往更偏爱贝叶斯学派。两者都是有效的，但它们说着不同的语言。

3. 压力测试（验证）

论文最重要的部分是关于验证。仅仅因为人工智能声称它有 95% 的把握，并不意味着它确实有 95% 的把握。论文提出了三种“压力测试”人工智能预测的方法：

覆盖率测试（“安全网”）： 如果人工智能画了一个安全网（预测区间），声称它能 95% 的概率接住真实答案，你就去检查这个网。如果你扔下 100 个球，而网只接住了 80 个，那人工智能就在撒谎（它过于自信）。如果它接住了 99 个，那它就过于谨慎了。
偏差测试（“重心”）： 人工智能的最佳猜测是否持续地向左或向右偏移？想象一个飞镖靶。如果人工智能投出的飞镖都紧密地聚集在一起，但全部偏离靶心 2 英寸，那它就有偏差。它很精确，但不准确。
评分规则（“成绩单”）： 这种方法不仅仅是检查人工智能是对是错，而是根据其整个概率分布与现实世界的匹配程度给人工智能打分。它奖励人工智能诚实地报告其不确定性。如果人工智能说“我是五五开”，而事实确实是五五开，它就会得到高分。如果它说“我 100% 确定”却错了，它就会得到极低的分数。

4. “玩具”示例（现实世界中会发生什么？）

作者将这些想法应用于简单的数学问题（回归和分类），以观察不同人工智能方法的表现。

“安全区”（插值）： 当人工智能被要求预测与其所见相似的事物时（例如，基于 7 月份的数据预测 7 月份的天气），几乎所有方法都能很好地工作。它们都给出相似的答案和相似的信心水平。
“危险区”（外推）： 当人工智能被要求预测它从未见过的事物时（例如，仅基于 1 月份的数据预测 7 月份的天气），情况就会变得混乱。
- 教训： 在危险区，人工智能的信心不再基于数据，而是基于假设。
- 类比： 想象一张城市地图。如果你让人工智能告诉你一所你从未见过的房子的街道名称，但这所房子在你熟悉的道路上，它可以猜出来。但如果你让它告诉你一个完全不同国家里一所房子的街道名称，它就必须根据它认为城市看起来像什么来猜测。
- 结果： 论文发现，在这些“未知”区域，不同的人工智能方法给出了截然不同的答案和信心水平。没有一种是完全可靠的。它们报告的不确定性主要反映了它们内部的“个性”（它们的数学假设），而非实际知识。

总结

这篇论文呼吁科学界保持清晰和诚实。

停止混淆词汇： 明确你的疑虑是来自噪声（随机性）还是无知（缺乏数据）。
检查你的工作： 不要盲目相信人工智能的数字。使用“覆盖率测试”和“偏差测试”来查看人工智能是否真的如实报告了其信心。
警惕未知： 当人工智能被要求猜测它未曾见过的事物时，它的信心是一种猜测，而非事实。科学家需要对这些“外推”结果保持极度谨慎。

最终目标是确保当人工智能协助科学发现时，我们确切地知道能在多大程度上信任该结果。

技术摘要：物理学与人工智能中的不确定性：分类、量化与验证

问题陈述

将机器学习（ML）整合到物理学中，需要可靠的不确定性量化（UQ），以确保科学结论在统计上有效。虽然不确定性估计对于物理学中确定测量可信度、合并结果以及确立发现阈值不可或缺，但其在机器学习中的应用往往缺乏统一的统计解释。不同社区间的术语不一致：物理学家传统上区分统计不确定性和系统不确定性，而统计学和机器学习文献通常使用偶然（数据）和认知（模型）的区分。这些词汇虽有重叠但并非同义，导致关于不确定性的可约减性和来源的潜在混淆。此外，现代机器学习的 UQ 方法在理论基础上差异巨大，从具有有限样本保证的方法（如共形预测）到依赖经验验证的方法（如深度集成）不等。因此，迫切需要建立一个结构化框架，以澄清这些概念，区分推断不确定性与预测不确定性，并提供原则性的验证工具。

方法论

本文通过三个主要方法论支柱建立了 UQ 的结构化概述：

分类框架：作者提出了一个基于三个维度的统一分类法：
- 来源：统计（有限数据波动）与系统（建模/假设不完美）。
- 性质：偶然（数据生成中不可约减的随机性）与认知（因缺乏知识而产生的不确定性，可通过更多数据或更优模型减少）。
- 对象：推断不确定性（关于参数 $\theta$ ）与预测不确定性（关于未来可观测量 $y^*$ ）。
  本文阐明，统计/系统是对来源的分类，而偶然/认知是对性质的分类。它明确将认知不确定性分解为训练变异性、数据变异性、模型偏差和域偏移。
统计视角：本文对比了频率学派和贝叶斯框架。
- 频率学派：关注长期保证（如置信区间、共形预测），其中数据是随机的，参数是固定的。
- 贝叶斯学派：关注参数的概率建模（后验分布）以及通过边缘化得到的预测分布。
- 文本讨论了两者之间的桥梁，如 Bernstein–von Mises 定理以及广义/后贝叶斯方法（例如广义变分推断），这些方法将推断目标与严格的似然假设解耦。
验证与诊断：作者详述了用于验证 UQ 的具体统计工具：
- 覆盖率测试：评估预测区域是否以宣称的频率包含真实结果（边际与条件）。
- 校准：测量预测概率与观测频率之间的一致性（例如，期望校准误差、可靠性图）。
- 偏差测试：利用拉分布（pull distributions）和标准化残差诊断中心估计的系统性偏移。
- 严格评分规则：评估预测分布的整体保真度（例如，Brier 分数、负对数似然），以激励诚实的概率预测。
实证示例：本文在受控的回归和分类任务中实施并比较了五种 UQ 方法：
- 方法：高斯过程（GP）、共形预测（CP）、通过变分推断（VI）和哈密顿蒙特卡洛（HMC）实现的贝叶斯神经网络（BNN）、排斥集成（RE）以及证据深度学习（EDL）。
- 任务：一维回归问题（测试插值与外推）和二分类问题（移除了中心正方形的双月数据集）。

主要贡献

统一分类法：本文提供了清晰的多维不确定性分类，调和了物理学中的“统计/系统”语言与机器学习中的“偶然/认知”语言，明确映射了它们的交集（例如表 1）。
对象区分：它严格区分了推断不确定性（参数）与预测不确定性（可观测量），阐明了验证标准（如覆盖率）在这两者之间存在显著差异。
验证工具包：它整合了一套原则性的诊断工具（覆盖率、校准、偏差、评分规则），用于评估基于机器学习的陈述在科学工作流中是否可信。
方法比较：通过具体实例，本文展示了不同的建模假设（归纳偏置）如何导致不同的不确定性估计，特别是在数据稀疏的外推区域。

结果

实证示例得出了几个关键发现：

插值与外推：在数据丰富的插值区域，不同的 UQ 方法（GP、BNN、集成、CP）产生了可比的准确度和不确定性带。然而，在外推区域（训练域之外），这些方法显著分化。它们的行为由归纳偏置（例如 GP 中的核选择、神经网络中的架构）而非数据约束所支配。
外推中的校准失效：验证诊断（校准曲线和拉分布）显示，虽然方法在训练域内可能校准良好，但当被迫外推时，没有任何方法能保持标称覆盖率或单位宽度的拉分布。这些区域的不确定性估计反映的是先验假设，而非统计约束。
分类性能：在二分类任务中，执行后验推断的方法（HMC、VI、集成）通常在校准方面优于确定性基线（更低的 Brier 分数和 ECE）。排斥集成通过更好地覆盖后验，显示出比朴素集成更好的校准效果。
近似限制：虽然 HMC 作为“黄金标准”，但在简单、单峰场景中，平均场 VI 和其他近似方法的表现可能相当。然而，本文指出，对于复杂后验（多峰、重尾），近似方法的选择变得至关重要。

意义与主张

本文将自己定位为VERaiPHY倡议的基础性贡献，旨在建立物理学中机器学习的验证标准。其意义在于：

概念清晰：它弥合了物理学、统计学和机器学习社区之间的术语鸿沟，为讨论不确定性提供了共同语言。
实践指导：它强调 UQ 的有效性并非由方法的正式推导所保证，而必须使用特定的诊断进行经验验证。
现实预期：作者谦逊地主张，虽然可扩展的 UQ 方法已经存在，但最关键的开放问题是它们在非理想假设（模型误设、分布偏移）下的鲁棒性。他们认为，在外推区域，不确定性根本上依赖于建模假设，需要谨慎解读而非盲目信任算法输出。
流程集成：本文断言，鲁棒的 UQ 不是可选的附加组件，而是完整科学推断流程的结构组成部分，对于解折叠、参数估计和全局拟合等下游任务至关重要。

工作结论指出，ML 在科学中的可信使用，要求在流程的每个阶段都将建模假设、推断程序和验证诊断明确化并使其可测试。

Uncertainty in Physics and AI: Taxonomy, Quantification, and Validation