Uncertainty in Physics and AI: Taxonomy, Quantification, and Validation

本文提出了一种面向物理学的机器学习不确定性量化的统一分类法与结构化概览,阐明了不同统计框架下的解释,并概述了原则性验证工具,以确保科学发现中概率陈述的可靠性。

原作者: Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

发布于 2026-05-12
📖 1 分钟阅读🧠 深度阅读

原作者: Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

以下是论文《物理与人工智能中的不确定性:分类、量化与验证》的通俗解读,辅以生动的类比。

宏观图景:为何仅靠猜测是不够的

想象你是一位试图发现新粒子的物理学家,或者是一位利用人工智能诊断疾病的医生。在这两种情况下,得出正确答案固然重要,但了解你对该答案有多确信则更为关键。

如果人工智能说:“有 99% 的把握这是肿瘤”,但实际上那只是一道阴影,那就很危险。如果物理学家宣称:“我们发现了一种新粒子”,但其数学计算未考虑数据的“模糊性”,那他们可能会出错。

这篇论文是科学家和人工智能研究人员的指南。它主张我们需要一种通用的语言来讨论不确定性(预测中的“模糊性”或“疑虑”),并制定严格的规则来核查这种不确定性是否被如实报告。


1. 疑虑词典(分类法)

论文首先指出,物理学家和人工智能专家经常用不同的词汇描述相同的事物,这导致了混淆。他们提出了一份清晰的“词典”,包含两个主要维度来梳理不确定性:

维度 A:疑虑从何而来?(来源)

  • 统计不确定性(“噪声”): 想象你试图通过测量三个人来猜测房间里人的平均身高。你的猜测可能出错,仅仅是因为你测量的人数不够。这就是统计性的。如果你测量了 1000 个人,这种疑虑就会消失。
  • 系统不确定性(“坏尺子”): 想象你测量了 1000 个人,但你的尺子实际上短了 1 英寸。无论你测量多少人,你的答案永远都是错的。这就是系统性的。它源于糟糕的工具或错误的假设,而非数据不足。

维度 B:我们能解决它吗?(性质)

  • 偶然不确定性(“掷骰子”): 这是自然界固有的随机性。想象抛硬币。即使你了解关于硬币和抛掷者的所有信息,你也无法预测下一次的结果。这是不可约减的。你无法通过获取更多数据来解决这个问题;这就是世界的运作方式。
  • 认知不确定性(“缺失的拼图块”): 这是由知识匮乏引起的疑虑。想象你正在试图拼凑拼图,但少了一半的碎片。如果你获得更多碎片(更多数据)或更清楚地看到拼图的全貌(更好的理论),这种疑虑就会消失。这是可约减的。

论文的关键洞见: 这些类别是相互重叠的。例如,一把“坏尺子”(系统性)可能是一块“缺失的拼图块”(认知性),如果我们还不知道尺子是坏的话。论文提供了一张图表来帮助梳理这些概念,以免科学家将它们混淆。


2. 两种思维方式(频率学派 vs. 贝叶斯学派)

论文解释了处理这些疑虑的两种主要思想流派:

  • 频率学派(“长期赌徒”): 这种方法问的是:“如果我重复这个实验 1000 次,我的答案有多少次是正确的?”他们关注覆盖率。如果他们说“我有 95% 的把握”,意思是说在 100 次重复实验中,有 95 次真实答案会落在他们的范围内。
  • 贝叶斯学派(“信念更新者”): 这种方法问的是:“考虑到我之前的知识和刚刚看到的内容,我的答案有多大可能性?”他们从“先验信念”(基于过去经验的猜测)开始,利用新数据将其更新为“后验”(新的、更新后的信念)。

论文指出,粒子物理学通常喜欢频率学派的方法,而宇宙学往往更偏爱贝叶斯学派。两者都是有效的,但它们说着不同的语言。


3. 压力测试(验证)

论文最重要的部分是关于验证。仅仅因为人工智能声称它有 95% 的把握,并不意味着它确实有 95% 的把握。论文提出了三种“压力测试”人工智能预测的方法:

  • 覆盖率测试(“安全网”): 如果人工智能画了一个安全网(预测区间),声称它能 95% 的概率接住真实答案,你就去检查这个网。如果你扔下 100 个球,而网只接住了 80 个,那人工智能就在撒谎(它过于自信)。如果它接住了 99 个,那它就过于谨慎了。
  • 偏差测试(“重心”): 人工智能的最佳猜测是否持续地向左或向右偏移?想象一个飞镖靶。如果人工智能投出的飞镖都紧密地聚集在一起,但全部偏离靶心 2 英寸,那它就有偏差。它很精确,但不准确。
  • 评分规则(“成绩单”): 这种方法不仅仅是检查人工智能是对是错,而是根据其整个概率分布与现实世界的匹配程度给人工智能打分。它奖励人工智能诚实地报告其不确定性。如果人工智能说“我是五五开”,而事实确实是五五开,它就会得到高分。如果它说“我 100% 确定”却错了,它就会得到极低的分数。

4. “玩具”示例(现实世界中会发生什么?)

作者将这些想法应用于简单的数学问题(回归和分类),以观察不同人工智能方法的表现。

  • “安全区”(插值): 当人工智能被要求预测与其所见相似的事物时(例如,基于 7 月份的数据预测 7 月份的天气),几乎所有方法都能很好地工作。它们都给出相似的答案和相似的信心水平。
  • “危险区”(外推): 当人工智能被要求预测它从未见过的事物时(例如,仅基于 1 月份的数据预测 7 月份的天气),情况就会变得混乱。
    • 教训: 在危险区,人工智能的信心不再基于数据,而是基于假设
    • 类比: 想象一张城市地图。如果你让人工智能告诉你一所你从未见过的房子的街道名称,但这所房子在你熟悉的道路上,它可以猜出来。但如果你让它告诉你一个完全不同国家里一所房子的街道名称,它就必须根据它认为城市看起来像什么来猜测。
    • 结果: 论文发现,在这些“未知”区域,不同的人工智能方法给出了截然不同的答案和信心水平。没有一种是完全可靠的。它们报告的不确定性主要反映了它们内部的“个性”(它们的数学假设),而非实际知识。

总结

这篇论文呼吁科学界保持清晰和诚实。

  1. 停止混淆词汇: 明确你的疑虑是来自噪声(随机性)还是无知(缺乏数据)。
  2. 检查你的工作: 不要盲目相信人工智能的数字。使用“覆盖率测试”和“偏差测试”来查看人工智能是否真的如实报告了其信心。
  3. 警惕未知: 当人工智能被要求猜测它未曾见过的事物时,它的信心是一种猜测,而非事实。科学家需要对这些“外推”结果保持极度谨慎。

最终目标是确保当人工智能协助科学发现时,我们确切地知道能在多大程度上信任该结果。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →