Improvise, Adapt, Overcome: An On-The-Fly Multifidelity Algorithm for Efficient Machine Learning

本文介绍了一种自适应、即时的多保真度机器学习框架,该框架能够自动优化不同保真度层级间的训练数据组成,与单保真度和标准多保真度方法相比,显著降低了量子化学应用中的数据生成成本并消除了冗余。

原作者: Vivin Vinod, Peter Zaspel

发布于 2026-06-03
📖 1 分钟阅读☕ 轻松阅读

原作者: Vivin Vinod, Peter Zaspel

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正试图教会一台计算机去预测分子的行为,比如它们如何振动或拥有多少能量。为了做到这一点,计算机需要“训练数据”。

在量子化学领域,有两种类型的数据:

  1. 廉价、低质量的数据: 就像一张模糊的黑白素描。它生成起来很快也很容易,但不太准确。
  2. 昂贵、高质量的数据: 就像一张高清的 4K 彩色照片。它极其准确,但生成它需要耗费大量的时间和计算能力(比如让超级计算机运行数天)。

问题:“固定比例”陷阱

传统上,科学家们使用一种叫做多保真度机器学习 (Multifidelity Machine Learning, MFML) 的方法。他们会将廉价的素描与昂贵的照片混合在一起,以在不花费太多钱的情况下获得良好的结果。

然而,他们使用了一套僵化的规则手册:“每 1 张昂贵的照片,你必须搭配 2 张廉가는素描。”他们并没有检查这些素描是否真的有所帮助。有时,即使计算机已经从素描中学到了它所能学到的一切,他们仍然会继续添加廉价的素描。这就像是在计算机只需要 10 张素描就能理解概念时,却买了 100 张模糊的素描。这浪费了时间和金钱,产生了大量的冗余(无用)数据。

解决方案:“随机应变,适应环境,克服困难”

这篇论文的作者引入了一种新的、智能的算法,称为 Adaptive-MFML。它不再遵循僵化的规则手册,而是像一位聪明的厨师在烹饪时品尝汤的味道一样。

这位“聪明厨师”是如何工作的:

  1. 从小处着手: 厨师从一些廉价的食材(低保真度数据)开始。
  2. 试味: 厨师品尝汤的味道(检查模型的准确性)。
  3. 决策:
    • 汤还是淡吗? 厨师添加更多廉价食材。
    • 汤正在变好吗? 厨师继续进行。
    • 如果加入更多廉价食材后,汤并没有变得更好怎么办? 厨师停止购买廉价食材,转而购买一种昂贵的、高质量的食材(高保真度数据)来看看是否有帮助。
  4. 重复: 厨师不断地通过品尝并决定下一步该添加什么,只购买那些严格必要以提升风味的食材。

结果:节省时间与金钱

研究人员在几个困难的化学问题上测试了这位“聪明厨师”,包括:

  • 势能面 (Potential Energy Surfaces): 分子如何运动和振动。
  • 激发能 (Excitation Energies): 分子如何对光做出反应(一个非常难的问题)。
  • 耦合簇能量 (Coupled Cluster Energies): 化学准确度的“金标准”。

研究结果令人印象深刻:

  • 与仅使用昂贵数据(“单保真度”方法)相比,这种新的自适应方法快了 30 倍,也更便宜。
  • 与旧的“固定比例”方法(那套僵化的规则手册)相比,新方法效率提高了 5 倍

在其中一个特定的测试中,一项过去需要 45,000 小时计算时间的任务,使用新的自适应方法仅用了 1,500 小时便完成了。

为什么这很重要

论文指出,这种方法让我们停止了资源浪费。通过仅在真正需要时才生成精确数量的昂贵数据,我们可以构建高度准确的化学机器学习模型,而不会耗尽预算或计算资源。这是向“可持续”计算迈进的一步:用最少的浪费获得最好的结果。

简而言之: 这篇论文提出了一种智能的、即时调整的系统,它停止了在不必要的资料上浪费金钱,使得科学家能够比以前更快、更便宜地训练化学 AI 模型。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →