想象一下，你正试图教会一台计算机去预测分子的行为，比如它们如何振动或拥有多少能量。为了做到这一点，计算机需要“训练数据”。

在量子化学领域，有两种类型的数据：

廉价、低质量的数据： 就像一张模糊的黑白素描。它生成起来很快也很容易，但不太准确。
昂贵、高质量的数据： 就像一张高清的 4K 彩色照片。它极其准确，但生成它需要耗费大量的时间和计算能力（比如让超级计算机运行数天）。

问题：“固定比例”陷阱

传统上，科学家们使用一种叫做多保真度机器学习 (Multifidelity Machine Learning, MFML) 的方法。他们会将廉价的素描与昂贵的照片混合在一起，以在不花费太多钱的情况下获得良好的结果。

然而，他们使用了一套僵化的规则手册：“每 1 张昂贵的照片，你必须搭配 2 张廉가는素描。”他们并没有检查这些素描是否真的有所帮助。有时，即使计算机已经从素描中学到了它所能学到的一切，他们仍然会继续添加廉价的素描。这就像是在计算机只需要 10 张素描就能理解概念时，却买了 100 张模糊的素描。这浪费了时间和金钱，产生了大量的冗余（无用）数据。

解决方案：“随机应变，适应环境，克服困难”

这篇论文的作者引入了一种新的、智能的算法，称为 Adaptive-MFML。它不再遵循僵化的规则手册，而是像一位聪明的厨师在烹饪时品尝汤的味道一样。

这位“聪明厨师”是如何工作的：

从小处着手： 厨师从一些廉价的食材（低保真度数据）开始。
试味： 厨师品尝汤的味道（检查模型的准确性）。
决策：
- 汤还是淡吗？ 厨师添加更多廉价食材。
- 汤正在变好吗？ 厨师继续进行。
- 如果加入更多廉价食材后，汤并没有变得更好怎么办？ 厨师停止购买廉价食材，转而购买一种昂贵的、高质量的食材（高保真度数据）来看看是否有帮助。
重复： 厨师不断地通过品尝并决定下一步该添加什么，只购买那些严格必要以提升风味的食材。

结果：节省时间与金钱

研究人员在几个困难的化学问题上测试了这位“聪明厨师”，包括：

势能面 (Potential Energy Surfaces)： 分子如何运动和振动。
激发能 (Excitation Energies)： 分子如何对光做出反应（一个非常难的问题）。
耦合簇能量 (Coupled Cluster Energies)： 化学准确度的“金标准”。

研究结果令人印象深刻：

与仅使用昂贵数据（“单保真度”方法）相比，这种新的自适应方法快了 30 倍，也更便宜。
与旧的“固定比例”方法（那套僵化的规则手册）相比，新方法效率提高了 5 倍。

在其中一个特定的测试中，一项过去需要 45,000 小时计算时间的任务，使用新的自适应方法仅用了 1,500 小时便完成了。

为什么这很重要

论文指出，这种方法让我们停止了资源浪费。通过仅在真正需要时才生成精确数量的昂贵数据，我们可以构建高度准确的化学机器学习模型，而不会耗尽预算或计算资源。这是向“可持续”计算迈进的一步：用最少的浪费获得最好的结果。

简而言之： 这篇论文提出了一种智能的、即时调整的系统，它停止了在不必要的资料上浪费金钱，使得科学家能够比以前更快、更便宜地训练化学 AI 模型。

技术摘要：即兴发挥、适应并克服：一种用于高效机器学习的即时多保真度算法

问题陈述

机器学习（ML）通过取代昂贵的计算，加速了量子化学（QC）领域的研究。然而，由于生成高保真度训练数据的成本极高（特别是对于像耦合簇单、双激发及摄动三激发 [CCSD(T)] 这样具有 $O(N^7)$ 标度的金标准方法），机器学习在量子化学中的广泛应用受到了阻碍。

多保真度机器学习（MFML）已成为一种解决方案，它结合了丰富的低保真度（廉价）数据与稀疏的高保真度（昂贵）数据，用以修正低保真度模型。尽管该方法取得了成功，但标准的 MFML 方案依赖于预定义的固定缩放因子（通常是两个保真度之间的比例为 2）来确定训练样本的数量。这种僵化的启发式方法往往会导致冗余训练数据的生成，因为它无法动态地捕捉每个保真度在训练过程中的真实成本效益贡献。因此，这些方法存在效率低下的风险，并且需要人工进行事后干预或优化来减轻数据冗余。

方法论

作者提出了一种全新的自适应即时多保真度框架，该框架能够自主决定训练数据集的组成。与需要跨所有保真度预设数据集的传统方法不同，该算法仅在“必要时”才查询量子化学参考计算。

核心算法

该框架在一个涉及局部循环（epoch）和全局循环的嵌套循环结构内运行：

初始化： 过程始于在离散保真度（ $f \in \{1, 2, 3, 4\}$ ）中随机采样的少量初始数据集。
局部循环（Epoch）： 算法从最低保真度开始。它动态地添加训练数据批次，训练核岭回归（KRR）子模型，并根据高保真度验证集评估平均绝对误差（MAE）。
- 算法使用移动平均法追踪局部改进（MAE 的变化），以避免因数据集规模较小而产生的伪影。
- 如果改进程度低于用户定义的局部容差，算法将停止在当前保真度添加数据，并转向下一个更高保真度。
- 一项约束确保层级规模比例不超过标准的固定缩放因子（2），以保持结构完整性。
全局循环： 一旦算法遍历了所有保真度（从最低到最高），它会检查全局改进（与前一次迭代相比的整体误差降低情况）。
- 如果全局改进超过了全局容差，循环将从最低保达度重新开始以添加更多数据。
- 如果改进低于全局容差，算法终止，返回自适应采样的数据集和最终训练的模型。

实验设置

该方法使用**核岭回归（KRR）**作为底层机器学习架构进行了基准测试。研究利用了三个代表不同化学挑战的数据集：

VIB5： CH $_3$ Cl 和 CH $_3$ F 在 CCSD(T) 水平下的从头算势能面（PES）。
QeMFi： 使用 TD-DFT 计算的九种不同分子的基态（SCF）和垂直激发能（ $E_V$ ）。
ANI-1ccx： 不同大小分子（最多 43 个原子）的耦合簇能量。

性能通过绘制 MAE 随训练数据生成累计时间成本的变化曲线进行衡量，并将自适应-MFML 与单保真度 KRR 以及标准 MFML（固定缩放因子为 2）进行对比。

核心贡献与结果

论文证明，该自适应算法在保持或提高预测精度的同时，显著降低了数据生成成本。

显著的成本降低：
- 对比单保真度： 为了达到目标精度，自适应-MFML 比单保真度方法减少了高达 30 倍 的数据生成成本。
- 对比标准 MFML： 在时间成本效率方面，自适应方法比标准 MFML 基准提高了高达 5 倍。
跨化学性质的性能表现：
- 势能面（VIB5）： 对于 CH $_3$ Cl，自适应方法在约 1,500 小时内达到了约 2 kcal/mol 的目标 MAE，而标准 MFML 需要约 7,500 小时，单保真度 KRR 则需要约 45,000 小时。
- 激发能（QeMFi）： 在 100 小时的固定预算下，自适应-MFML 在基态能量方面的 MAE 约为 10 kcal/mol，优于标准 MFML（约 20 kcal/mol）和单保真度 KRR（约 35 kcal/mol）。对于垂直激发能（一个更复杂的任务），它在 20 小时的预算内将误差降低至约 4 kcal/mol。
- 大分子（ANI-1ccx）： 为了达到约 10 kcal/mol 的目标误差，自适应方法仅需约 3 小时，而标准 MFML 需要 7 小时，单保真度 KRR 需要 20 小时。它还优于在 211 个 CCSD(T) 样本上训练的基准神经网络（ANI），后者需要约 89 小时才能达到更高的误差（约 320 kcal/mol）。
鲁棒性： 该算法一致地减少了冗余。在 ANI-1ccx 数据集中，模型在不同分子大小（8–25 个原子）下均保持了较低的 MAE，误差集中在 0 kcal/mol 左右，证明了其对高保真度参考能量的忠实还原。

意义与主张

作者声称，这项工作为可持续、具备成本意识的量子化学机器学习建立了一条高精度、低成本的路径。

缓解冗余： 通过动态确定每个保真度的最佳样本数，该算法消除了固定缩放启发式方法固有的低效性。它能够“识别”何时低保真度已足以捕捉底层物理特性，从而限制了对昂贵高保真度参考计算的不必要查询。
可扩展性： 该框架被证明在从简单的势能面到具有化学挑战性的复杂分子激发能等多种性质上都具有鲁棒性。
实际影响： 该方法直接解决了机器学习-量子化学（ML-QC）流程中的计算瓶颈。虽然作者承认了即时数据生成具有顺序性这一局限性（这限制了其相对于标准 MFML 的并行化能力），但他们认为大幅降低的总计算足迹抵消了这一约束。

论文总结道，自适应-MFML 框架代表了向具备成本意识的量子化学迈出的实质性飞跃，它提供了一种可部署的解决方案，在不牺牲预测精度的前提下，降低了量子化学中机器学习的计算足迹。源代码已开源，以促进更广泛的应用。

Improvise, Adapt, Overcome: An On-The-Fly Multifidelity Algorithm for Efficient Machine Learning