Systematic Fine-Tuning of MACE Interatomic Potentials for Catalysis

原作者： Nima Karimitari, Jacob Clary, Derek Vigil-Fowler, Ravishankar Sundararaman, Gábor Csányi, Christopher Sutton

发布于 2026-05-12

📖 1 分钟阅读☕ 轻松阅读

原作者： Nima Karimitari, Jacob Clary, Derek Vigil-Fowler, Ravishankar Sundararaman, Gábor Csányi, Christopher Sutton

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在试图预测一个化学反应如何运作，就像试图弄清楚一个球在滚下崎岖复杂的小山时所走的精确路径一样。在化学世界中，这座“小山”被称为势能面（PES）。为了理解催化剂（加速反应的物质）如何工作，科学家们需要完美地绘制这座“山”。

传统上，他们使用一种称为DFT（密度泛函理论）的方法来绘制它。将 DFT 想象成一个超级准确但极其缓慢的 GPS。它能给出完美的路线，但计算耗时太长，以至于你只能绘制一个极小极小的街区。如果你想绘制整个国家（例如测试数千种不同的金属合金），DFT 就太慢而不切实际了。

现在出现了机器学习原子间势（MLIPs）。它们就像一种智能、快速的 GPS，从 DFT 数据中学习。一旦训练完成，它们预测化学反应能量的速度比 DFT 快数百万倍，使科学家能够探索广阔的化学景观。

然而，有一个陷阱：你如何训练这个 GPS 至关重要。 如果你只教它平坦的道路，当它遇到山地时就会迷路。本文研究了“教导”这些 AI 模型的最佳方式，以防它们迷路。

两种教学策略：“从零开始”与“微调”

研究人员比较了训练这些 AI 模型的两种主要方法：

从零开始（FS）： 这就像雇佣一名新司机，从零开始教他们一切。你给他们一张地图，他们必须自己学习道路、山丘和转弯。
- 问题： 如果你只给他们看平滑、松弛的道路（汽车停放且稳定的状态），当它们遇到崎岖、高能量的道路（如化学键断裂）时，它们就会失败。
- 解决方法： 本文发现，要使“从零开始”的司机变好，你必须向他们展示“受扰动”的构型。这就像故意摇晃汽车、驶过坑洼或模拟碰撞（高能量状态）。通过在这些混乱的高能量时刻（使用称为分子动力学和轮廓探索的技术）训练模型，模型学会了如何应对颠簸。如果没有这些“混乱课程”，模型就会犯大错。
微调（FT）： 这就像聘请一位世界级的专业赛车手（一个名为MACE-MH-1的大型预训练模型），他们几乎知道如何在任何道路上驾驶，然后给他们一个针对特定赛道的快速进修课程。
- 优势： 因为这位“司机”已经掌握了驾驶（化学）的基础知识，所以他们不需要被展示每一种类型的坑洼或碰撞。他们可以从更小、更简单的数据集中学习。
- 神奇之处： 即使你只向这位专家司机展示特定反应的几个例子（例如在金属表面断裂化学键），他们也能以惊人的准确性将这种知识应用到全新的、未见过的情况（例如金属氧化物上的反应）。由于他们的基础如此牢固，他们对特定训练数据的“敏感度”较低。

现实世界的测试：催化

研究人员在现实世界的化学反应中测试了这些模型，这些反应对绿色能源至关重要：

二氧化碳还原： 将二氧化碳转化为有用的燃料（如乙烯或乙醇）。
丙烷脱氢： 制造丙烯，这是塑料的关键成分。
析氧反应（OER）： 将水分解以产生氧气的过程，对氢燃料至关重要。

他们的发现：

“从零开始”的模型需要一个巨大的、多样化的数据集，包括混乱的高能量事件，才能正确完成任务。如果错过了这些，它们的预测就会出现很大偏差。
“微调”的模型是这场秀的明星。一个仅用数千个金属反应示例训练的模型，能够高精度地预测金属氧化物表面的反应，尽管它在特定的训练集中从未见过金属氧化物。这就像一位在土路上学会赛车的司机，然后立即在没有额外练习的情况下在雪道上获胜。

压轴大戏：筛选未见过的情况

最后，研究人员利用他们最好的“微调”模型筛选了90,781种不同的化学组合（二元合金），以查看哪些可能是良好的催化剂。

这就像测试 90,000 种不同的汽车设计，看看哪一种最省油。使用缓慢的 DFT 方法来做这件事需要几个世纪。而 AI 瞬间就完成了。

结果： 该模型极其准确，误差低至0.15 eV（在化学术语中是一个非常小的误差范围）。
惊喜： 即使在没有明确训练过的“未见过的”表面（复杂的、高指数的晶面）上，它也能很好地工作。

核心结论

本文告诉我们，虽然你可以从零开始构建一个出色的化学预测工具，但这需要一个庞大、混乱且昂贵的训练数据集。然而，如果你从一个强大的预训练“基础模型”开始，仅用较小的目标数据集对其进行微调，你就会得到一个工具，它：

训练更快。
更准确。
更擅长猜测未见过的反应的正确答案。

这之间的区别在于：是将一个孩子扔进一辆没有任何指导的汽车里教他们开车，还是给一位经验丰富的赛车手一张新城市的快速地图。后者能让你更可靠地到达目的地。

技术摘要：面向催化应用的 MACE 原子间势函数的系统性微调

问题陈述
机器学习原子间势函数（MLIPs）提供了一条加速催化反应路径研究的途径，特别是反应能（ $E_r$ ）和活化能垒（ $E_a$ ），从而规避了密度泛函理论（DFT）的计算成本。然而，MLIPs 的性能高度依赖于其训练集的构建。虽然“从头开始”（FS）训练需要广泛且多样化的采样才能达到精度，但大型基础模型（如 MACE-MH-1）的出现引入了利用较小数据集对这些模型进行微调（FT）的可能性。目前存在一个关键缺口，即尚不清楚训练集的多样性（例如弛豫轨迹与来自分子动力学或等高线探索的高能构型）如何影响 FS 和 FT 模型的精度，特别是对于分布外（OOD）反应和金属氧化物等复杂催化系统。

方法论
作者利用 MACE（多体原子团簇展开）框架，系统比较了基于不同数据集和策略训练的九种 MLIPs。

训练策略：
- 从头开始（FS）： 从随机初始化开始训练模型。测试了三种变体：FS-BMA（仅双金属合金弛豫轨迹）、FS-BMA+MD（辅以分子动力学构型）以及 FS-All（进一步辅以等高线探索（CE）构型以捕捉断键事件）。
- 微调（FT）： 从预训练的 MACE-MH-1 基础模型初始化模型。测试了六种变体，基于 FS 模型所用数据集的不同组合进行微调（例如 FT-BMA、FT-MD、FT-CE、FT-All）。在微调过程中采用了多头重放策略以防止灾难性遗忘，即保留一个在 OMAT（块体无机材料）数据集上训练的头部，同时在特定催化数据集上微调第二个头部。
数据生成： 训练数据包括弛豫轨迹、NVT 分子动力学（300 K）模拟以及等高线探索（CE）轨迹。CE 被用于生成非平衡、高能构型和断键事件，而无需预先了解反应物/产物状态。
评估： 模型在跨越金属和金属氧化物催化剂的 141 个化学反应上进行了测试。关键指标包括 $E_r$ $E_{r}$ 和 $E_a$ $E_{a}$ 的平均绝对误差（MAE）。具体案例研究包括：
- 在 Cu 和其他过渡金属上将 CO $_2$ 还原反应（CO $_2$ RR）转化为 C1、C2 和 C3 产物。
- 氧化铱多晶型物上的析氧反应（OER）。
- 钯上的丙烷脱氢和氢插层。
- 对双金属合金上 90,781 个吸附能的大规模筛选。

主要贡献与结果

FS 与 FT 的训练集要求：
- 对于FS 模型，包含来自 MD 或 CE 的受扰动高能构型（占数据集的 5–10%）至关重要。仅基于弛豫轨迹训练的 FS 模型表现不佳。与仅基于弛豫轨迹训练的模型相比，添加 CE 构型（捕捉断键事件）将 $E_a$ 误差降低了 2 倍以上。
- 对于FT 模型，其对训练集采样多样性的敏感度显著降低。即使微调数据集较小且缺乏特定的断键事件或高能态，只要基础模型具有多样化的预训练集，FT 模型在 OOD 反应上仍能表现良好。
特定催化系统的性能：
- CO $_2$ RR： FT-All 模型在 Cu(001) 上的 CHCOH*路径中实现了 0.141 eV 的 MAE，优于最佳 FS 模型（FS-All，0.251 eV）和基础 MACE-MH-1 模型（1.011 eV）。
- 金属氧化物上的 OER： 在金属催化剂上训练的 FT 模型（FT-BMA）在 IrO $_2$ 多晶型物上的 OER 中实现了 0.334 eV 的 MAE，尽管其特定的微调集中没有任何金属氧化物构型。这表明存在跨学习能力，即双金属环境的知识转移到了金属氧化物化学中。FT-All 模型取得了最佳的 OER 性能，MAE 为 0.278 eV。
- 活化能垒： 在预测 $E_a$ 方面，FT 模型始终优于 FS 模型。对于一组 23 个 CO 耦合反应，FT 模型的 MAE 在 0.14–0.15 eV 之间，而最佳 FS 模型为 0.175 eV。
大规模筛选：
- FT-All 模型被应用于筛选二元过渡金属合金（Ni、Cu、Au、Ag、Ir、Pd、Pt、Rh）在不同晶面和成分上的 90,781 个吸附能。
- 该模型实现了 0.15 eV 的总体 MAE。值得注意的是，即使对于未见的高指数密勒指数表面（例如 (532)）和复杂的表面成分，该模型仍保持了合理的精度（65–75% 的预测在 $\pm$ 0.2 eV 范围内），证明了其强大的泛化能力。

意义
本文确立了微调像 MACE-MH-1 这样的大型基础模型是比从头开始训练更高效、更稳健的催化应用策略。虽然 FS 模型需要广泛且多样化的采样（包括高能断键事件）才能达到相当的精度，但 FT 模型可以使用更小、多样性更低的数据集实现更优越的性能。这种方法使得能够准确预测复杂、分布外催化系统（包括金属氧化物表面和双金属合金）的反应能和能垒，从而促进催化材料的快速筛选，而无需付出 DFT 那高昂的成本。该工作指出，对于微调而言，预训练基础模型的质量和多样性比微调数据集中使用的具体采样技术更为关键。

两种教学策略：“从零开始”与“微调”

现实世界的测试：催化

压轴大戏：筛选未见过的情况

核心结论

类似论文