A Graph Neural Network for the Era of Large Atomistic Models

原作者： Duo Zhang, Anyang Peng, Chun Cai, Wentao Li, Yuanchang Zhou, Jinzhe Zeng, Mingyu Guo, Chengqian Zhang, Bowen Li, Hong Jiang, Tong Zhu, Weile Jia, Linfeng Zhang, Han Wang

发布于 2026-01-26

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Duo Zhang, Anyang Peng, Chun Cai, Wentao Li, Yuanchang Zhou, Jinzhe Zeng, Mingyu Guo, Chengqian Zhang, Bowen Li, Hong Jiang, Tong Zhu, Weile Jia, Linfeng Zhang, Han Wang

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

大局观：打造原子的“全能大厨”

想象一下你正在尝试烹饪一顿饭。在原子和分子的世界里，“烹饪”意味着预测原子的行为方式、它们拥有多少能量以及它们如何运动。

长期以来，科学家们使用一种非常精确但极其缓慢的“食谱”，叫做 DFT（密度泛函理论）。它就像一位大师级厨师，需要逐一品尝每一种食材的味道才能达到完美的风味。它很准确，但由于耗时太长，你无法在合理的时间内烹饪出一整桌满汉全席（模拟整个材料）。

为了提高速度，科学家们创造了 机器学习势函数（MLIPs）。你可以把它们看作是向大师级厨师学习的“副手厨师”。它们很快，但通常只能学会做“一种特定的菜”。如果你想让他们做牛排，你必须用牛排的数据来训练他们；如果你想让他们做汤，你又必须用汤的数据来重新训练他们。

问题在于： 我们需要一位“全能大厨”（被称为大型原子模型或 LAM），她可以烹饪“任何东西”——从微小的分子到巨大的晶体——而不需要为每一道新菜都重新进行训练。

解决方案：DPA3

该论文的作者介绍了 DPA3，这是一种旨在成为那位“全能大厨”的新型 AI 模型。以下是它的工作原理，通过简单的概念进行拆解：

1. “线图”技巧：多层观察世界

大多数 AI 模型看待原子就像看一张简单的地图：“原子 A 在原子 B 旁边。”
DPA3 使用了一个巧妙的技巧，叫做线图序列（Line Graph Series, LiGS）。想象你正在观察一群手拉手的朋友：

第一层： 你看到了朋友们（原子）。
第二层： 你不仅看到了朋友，还看到了他们之间的“握手”（化学键）。
第三层： 你观察了三个朋友相遇时形成的“角度”。
第四层： 你观察了四个朋友之间形成的“扭转”（二面角）。

DPA3 构建了一系列这样的“地图”，每一层都能比前一层理解更复杂的形状（如角度和扭转）。这使得模型能够比以往只关注简单连接的旧模型更好地理解分子的 3D 形状。

2. “通用翻译官”（数据集编码）

科学领域的一个大难题是，不同的实验室使用不同的“语言”（数学设置）来计算能量。一个实验室使用的计算器可能会说“能量 = 5”，而另一个实验室对于同样的东西则会说“能量 = 10”。通常情况下，你无法将它们的数据混合在一起。

DPA3 有一个特殊功能叫做数据集编码（Dataset Encoding）。你可以把它想象成给每个数据集贴上一个独特的姓名标签或赋予其特定的口音。

当模型看到来自实验室 A 的数据时，它会戴上“实验室 A 的眼镜”。
当它看到来自实验室 B 的数据时，它会切换到“实验室 B 的眼镜”。

这使得模型可以同时从许多不同的来源中学习，而不会感到困惑，即使它们使用的数学语言不同。至关重要的是，模型并不会因为增加了更多实验室的数据而变得更大或更慢；它依然保持着高效。

3. “缩放法则”（越大越好）

论文证明了 DPA3 遵循“缩放法则（Scaling Law）”。这是一种高级说法，意思是：“如果你给模型更多的脑力（参数）、更多的学习数据和更多的计算时间，它会以一种可预测的方式变得更聪明。”

他们通过不断扩大模型规模来进行测试。就像一个学生通过练习数学会变得更优秀一样，DPA3 随着规模的增长，其准确性也持续提升。这意义重大，因为这意味着我们可以在未来不断改进这些模型，而不会遇到它们停止学习的“瓶颈”。

结果：这位大厨有多厉害？

作者通过两种方式测试了 DPA3：

专家测试（特定菜肴）： 他们要求 DPA3 预测特定物质（如水、电池和微小药物分子）的能量。
- 结果： DPA3 比目前的顶级“专家型”厨师（如 MACE 或 NequIP）更快、更准确，且通常消耗更少的计算资源。
全才测试（“零样本”挑战）： 这是真正的魔法所在。他们拿到了 DPA3 模型，用海量混合数据（OpenLAM-v1）对其进行训练，然后将其投入到 12 个全新的、极具挑战性的任务中，而这些任务是它从未见过的。
- 结果： 在无需额外训练（零样本/Zero-Shot）的情况下，DPA3 的表现优于几乎所有其他的“全能大厨”。它能够在无需任何额外准备的情况下，高精度地预测原子在全新环境下的行为。

为什么这很重要？

论文声称，DPA3 是第一个真正结合了以下三点的模型：

物理准确性： 它尊重物理定律（能量守恒，原子不会凭空传送）。
可扩展性： 随着喂入更多数据和算力，它会变得更聪明。
多样性： 它可以处理各种各样的科学问题，而无需为每一个问题重新构建。

简而言之，DPA3 是一种全新的、高效且具有通用适应性的工具，它让科学家能够比以往更快速、更准确地模拟复杂的材料和分子，为发现新药、更先进的电池以及更坚固的材料铺平了道路。

技术摘要：DPA3 —— 大原子模型时代的图神经网络

问题陈述
原子系统的计算模拟依赖于基态势能面（PES），传统上由密度泛函理论（DFT）进行近似。虽然 DFT 在精度和效率之间取得了平衡，但其随电子自由度呈立方级数增长的特性限制了其在大规模系统和长时标中的应用。机器学习原子间势函数（MLIPs）已成为高效的替代方案，但它们通常是针对特定的科学挑战进行训练的，对于新系统需要重新参数化和大量的 DFT 标记数据。这促使了大型原子模型（LAMs）或基础模型的开发，旨在跨越不同领域普遍表征势能面（PES）。然而，最先进的 LAMs 在泛化能力方面往往落后于专门的 MLIPs。此外，LAMs 的开发面临着关于缩放法则（性能如何随模型大小、数据和计算量提升）、由于不同 DFT 设置（泛函、基组）导致的数据不兼容性，以及需要严格遵守物理定律（光滑性、保守性和对称性）等挑战。

方法论：DPA3 架构
作者提出了 DP3，这是一个专门为 LAM 时代设计的、基于**线图系列（Line Graph Series, LiGS）**框架的多层图神经网络（GNN）。

线图系列 (LiGS)： 与在单个图上操作的标准 GNN 不同，DPA3 递归地应用线图变换。从初始图 $G^{(1)}$ $G^{(1)}$ 开始（其中原子为顶点，相邻原子对为边），该变换生成一系列图 $\{G^{(1)}, G^{(2)}, \dots, G^{(K)}\}$ ${G^{(1)}, G^{(2)}, \dots, G^{(K)}}$ 。
- 在 $G^{(1)}$ 中，顶点代表原子。
- 在 $G^{(2)}$ 中，顶点代表键（ $G^{(1)}$ 的边），边代表角度。
- 在 $G^{(3)}$ 中，顶点代表角度，边代表二面角。
- 这种层次结构使模型能够自然地捕捉高阶几何特征（键、角度、二面角）。
消息传递与更新： 模型在 LiGS 上采用递归的消息传递方案。图 $G^{(k)}$ 中的顶点特征通过来自连接边的消息卷积进行更新。至关重要的是， $G^{(k)}$ 的顶点特征与前一个图 $G^{(k-1)}$ 的边特征完全一致。这种一致性消除了冗余的数据存储，并允许更新在不同图阶之间高效传播。该架构利用带有可学习步长的残差更新机制，以确保深度网络的稳定性。
物理约束： 模型经过严格设计，以满足通用势能面固有的物理定律：
- 保守性： 力和维里（virials）通过预测能量的反向传播导出，从而确保分子动力学中的能量守恒。
- 对称性： 模型在平移和旋转下是不变的，并且在相同原子的置换下是等变的，符合诺特定理和量子统计学。
多任务训练与数据集编码： 为了解决具有不同 DFT 设置（例如不同的交换相关泛函）的数据集不兼容问题，DPA3 引入了数据集编码机制。数据集特定的向量（例如 one-hot 编码）被附加到原子描述符中。这使得模型能够在统一的框架内学习跨多样化数据集的共同知识，而不会像使用独立拟合头的方法那样产生随数据集数量增加的参数开销。

核心贡献

基于 LiGS 的架构： 引入了一种在递归生成的线图系列上运行的 GNN，扩展了系统性捕捉高阶几何相关性（最高至二面角）的能力。
遵循缩放法则： 证明了 DPA3 遵循缩放法则，即泛化误差随着模型参数、训练数据规模和计算预算的增加而持续下降。
高效的多任务学习： 一种新型的数据集编码策略，能够在具有不一致 DFT 设置的异构数据集上进行参数高效的训练，实现了模型规模与任务数量的解耦。
物理合规性： 其设计本质上保证了光滑性和保守性，这对于稳定的分子动力学模拟至关重要。

结果

作为 MLIPs 的基准测试： 在特定数据集（如 SPICE-MACE-OFF、TorsionNet-500、水/冰、催化和二维材料）上训练后，DPA3 模型（范围从 3 层到 24 层）始终优于或等同于最先进的专门 MLIPs（如 MACE、NequIP 和 EScAIP）。值得注意的是，一个较小的 DPA3 模型（1.3M 参数）实现的能量误差比显著更大的 MACE 模型（6.9M 参数）更低。
缩放法则： 在 OMat24 数据集上的实验证实，DPA3 遵循验证误差相对于模型大小 ( $N$ )、数据集大小 ( $D$ ) 和计算预算 ( $C$ ) 的幂律缩放。
大型原子模型 (LAM) 性能： 在 OpenLAM-v1 数据集（包含 31 个多样化数据集的集合，包括 OMat24、OC20 和 SPICE）上训练的 DPA-3.1-3M 模型在 12 个涵盖催化、无机材料和分子的下游任务中进行了零样本（zero-shot）评估。
- DPA-3.1-3M 在这些领域中实现了最低的整体零样本泛化误差，优于其他 LAMs（如 Orb-v3、SevenNet、MACE-MPA-0）。
- 它在催化和分子领域表现出卓越的性能，并在无机材料领域表现出竞争力的性能，尽管其参数量（3.26M）显著少于竞争对手（例如 Orb-v3 为 25M+）。
- 该模型展示了作为“开箱即用”势函数的强大潜力，对于下游应用仅需极少的微调。

意义与主张
本文将 DPA3 定位为大型原子模型时代的基石架构。其主要意义在于通过提供一个可扩展、符合物理规律且数据高效的框架，弥合了专门化 MLIPs 与通用 LAMs 之间的差距。作者声称，DPA3 对缩放法则的遵循以及处理异构训练数据的能力，使其在训练大规模、多样化数据集方面具有独特优势。DPA-3.1-3M 成功的零样本性能表明，此类模型可以作为科学发现的稳健起点，减少对大量特定任务训练数据的依赖。这项工作强调，架构创新（LiGS、数据集编码）对于实现缩放法则在原子建模中的全部潜力至关重要。