原作者： Tiancheng Li, Wentao Li, Anyang Peng, Jianming Xue, Linfeng Zhang, Duo Zhang, Han Wang

发布于 2026-06-02

📖 1 分钟阅读☕ 轻松阅读

原作者： Tiancheng Li, Wentao Li, Anyang Peng, Jianming Xue, Linfeng Zhang, Duo Zhang, Han Wang

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

大局观：打造更好的“数字水晶球”

想象一下，你想模拟一种新材料或药物分子中的原子是如何相互作用的。为了准确做到这一点，科学家通常依赖量子力学（就像一个极其精确但极其缓慢且昂贵的 GPS）。它能告诉你每个原子的确切位置以及它们如何推拉彼此，但运行它所需的计算能力巨大，以至于你只能模拟微小物体在极短瞬间内的状态。

为了提高速度，科学家使用机器学习原子间势函数（MLIPs）。你可以把它们看作是“智能捷径”。这些 AI 模型经过训练，可以预测量子 GPS 会给出什么结果，但其运行速度要快得多。

问题在于： 目前最好的 AI 模型就像高端跑车：它们极其精准，但也极其庞大、造价高昂（训练成本高），并且需要巨大的油箱（计算能力）才能运行。它们的训练成本如此之高，以至于只有最大的实验室才负担得起。

解决方案： 作者推出了 DPA4。你可以把 D 吧 DPA4 想象成一种全新的发动机设计，它能让汽车像超级跑车一样快且精准，但体积更小、造价更低，而且油耗也更低。

DPA4 如何运作：“智能信使”系统

要理解 DPA4，请想象一个拥挤的房间，每个人（原子）都需要知道邻居在做什么，以便决定自己的移动方式。

1. “局部翻译官”（EMFA SO(2) 卷积）

大多数之前的 AI 模型试图一次性翻译整个房间的对话，这既混乱又耗费计算资源。

旧方法： 想象一下，你试图通过站在房间中间向所有人喊话来翻译两个人的对话。这既混乱又缓慢。
DPA4 的做法： DPA4 给每一对邻居都配备了一个私人的、局部的翻译官。它说：“嘿，你们两个，用你们自己的本地语言交流就好。”
- 类比： 与其试图同时理解整个房间的旋转，DPA4 将“摄像机”对准直接看向邻居。这简化了数学问题（将复杂的 3D 旋转问题转化为更简单的 2D 问题），同时没有损失任何精度。这就像使用变焦镜头来专注于正在交谈的两个人，使翻译变得更快、更便宜。

2. “焦点小组”（多焦点设计）

通常，这些 AI 模型有一个巨大的大脑试图同时处理所有事情。

类比： 想象一位厨师试图用一只手同时切菜、搅拌锅里的汤并调味。这是低效的。
DPA4 的做法： DPA4 将工作拆分为几个较小的“焦点小组”（就像一支专业的厨师团队）。每个小组从略微不同的角度观察信息。然后，一个“经理”（注意力机制）会决定哪个小组的意见在特定时刻最为重要。
- 结果： 你无需更大的厨师，就能做出更聪明的决策。这使得模型可以更小，但依然非常聪明。

3. “安全网”（原生 ZBL 区间桥接）

当原子靠得非常近（比如撞在一起）时，物理规律会变得奇特且危险。标准的 AI 模型在这里经常会出错，产生力突然激增或骤降的“故障”。

类比： 想象一辆自动驾驶汽车，它学习了如何在高速公路上行驶，但从未见过碰撞。如果它突然离墙太近，它可能会惊慌失措并出现不规则的刹车。
DPA4 的做法： DPA4 内置了一个“物理安全网”（基于一个名为 ZBL 的已知公式）。当原子靠得太近时，AI 会悄悄地将控制权交给这个安全网。它不会尝试去“学习”碰撞，而只是在那个特定时刻使用已知的物理规则。
- 结果： 过渡非常平滑。即使原子发生碰撞，汽车（模型）也不会惊慌失措。

4. “编译器”（训练速度）

训练这些模型就像是通过让学生解题、检查作业、然后再让学生解题以修正错误来教导学生。这种“反复检查”的过程很慢。

类比： 这就像一位老师必须先批改试卷，然后重新批改试卷，以查看如果学生知道了分数，他们会如何改变答案。
DPA4 的做法： 作者优化了代码，使得计算机的“编译器”（将代码翻译成机器指令的软件）可以更快地处理这种反复检查。
- 结果： 训练模型的速度比以前快了 3 倍，且没有损失精度。

结果：物超所值

论文在两个主要的“考试委员会”（基准测试）上测试了 DPA4：

无机晶体考试 (Matbench Discovery)：
- 结果： DPA4 的最大版本 (DPA4-Pro) 在排行榜上获得了最高分。
- 效率： 它实现这一顶尖成绩时，使用的参数量比之前的领先者少了 31%（更小的脑容量）。
- 小型版本： 一个仅有 276 万参数的微型版本 DPA4-Air，击败了一个拥有 3000 万参数的庞大竞争对手。
- 成本： 训练 DPA4-Air 所需的计算能力比训练那个庞大竞争对手少了 42.9 倍。这就像是用混合动力车的燃油经济性换取了法拉利的性能。
有机分子考试 (SPICE-MACE-OFF)：
- 结果： DPA4 在有机分子（如药物和蛋白质）的测试中也表现出色。
- 效率： 尽管参数更少，但一个中等规模的 DPA4 模型在预测能量方面的准确度比之前的最佳模型高出 29%，在预测力方面的准确度高出 30%。

总结

该论文声称，DPA4 是一种新型的原子 AI，它具有以下特点：

更聪明： 它利用“局部翻译官”和“焦点小组”来更好地理解原子。
更安全： 它内置了物理安全网，以应对原子碰撞的情况。
更快： 得益于更好的代码优化，它的训练速度快了 3 倍。
更便宜： 它以极低的计算成本和模型规模，实现了顶尖的准确度。

作者得出结论，这使得 DPA4 成为构建未来更大型、更强大的“大规模原子模型”的完美基础，有望让高精度的材料发现技术变得触手可及，惠及更多科学家。

技术摘要：DPA4 —— 推动原子间势能精度与成本的前沿

1. 问题陈述

机器学习原子间势能（MLIP）已在标准基准测试中达到了量子力学级的精度，然而，最具表达能力的等变架构的训练成本已成为一个关键瓶颈。虽然大型原子模型（LAMs）有望彻底改变材料发现领域，但训练它们的成本高得令人望而却步；例如，UMA-M16 模型需要超过 129,000 个 H200 GPU 小时。

两个主要挑战限制了当前最先进模型的可扩展性：

架构成本： 富有表达能力的 SE(3) 等变模型依赖于 Clebsch–Gordan 张量积，其计算成本随角阶数的增加而迅速增长。虽然最近的模型（如 eSEN, EquiformerV3）将 SO(3) 卷积简化为边缘局部的 SO(2) 操作，但它们通常仍需要进行密集的代数运算来实现富有表达力的边缘-节点交互。
训练效率： 保守能量梯度训练（即通过自动微分能量来推导力）需要双重反向传播（double-backward pass）。这阻碍了直接应用针对单次反向梯度优化的训练栈（这在大型语言模型中很常见）。因此，领先的模型通常依赖于涉及去噪预训练（DeNS）或直接力预测的两阶段协议，这增加了工程复杂性和计算开销。

2. 方法论：DPA4 架构

作者引入了 DPA4，这是一种 SE(3) 等变原子间势能架构，旨在以显著降低的模型和训练成本实现领先的精度。DPA4 的核心是 EMFA（边缘调节、多焦点、注意力）SO(2) 卷积，结合了编译器友好的训练路径和一种新型的短程耦合机制。

2.1 核心架构创新

该架构基于四个设计原则（A1–A4）：

A1：低秩边缘-节点 SO(2) 等变乘积：
DPA4 不使用完整的 SO(3) Clebsch–Gordan 张量积，而是将特征传输到边缘局部的 SO(2) 框架中。在此框架内，它采用边缘-节点乘积的低秩参数化。与仅依赖不变性边缘特征的先前 SO(2) 简化方法不同，此乘积利用全套每边缘等变特征（ $l=0, \dots, L$ ）来调节节点消息，以较低的参数成本提升了表达能力。
A2：用于消息非线性的多焦点设计：
为了将表达能力与原始通道宽度分离，隐藏维度被拆分为 $F$ 个并行的“焦点”流。每个流由其自身的 SO(2) 堆栈处理。一种跨焦点 Softmax 竞争机制根据边缘特征的旋转不变 $l=0$ 切片对这些流进行重新加权。这种设计引入了消息非线性，并且与通过增加单个流的宽度相比，显著减少了参数量，同时保持或提高了精度。
A3：包络门控注意力：
通过由平滑截断包络门控的注意力机制进行邻居消息聚合。注意力权重由旋转不变的 $l=0$ 切片计算，从而允许在不破坏 SO(3) 等变性的情况下进行自适应邻居加权。这比标准的散射求和（scatter-sum）聚合在精度上有所提升，且额外成本极低。
A4：用于 SO(3) 等变非线性的 Lebedev 网格投影：
等变前馈网络（FFN）采用了球面网格 SwiGLU 非线性。与 Equiformer 系列中使用的经纬度网格不同，DPA4 使用了 Lebedev 求积网格。这种投影在保持与机器精度一致的 SO(3) 等变性的同时，所需的采样点远少于以往方案。

2.2 系统级优化

编译器友好的保守训练：
DPA4 旨在与 torch.compile 兼容。通过保持能量到力路径的形状稳定实现，该模型避免了对 DeNS 或直接力预测等辅助预训练目标的需求。这使得单阶段保守能量梯度训练协议能够实现高达 3.1 倍的实际运行速度（wall-clock speedup） 提升（相比于未编译的基准模型）。
原生 ZBL 区间桥接：
为了处理极近原子距离下的短程斥力（此处训练数据稀疏），DPA4 将势能分解为一个学习分支和一个解析的 Ziegler–Biersack–Littmark (ZBL) 分支。不同于通过拼接能量来引入人工修正（这会产生力伪影）的后验修正法，DPA4 使用了“原生 ZBL 区间桥接”。该技术通过源冻结门（source-freeze gate）钳制学习分支的距离输入并抑制其短程通道，确保解析分支专门处理内区斥力。这保证了平滑的过渡和保守的力，避免了异常的切换伪影。

3. 关键结果

3.1 Matbench Discovery（无机晶体）

在 Matbench Discovery 基准测试中，DPA4 各变体建立了新的精度-效率前沿：

DPA4-Pro (20.91M 参数)： 实现了最佳的综合性能得分（CPS）0.833，超越了拥有 30.3M 参数的 EquiformerV3+DeNS-MP (CPS 0.830)，同时使用了 31% 更少的参数 以及更少的训练计算量。值得注意的是，DPA4-Pro 在没有 DeNS 或直接力预训练的情况下实现了这一结果。
DPA4-Air (2.76M 参数)： 在精度上超过了 30.1M 参数的 eSEN-30M-MP 基准（CPS 0.804 vs. 0.797），其参数量仅为后者的 1/10.9，训练计算量仅为后者的 1/42.9（7.8 vs. 335 A100 GPU-days）。
DPA4-Neo (1.60M 参数)： 达到了 0.781 的 CPS，与 10.4M 参数的 MatRIS-10M-MP 相当，模型规模缩减了 6.5 倍。

3.2 SPICE-MACE-OFF（有机分子）

DPA4 展示了对有机力场的迁移能力：

DPA4-Plus (5.4M 参数)： 设定了新的最先进水平，总能量误差和力误差分别为 0.10 meV/atom 和 1.82 meV/Å。这比 6.5M 参数的 eSEN 基准分别降低了 29% 和 30% 的误差。
DPA4-Air (2.7M 参数)： 在参数量减少 45% 的情况下，超越了 6.5M 参数的 eSEN 基准，实现了 0.13 meV/atom 和 2.45 meV/Å 的总误差。
训练效率： DPA4-Air 和 DPA4-Plus 分别仅需 4 个和 8 个 A100 GPU-days，这比 DPA3-L24 所需的 288 GPU-days 低了几个数量级。

3.3 推理与短程行为

推理吞吐量： DPA4-Air 和 DPA4-Neo 保持了高原子归一化吞吐量，在较小系统规模下，其表现优于 DPA3 基准以及经过 NVIDIA cuEquivariance 优化的 MACE 基准。
短程精度： 在 C–Si 二聚体扫描中，DPA4 的原生 ZBL 区间桥接消除了在使用外部对修正（如 DP-ZBL）的模型中观察到的剧烈力波动，确保了在亚埃（sub-Å）量级下具有物理一致性的平滑力。

4. 重要性与主张

论文声称 DPA4 成功解决了当前大型原子模型（LAMs）的训练成本瓶颈，且并未牺牲泛化能力。通过将架构设计（EMFA SO(2) 卷积）与训练策略（编译器友好的保守能量梯度路径）进行协同设计，DPA4 将自身置于新的精度-成本帕累托前沿（accuracy–cost Pareto frontier）。

主要主张包括：

高效性： DPA4 以极小比例的参数和训练计算量实现了领先的精度，使高性能势能模型在高效吞吐工作流中变得切实可行。
简洁性： 该架构通过单阶段保守训练协议实现了这些结果，消除了对其他顶尖模型常用的复杂的两阶段预训练策略（如 DeNS 或直接力）的需求。
鲁棒性： 原生 ZBL 区间桥接提供了物理严谨的短程斥力解决方案，避免了能量层级拼接所固有的力伪影。
作为 LAMs 的基础： 作者将 DPA4 定位为未来多任务 LAM 预训练的强力骨干网络，能够在低成本下实现目标领域势能的生成、验证与精炼。

这项工作表明，当架构的表达能力与系统级的训练效率被视为一个统一的设计问题时，可以显著改善等变势能中的精度-成本权衡。

DPA4: Pushing the Accuracy-Cost Frontier of Interatomic Potentials with EMFA SO(2) Convolution