EquiformerV3: Scaling Efficient, Expressive, and General SE(3)-Equivariant Graph Attention Transformers

本文提出了 EquiformerV3,这是一种通过优化软件实现、引入等变层归一化与平滑截断注意力机制、以及采用 SwiGLU-S2S^2激活函数来兼顾效率、表达力与通用性的第三代 SE(3) 等变图注意力 Transformer,其在多个基准测试中取得了最先进成果。

原作者: Yi-Lun Liao, Alexander J. Hoffman, Sabrina C. Shen, Alexandre Duval, Sam Walton Norwood, Tess Smidt

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EquiformerV3 的超级人工智能模型。为了让你轻松理解,我们可以把原子和分子想象成乐高积木搭建的复杂城堡,而化学家和材料科学家就是想要预测这些城堡会不会倒塌、会不会发热、或者能不能造出新东西的“建筑师”。

以前,要预测这些城堡的行为,科学家得用超级计算机跑非常慢的“量子力学”模拟,就像是用手工一点点去测量每一块积木的受力,既慢又贵。

EquiformerV3 就是那个能瞬间算出所有结果的“超级预言家”。它是这个领域的第三代进化版,这次升级主要在三个方面:跑得更快、看得更准、更懂物理规律

下面我用三个生动的比喻来解释它的核心突破:

1. 软件优化:给赛车换上了“空气动力学套件”

(效率提升 1.75 倍)

  • 以前的情况:想象 EquiformerV2 是一辆很棒的跑车,但在跑道上,它每过一个弯道都要停下来重新系一下安全带,或者把零件拆下来再装回去。这浪费了很多时间。
  • EquiformerV3 的改进:研究人员发现了很多这种“多余的动作”。他们把软件代码进行了“大扫除”,把那些重复的步骤合并了,就像给赛车换上了流线型的空气动力学套件,让风(数据)能更顺畅地流过。
  • 结果:不需要改变模型的大脑(算法逻辑),只是优化了它的“肌肉记忆”(代码实现),训练速度直接提升了 1.75 倍。这意味着以前需要跑一周的实验,现在两天就能搞定。

2. 架构微调:给大脑装上了“更聪明的过滤器”和“平滑的刹车”

(更通用、更稳定)

  • 层归一化(Layer Normalization)的改进
    • 比喻:想象一个合唱团,以前指挥(模型)要求每个声部(不同维度的特征)都要单独调整音量,导致大家唱起来不协调。
    • 改进:EquiformerV3 换了一种指挥方式,让所有声部共享一个“总音量标准”。这样,不同重要性的声音(特征)能保持它们原本的比例,合唱更和谐,模型学东西更快。
  • 平滑半径截断(Smooth Radius Cutoff)
    • 比喻:想象你在一个房间里,以前模型规定“离我 5 米以内的人我看得见,5 米以外我看不见”。当一个人刚好从 5.01 米走到 4.99 米时,模型会突然觉得“哇,他出现了!”,这种突变会导致预测结果像坐过山车一样抖动,不真实。
    • 改进:EquiformerV3 给这个“视野”加了一个平滑的渐变滤镜。离得越远,看得越模糊,而不是突然消失。这让模型能预测出像“势能面”(能量地形图)这样需要极其平滑过渡的物理现象,这对于模拟化学反应和材料变形至关重要。

3. 核心大招:SwiGLU-S2 激活函数 —— 给模型装上了“透视眼”和“多体感知器”

(表达能力最强,理论最严谨)

这是这篇论文最酷的部分。

  • 以前的痛点
    • 原子之间的相互作用很复杂,不仅仅是两个原子(A 和 B)在对话,往往是三个、四个甚至更多原子在一起“开派对”(多体相互作用)。
    • 以前的模型为了看清这些复杂的派对,需要在球面上撒很多“点”来采样(就像在球面上撒芝麻),撒得不够密就看不清,撒得太密计算量又爆炸。而且,如果采样不好,模型就会“幻觉”,违反物理定律(比如能量不守恒)。
  • EquiformerV3 的解法(SwiGLU-S2)
    • 比喻:以前的模型像是在球面上用肉眼一个个数芝麻(采样),既慢又容易数错。
    • 新招:EquiformerV3 发明了一种新的“透视眼”。它不再直接去数球面上的每一个点,而是先通过一个智能开关(SwiGLU),只让最重要的信息通过,然后再在球面上进行乘法运算。
    • 效果
      1. 更懂“派对”:它能天然地捕捉到“三个原子在一起”甚至“四个原子在一起”的复杂互动,这让它的理论表达能力极强,能区分以前模型分不清的几何结构。
      2. 更省资源:因为它不需要撒那么多“芝麻”就能看清全貌,它把采样点的数量减少了一半以上(从 324 个点减到 160 个),但依然严格遵守物理定律(严格等变性)。
      3. 结果:模型既聪明又省钱,能精准预测能量和力的变化,甚至能算出材料导热这种需要极高精度的“高阶导数”任务。

总结:EquiformerV3 有多强?

在三个著名的“考试”(OC20, OMat24, Matbench Discovery)中,EquiformerV3 都拿了第一名(State-of-the-art)

  1. OC20(催化剂设计):训练速度快了 5.9 倍,但精度一样高。
  2. OMat24(材料发现):用只有别人 1/5 甚至 1/23 大小的模型,达到了同样的精度。
  3. Matbench Discovery(真实世界材料发现):在预测材料热导率等复杂任务上,表现远超之前的所有模型,综合得分最高。

一句话总结
EquiformerV3 就像是一个既跑得飞快、又极其聪明、还特别遵守物理规则的“超级材料科学家”。它不仅能帮科学家在几秒钟内筛选出成千上万种新材料,还能保证这些预测在真实世界中是靠谱的,从而加速新药研发、电池设计和清洁能源材料的发现。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →