Scaling Laws and Symmetry, Evidence from Neural Force Fields

想象一下，你正在教一个机器人预测分子中原子的运动与相互作用。这有点像教一个孩子理解复杂的乐高结构是如何拼合在一起的。你可以给机器人两种不同风格的说明书：

“盲”说明书：你只是向机器人展示数百万张乐高结构的图片，然后说：“你自己去找出规则。”机器人必须从零开始学习一切，包括这样一个事实：如果你旋转整个结构，其物理性质并不会改变。
“对称性”说明书：你给机器人一本明确写着“嘿，记住，如果你旋转这个结构，它仍然是同一个结构；如果你翻转它，规则保持不变”的说明书。你将物理定律（对称性）直接“烘焙”进了机器人的大脑。

长期以来，许多研究人员相信“盲”方法。他们认为，只要给机器人足够的数据和足够的计算能力（一个“更大的大脑”），它最终会自己找出对称性规则。他们相信，显式地教授这些规则是不必要的，一个简单而灵活的模型最终会迎头赶上。

本文指出：“实际上并非如此。‘对称性’说明书要好得多，而且随着规模扩大，差距会进一步拉大。”

以下是他们研究发现的简要说明，使用简单的类比：

1. 竞赛：速度 vs. 效率

研究人员让不同类型的机器人“大脑”（架构）进行竞赛，看它们学习预测原子力的速度有多快。

“盲”机器人（无约束）：它们灵活但低效。每次看到旋转后的分子，它们都必须“重新学习”旋转后的分子仍是同一个分子这一事实。
“对称性”机器人（等变）：它们内置了旋转和平移的规则。它们不会浪费能量去重新学习基本的物理规律。

发现：当机器人规模较小时，差异并不巨大。但随着研究人员将机器人变得巨大（扩大数据量和计算能力），“对称性”机器人不仅保持领先，而且大幅拉开差距。“盲”机器人遇到了一堵墙，增加更多数据对它们的帮助有限；而“对称性”机器人则持续变得越来越聪明。

2. 对称性的“阶数”很重要

并非所有“对称性”机器人都是同等水平的。有些只理解简单的旋转（如一枚平放的硬币），而另一些则理解复杂的三维旋转（如一个旋转的地球仪）。

低阶对称性：理解基本规则。
高阶对称性：理解关于形状在三维空间中如何相互作用的非常复杂、细致的规则。

发现：内置到机器人中的对称性规则越复杂，它学习得就越快。拥有“高阶”对称性的机器人学习速度快到使其与“盲”机器人之间的差距变成了一道鸿沟。这就像比较一个只认识字母的学生和一个已经掌握该语言语法和词汇的学生；随着书籍越来越厚，第二个学生将第一个学生远远甩在身后。

3. “痛苦教训”vs. 现实

人工智能领域有一个著名的观点叫“痛苦教训”，它主张我们应停止将人类知识（如对称性）硬编码到人工智能中，而应让 AI 从原始数据中学习，因为这样更便宜且扩展性更好。

本文论证：在原子和分子的领域，“痛苦教训”是错误的。如果你试图让模型自行发现对称性，那就好比要求学生重新发现引力定律。这或许可能，但效率极低。等到学生自己弄明白时，那个被教导过引力定律的学生早已展翅高飞。

4. “金发姑娘”式的平衡

本文还研究了如何最有效地分配资金（计算能力）。

旧方法：也许你应该买一个更大的大脑（更多参数）或获取更多教科书（更多数据）。
新发现：事实证明，你需要同时购买两者。如果你将数据量翻倍，也应将模型规模翻倍。这种“ tandem scaling（协同扩展）”对所有类型的机器人都最有效，但“对称性”机器人在利用这种组合能力方面要高效得多。

5. 关于用损失函数“作弊”

一些研究人员试图通过给“盲”机器人添加惩罚分数来“欺骗”它们：如果它们在对称性问题上犯错（例如，“如果你说旋转后的分子是不同的，你就得低分”），就给予惩罚。

发现：这效果不佳。这就像告诉学生“别忘了规则”，却没有真正教他们规则。机器人仍然必须费力地去学习模式。从一开始就把规则构建到机器人的大脑中要好得多。

结论

如果你想构建一个超级智能的 AI 来理解分子，不要只是向一个简单灵活的模型投喂更多数据，然后指望它自行找出物理定律。将物理定律直接构建到模型的设计中。

当你扩展到巨大规模时，那些尊重宇宙基本对称性（旋转、平移）的模型，不仅会略胜一筹，而且会比那些试图从零开始学习这些规则的模型强大得多。“对称性”方法改变了学习曲线的本质，使任务更简单，结果更出色。

问题陈述
本文探讨了神经网路原子间势（NNIPs）的缩放行为，NNIPs 是旨在预测原子系统量子力学性质（特别是势能和原子力）的深度学习模型。尽管自然语言和视觉领域的近期文献表明，缩放定律（性能与数据/参数/计算量之间的幂律关系）在很大程度上与架构无关——这意味着模型可以随着规模扩大而自行学习必要的归纳偏置（如对称性）——但这一观点在几何领域受到质疑。作者调查了显式的架构等变性（强制旋转和置换对称性）是否为 NNIPs 的缩放定律提供了独特优势，或者在计算量充足的情况下，更简单的非等变模型是否能实现可比的性能。

方法论
作者在 OpenMol 中性分子数据集（约 3400 万训练样本，约 9.2 × 10⁸ 个 token）上进行了全面的实证研究。他们比较了四个代表不同对称性约束程度的架构家族：

无约束 MPNN：一种处理几何特征（相对位置）的普通消息传递神经网络，无对称性约束。
不变标量（GemNet-OC）：使用不变特征（距离、角度、二面角），但通过基于边的消息传递近似等变函数；被归类为 4 体、张量阶数 $\ell=0$ 的架构。
笛卡尔向量（EGNN）：一种使用向量通道（张量阶数 $\ell=1$ ）的 $E(n)$ 等变图神经网络（GNN）。
高阶球张量（eSEN）：一种利用旋转群高阶不可约表示（ $\ell \ge 2$ ）的等变网络，采用帧对齐来稀疏化张量积。

该研究采用单轮训练制度以与理论缩放定律文献保持一致，利用无调度器的 AdamW 优化器以减轻学习率调度伪影的影响。缩放定律针对以下三个指标进行拟合：

计算量：理论浮点运算次数（FLOPs， $C$ ）和实际训练时间（GPU 小时， $H$ ）。
数据：训练 token 数量（ $D$ ）。
参数：模型大小（ $N$ ）。

作者还研究了对称性损失正则化（惩罚非等变模型中偏离等变性的部分）、带数据增强的多轮训练以及测试时组平均的影响。

主要贡献

架构依赖的缩放指数：本文证明缩放指数在不同架构间并非恒定。随着等变“程度”的增加（从无约束到低阶再到高阶），数据（ $\beta$ ）和参数（ $\alpha$ ）的幂律指数显著增加。
等变模型的优越缩放：等变架构，特别是具有高阶张量表示的架构（如 eSEN），表现出更陡峭的缩放曲线。这意味着随着计算量和数据的扩展，等变模型与非等变模型之间的性能差距会扩大，这与模型可以稍后“学习”对称性的观点相矛盾。
计算最优分配：研究发现，对于计算最优训练，模型大小（ $N$ ）和数据集大小（ $D$ ）应在所有架构中同步扩展（ $N \propto D$ ），这与语言建模中的发现（Chinchilla 缩放）相呼应。然而，比例常数以及由此产生的损失降低程度取决于架构的对称性偏置。
对称性损失的无效性：在无约束模型中通过损失项（正则化）强制对称性，并不能产生与将等变性构建到架构中相同的缩放优势。虽然它略微提高了数据效率，但无法达到原生等变模型的缩放指数。
多轮训练与增强的见解：在低数据、多轮设置中，无约束模型需要数据增强以防止过拟合并恢复幂律缩放。然而，即使经过增强，无约束模型仍无法匹配等变模型的缩放指数。

结果

缩放定律：验证损失遵循幂律 $L \propto C^{-\gamma}$ $L \propto C^{- γ}$ 。指数 $\gamma$ $γ$ 随架构复杂度增加：
- 无约束 MPNN： $\gamma \approx 0.14$
- EGNN： $\gamma \approx 0.17$
- GemNet-OC： $\gamma \approx 0.25$
- eSEN（高阶）： $\gamma \approx 0.40$
数据和参数缩放：
- 数据缩放指数（ $\beta$ ）范围从 0.31（无约束）到 0.75（eSEN）。
- 参数缩放指数（ $\alpha$ ）范围从 0.28（无约束）到 0.82（eSEN）。
对称性损失：在无约束模型中添加对称性损失项会略微增加数据指数（ $\beta$ ），但会降低参数指数（ $\alpha$ ），导致与无约束基线相比，计算最优前沿斜率没有净增益。
深度：对于等变模型，最优网络深度随旋转表示的阶数增加而增加，而无约束模型在较高深度下会遭受过度平滑的影响。

意义与主张
本文认为，与“痛苦教训”假设（该假设认为模型应从数据中学习归纳偏置）相反，显式的架构对称性对于几何任务的缩放至关重要。作者声称，对称性不仅仅是一种数据缩减技术，它从根本上改变了任务的固有难度及其缩放定律。

其主要意义在于发现高阶等变表示转化为更好的缩放指数。这表明，对于大规模 NNIPs，投资于复杂、感知对称性的架构（如 eSEN）比扩展更简单的非等变模型更有效。作者得出结论，像对称性这样的基本归纳偏置应编码在架构中，而不是留给模型去发现，因为它们改变了缩放轨迹本身。

本文在范围上保持适度，指出了局限性，例如专注于单轮训练、使用的特定数据集（中性分子）以及排除了其他近期工作中使用的去噪预训练策略。它呼吁未来的理论工作解释为什么对称性会改变缩放指数，并建议将这些研究扩展到更多样化的分子类型和多轮制度中。

1. 竞赛：速度 vs. 效率

2. 对称性的“阶数”很重要

3. “痛苦教训”vs. 现实

4. “金发姑娘”式的平衡

5. 关于用损失函数“作弊”

结论

类似论文