Scaling Laws and Symmetry, Evidence from Neural Force Fields

本文表明,通过等变架构(尤其是具有高阶表示的架构)融入任务对称性,可显著改善原子间势的缩放规律,这表明基本的归纳偏置应当被显式设计,而非留待模型在扩展过程中自行发现。

原作者: Khang Ngo, Siamak Ravanbakhsh

发布于 2026-05-06
📖 1 分钟阅读☕ 轻松阅读

原作者: Khang Ngo, Siamak Ravanbakhsh

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在教一个机器人预测分子中原子的运动与相互作用。这有点像教一个孩子理解复杂的乐高结构是如何拼合在一起的。你可以给机器人两种不同风格的说明书:

  1. “盲”说明书:你只是向机器人展示数百万张乐高结构的图片,然后说:“你自己去找出规则。”机器人必须从零开始学习一切,包括这样一个事实:如果你旋转整个结构,其物理性质并不会改变。
  2. “对称性”说明书:你给机器人一本明确写着“嘿,记住,如果你旋转这个结构,它仍然是同一个结构;如果你翻转它,规则保持不变”的说明书。你将物理定律(对称性)直接“烘焙”进了机器人的大脑。

长期以来,许多研究人员相信“盲”方法。他们认为,只要给机器人足够的数据和足够的计算能力(一个“更大的大脑”),它最终会自己找出对称性规则。他们相信,显式地教授这些规则是不必要的,一个简单而灵活的模型最终会迎头赶上。

本文指出:“实际上并非如此。‘对称性’说明书要好得多,而且随着规模扩大,差距会进一步拉大。”

以下是他们研究发现的简要说明,使用简单的类比:

1. 竞赛:速度 vs. 效率

研究人员让不同类型的机器人“大脑”(架构)进行竞赛,看它们学习预测原子力的速度有多快。

  • “盲”机器人(无约束):它们灵活但低效。每次看到旋转后的分子,它们都必须“重新学习”旋转后的分子仍是同一个分子这一事实。
  • “对称性”机器人(等变):它们内置了旋转和平移的规则。它们不会浪费能量去重新学习基本的物理规律。

发现:当机器人规模较小时,差异并不巨大。但随着研究人员将机器人变得巨大(扩大数据量和计算能力),“对称性”机器人不仅保持领先,而且大幅拉开差距。“盲”机器人遇到了一堵墙,增加更多数据对它们的帮助有限;而“对称性”机器人则持续变得越来越聪明。

2. 对称性的“阶数”很重要

并非所有“对称性”机器人都是同等水平的。有些只理解简单的旋转(如一枚平放的硬币),而另一些则理解复杂的三维旋转(如一个旋转的地球仪)。

  • 低阶对称性:理解基本规则。
  • 高阶对称性:理解关于形状在三维空间中如何相互作用的非常复杂、细致的规则。

发现:内置到机器人中的对称性规则越复杂,它学习得就越快。拥有“高阶”对称性的机器人学习速度快到使其与“盲”机器人之间的差距变成了一道鸿沟。这就像比较一个只认识字母的学生和一个已经掌握该语言语法和词汇的学生;随着书籍越来越厚,第二个学生将第一个学生远远甩在身后。

3. “痛苦教训”vs. 现实

人工智能领域有一个著名的观点叫“痛苦教训”,它主张我们应停止将人类知识(如对称性)硬编码到人工智能中,而应让 AI 从原始数据中学习,因为这样更便宜且扩展性更好。

  • 本文论证:在原子和分子的领域,“痛苦教训”是错误的。如果你试图让模型自行发现对称性,那就好比要求学生重新发现引力定律。这或许可能,但效率极低。等到学生自己弄明白时,那个被教导过引力定律的学生早已展翅高飞。

4. “金发姑娘”式的平衡

本文还研究了如何最有效地分配资金(计算能力)。

  • 旧方法:也许你应该买一个更大的大脑(更多参数)或获取更多教科书(更多数据)。
  • 新发现:事实证明,你需要同时购买两者。如果你将数据量翻倍,也应将模型规模翻倍。这种“ tandem scaling(协同扩展)”对所有类型的机器人都最有效,但“对称性”机器人在利用这种组合能力方面要高效得多。

5. 关于用损失函数“作弊”

一些研究人员试图通过给“盲”机器人添加惩罚分数来“欺骗”它们:如果它们在对称性问题上犯错(例如,“如果你说旋转后的分子是不同的,你就得低分”),就给予惩罚。

  • 发现:这效果不佳。这就像告诉学生“别忘了规则”,却没有真正教他们规则。机器人仍然必须费力地去学习模式。从一开始就把规则构建到机器人的大脑中要好得多。

结论

如果你想构建一个超级智能的 AI 来理解分子,不要只是向一个简单灵活的模型投喂更多数据,然后指望它自行找出物理定律。将物理定律直接构建到模型的设计中。

当你扩展到巨大规模时,那些尊重宇宙基本对称性(旋转、平移)的模型,不仅会略胜一筹,而且会比那些试图从零开始学习这些规则的模型强大得多。“对称性”方法改变了学习曲线的本质,使任务更简单,结果更出色。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →