Six Open Questions in Machine-Learned Interatomic Potential Foundation Models

本文定义了基础机器学习原子间势函数(MLIPs),并阐述了六个预计将引导该领域未来前沿研究的关键开放性问题。

原作者: Isabel Creed, Tim Rein, Ingvars Vitenburgs, Wojciech G. Stark, Viktor Ellingsson, Ahmed Y. Ismail, Guangyu Liu, Yuchen Lou, Bradley A. A. Martin, Cyprien Bone, Matthew A. H. Walker, Mueen Taj, Shirui
发布于 2026-06-08
📖 1 分钟阅读☕ 轻松阅读

原作者: Isabel Creed, Tim Rein, Ingvars Vitenburgs, Wojciech G. Stark, Viktor Ellingsson, Ahmed Y. Ismail, Guangyu Liu, Yuchen Lou, Bradley A. A. Martin, Cyprien Bone, Matthew A. H. Walker, Mueen Taj, Shirui Wang, Kelvin Wong, Ruiqi Wu, Prakriti Kayastha, Bingqing Cheng, Aditi Krishnapriyan, Michele Ceriotti, Marcel F. Langer, Jarvist Moore Frost, Alex M. Ganose, Venkat Kapil, Keith T. Butler

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正试图预测一群人的移动方式、碰撞方式以及在受到突然推挤时的反应。在原子世界中,科学家使用“原子间势能”(Interatomic Potentials)来做同样的事情:他们通过计算原子之间如何推力和拉力,来预测材料的行为。

几十年来,科学家必须为每一种类型的材料构建一套定制的“规则书”(比如一本专门针对黄金的规则书,一本专门针对水的规则书,另一本针对钢的规则书)。这些规则书非常准确,但编写它们需要数年时间,且无法用于其他用途。

最近,一种新型的人工智能——机器学习原子间势能(MLIPs)问世了。更棒的是,我们现在拥有了“基础模型”(Foundation Models)。把这些模型想象成一位“超级特级大师”AI,它读遍了图书馆里所有的化学教科书。它不仅仅是背诵了一本规则书,它已经理解了物质的通用语言。现在,如果你向它询问一种它从未见过的全新材料,它只需极少的额外训练就能推测出其规则。

然而,本文作者认为,尽管这项技术令人兴奋,但我们正在问错误的问题,或者说还没问出正确的问题。他们确定了六个重大的开放性问题,科学家需要在解决这些问题之前,才能让这些 AI 模型真正实现科学革命。

以下是这六个问题的解释,使用了简单的类比:

1. 什么是原子领域的“基础模型”?

类比: 想象一位能烹饪完美牛排的厨师。那是一位专家。现在想象一位既能做牛排,又能烤蛋糕、冲咖啡、煎鱼,且不需要为每样东西都准备一本新食谱的厨师。这就是一个“基础模型”。
问题: 我们需要达成共识,明确最低要求是什么。AI 是只需要擅长很多种技能吗?还是它需要能够瞬间学习新任务?论文指出,我们需要一个清晰的定义,以免在它其实只是一个伪装成基础模型的狭隘专家时,仍将其称为“基础模型”。

2. 我们需要更多数据、更好的数据,还是更聪明的模型?

类比: 想象教一个孩子识别狗。

  • 更多数据: 给孩子看 100 万张狗的照片。
  • 更好的数据: 给孩子看 1,000 张完美的狗的照片,涵盖各种角度、各种天气,且没有模糊的照片。
  • 更聪明的模型: 给孩子一个更好的大脑(或更好的思考方式),这样他们就能从更少的照片中学习。
    问题: 论文提出了疑问:我们应该只是把大量数据倾倒进 AI 中吗?还是应该花时间去策划“完美”的数据?或者我们应该构建更聪明的 AI 大脑,让它们能从更少的数据中学习?答案并不简单;这很可能是三者的结合,但我们还不知道完美的配方是什么。

3. 这些 AI 能处理“远距离”关系吗?

类比: 想象一个拥挤的房间。如果你推了一下一个人,紧挨着你的人会立刻感觉到。但房间另一头的人呢?在物理学中,原子可以在一定距离外“感受到”彼此(例如磁铁或静电)。
目前的 AI 模型大多像是只和邻居聊天的人。它们擅长处理局部的小道消息,但对整个房间的氛围却一窍不通。
问题: 这些模型能否学会“听见”房间另一头的低语?论文指出,对于某些材料(如带电晶体),忽略这种远距离的低语会导致错误的答案。我们需要知道 AI 是否能在不变得过于缓慢的前提下,解决这个问题。

4. AI 是在发现“新物理”,还是仅仅在进行猜测?

类比: 想象一个研读过往所有试卷的学生。如果你给他一道看起来和旧题完全一样的题,他会考得很好。但如果你问一个书中从未出现过的概念,他会进行逻辑推理,还是只会胡编乱造一个虚假答案?
问题: 这些 AI 能否观察到一种奇怪的高压情况(比如行星中心),并根据它们学到的物理定律说:“我从未见过这种情况,但基于我学到的物理规律,我认为会发生这种情况”?还是它们仅仅是在记忆模式?论文对此持怀疑态度;目前,它们主要擅长插值(填补空白),但在真正的发现方面表现较差。

5. 它们能扩展到进行有用的模拟吗?

类比: 一辆超快速的跑车在短距离赛道上表现出色。但如果你想驾驶一辆跨国卡车,你需要一个能承载重物且不会耗尽燃料的东西。
问题: 最精确的 AI 模型通常非常沉重且缓慢,以至于它们只能模拟一粒微小的尘埃极短的一段时间。论文问道:我们能否让这些模型变得足够快,从而能够模拟一个完整的病毒、一块电池或一块金属很长一段时间?如果 AI 运行的时间比它所运行的超级计算机还要长,那它就失去了实用价值。

6. 我们如何知道 AI 是否真的优秀?

类比: 想象一个电子游戏排行榜。如果每个人都只是反复玩同一个关卡以获得最高分,那么排行榜就无法告诉你谁才是真正的顶级玩家。他们可能只是在“作弊”针对特定的测试。
问题: 我们有一个流行的“测试”(称为 Matbench Discovery)来对这些 AI 模型进行排名。但论文警告说,如果每个人都专门针对这个测试来训练他们的 AI,分数就会卡在顶端,导致我们无法知道模型是否在现实世界中真正得到了提升。我们需要更好、更多样化的测试,以便在 AI 试图“作弊”或在现实场景中失败时捕捉到它们。

总结

论文得出结论,我们正处于这项技术的“淘金热”时刻。我们拥有强大的新工具(基础模型),它们承诺让我们能够从头开始设计新的药物、电池和材料。但在我们过度兴奋之前,我们需要停下来问:这些工具真的准备好了吗?

作者并不是说这项技术不好,而是说它太新、发展太快了。我们需要定义它是什么,修复它的盲点(如远距离相互作用),提高它的速度,并创建更好的测试,以确保它不仅仅是在记忆答案,而是在真正学习自然界的规律。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →