原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你正试图预测一群人的移动方式、碰撞方式以及在受到突然推挤时的反应。在原子世界中,科学家使用“原子间势能”(Interatomic Potentials)来做同样的事情:他们通过计算原子之间如何推力和拉力,来预测材料的行为。
几十年来,科学家必须为每一种类型的材料构建一套定制的“规则书”(比如一本专门针对黄金的规则书,一本专门针对水的规则书,另一本针对钢的规则书)。这些规则书非常准确,但编写它们需要数年时间,且无法用于其他用途。
最近,一种新型的人工智能——机器学习原子间势能(MLIPs)问世了。更棒的是,我们现在拥有了“基础模型”(Foundation Models)。把这些模型想象成一位“超级特级大师”AI,它读遍了图书馆里所有的化学教科书。它不仅仅是背诵了一本规则书,它已经理解了物质的通用语言。现在,如果你向它询问一种它从未见过的全新材料,它只需极少的额外训练就能推测出其规则。
然而,本文作者认为,尽管这项技术令人兴奋,但我们正在问错误的问题,或者说还没问出正确的问题。他们确定了六个重大的开放性问题,科学家需要在解决这些问题之前,才能让这些 AI 模型真正实现科学革命。
以下是这六个问题的解释,使用了简单的类比:
1. 什么是原子领域的“基础模型”?
类比: 想象一位能烹饪完美牛排的厨师。那是一位专家。现在想象一位既能做牛排,又能烤蛋糕、冲咖啡、煎鱼,且不需要为每样东西都准备一本新食谱的厨师。这就是一个“基础模型”。
问题: 我们需要达成共识,明确最低要求是什么。AI 是只需要擅长很多种技能吗?还是它需要能够瞬间学习新任务?论文指出,我们需要一个清晰的定义,以免在它其实只是一个伪装成基础模型的狭隘专家时,仍将其称为“基础模型”。
2. 我们需要更多数据、更好的数据,还是更聪明的模型?
类比: 想象教一个孩子识别狗。
- 更多数据: 给孩子看 100 万张狗的照片。
- 更好的数据: 给孩子看 1,000 张完美的狗的照片,涵盖各种角度、各种天气,且没有模糊的照片。
- 更聪明的模型: 给孩子一个更好的大脑(或更好的思考方式),这样他们就能从更少的照片中学习。
问题: 论文提出了疑问:我们应该只是把大量数据倾倒进 AI 中吗?还是应该花时间去策划“完美”的数据?或者我们应该构建更聪明的 AI 大脑,让它们能从更少的数据中学习?答案并不简单;这很可能是三者的结合,但我们还不知道完美的配方是什么。
3. 这些 AI 能处理“远距离”关系吗?
类比: 想象一个拥挤的房间。如果你推了一下一个人,紧挨着你的人会立刻感觉到。但房间另一头的人呢?在物理学中,原子可以在一定距离外“感受到”彼此(例如磁铁或静电)。
目前的 AI 模型大多像是只和邻居聊天的人。它们擅长处理局部的小道消息,但对整个房间的氛围却一窍不通。
问题: 这些模型能否学会“听见”房间另一头的低语?论文指出,对于某些材料(如带电晶体),忽略这种远距离的低语会导致错误的答案。我们需要知道 AI 是否能在不变得过于缓慢的前提下,解决这个问题。
4. AI 是在发现“新物理”,还是仅仅在进行猜测?
类比: 想象一个研读过往所有试卷的学生。如果你给他一道看起来和旧题完全一样的题,他会考得很好。但如果你问一个书中从未出现过的概念,他会进行逻辑推理,还是只会胡编乱造一个虚假答案?
问题: 这些 AI 能否观察到一种奇怪的高压情况(比如行星中心),并根据它们学到的物理定律说:“我从未见过这种情况,但基于我学到的物理规律,我认为会发生这种情况”?还是它们仅仅是在记忆模式?论文对此持怀疑态度;目前,它们主要擅长插值(填补空白),但在真正的发现方面表现较差。
5. 它们能扩展到进行有用的模拟吗?
类比: 一辆超快速的跑车在短距离赛道上表现出色。但如果你想驾驶一辆跨国卡车,你需要一个能承载重物且不会耗尽燃料的东西。
问题: 最精确的 AI 模型通常非常沉重且缓慢,以至于它们只能模拟一粒微小的尘埃极短的一段时间。论文问道:我们能否让这些模型变得足够快,从而能够模拟一个完整的病毒、一块电池或一块金属很长一段时间?如果 AI 运行的时间比它所运行的超级计算机还要长,那它就失去了实用价值。
6. 我们如何知道 AI 是否真的优秀?
类比: 想象一个电子游戏排行榜。如果每个人都只是反复玩同一个关卡以获得最高分,那么排行榜就无法告诉你谁才是真正的顶级玩家。他们可能只是在“作弊”针对特定的测试。
问题: 我们有一个流行的“测试”(称为 Matbench Discovery)来对这些 AI 模型进行排名。但论文警告说,如果每个人都专门针对这个测试来训练他们的 AI,分数就会卡在顶端,导致我们无法知道模型是否在现实世界中真正得到了提升。我们需要更好、更多样化的测试,以便在 AI 试图“作弊”或在现实场景中失败时捕捉到它们。
总结
论文得出结论,我们正处于这项技术的“淘金热”时刻。我们拥有强大的新工具(基础模型),它们承诺让我们能够从头开始设计新的药物、电池和材料。但在我们过度兴奋之前,我们需要停下来问:这些工具真的准备好了吗?
作者并不是说这项技术不好,而是说它太新、发展太快了。我们需要定义它是什么,修复它的盲点(如远距离相互作用),提高它的速度,并创建更好的测试,以确保它不仅仅是在记忆答案,而是在真正学习自然界的规律。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。