原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象你拥有一本巨大的、神奇的说明书,用于用微小且看不见的乐高积木搭建各种事物。这些积木就是原子,而说明书则用一种名为"CIF 文件”的特殊代码编写。科学家们利用这些文件来设计新材料,例如更强大的电池或更高效的太阳能电池板。
最近,我们赋予了计算机一项新的超能力:大型语言模型(LLMs)。可以将它们想象成极其聪明的机器人,能够阅读和书写人类语言。它们非常擅长回答诸如“食盐的化学式是什么?”或“讲一个关于晶体的故事”之类的问题。
但本文提出了一个关键问题:这些聪明的机器人在被要求时,是否真的能够构建和修改这些原子乐高结构?
问题:阅读与执行
作者们意识到,虽然这些机器人在谈论科学方面表现出色,但尚未在执行原子重排的实际工作方面接受过测试。这就像拥有一位能完美描述食谱的厨师,但当被要求实际切洋葱或翻煎饼时却失败了。
在现实世界中,科学家经常需要对结构进行微小而精确的修改:“将原子移到这里”、“旋转这组原子”或“交换这两个元素”。完成这些操作需要强烈的三维空间和几何感,这与仅仅撰写文本截然不同。
解决方案:AtomWorld(训练场)
为了测试这一点,研究人员构建了一个名为AtomWorld的游乐场。
可以将 AtomWorld 想象成专为这些 AI 机器人设计的游戏关卡。
- 设置:游戏向机器人提供一个起始乐高结构和一个简单指令,例如“将红色积木向右旋转 90 度”。
- 目标:机器人必须以正确的代码格式输出新的、修改后的乐高结构。
- 规则:游戏会用一把严格的尺子检查机器人的答案。它是否移动了正确的积木?角度是否正确?新结构是否稳定?
他们创建了2,500 个不同的关卡(称为 AtomMotor-2K),涵盖十种基本操作类型,从简单的(如“添加一个积木”)到非常困难的(如“围绕特定点旋转整个积木集群”)。
发现:“运动技能”差距
当他们让最佳 AI 模型通过这项测试时,结果喜忧参半:
- “简单”操作:对于添加或移除新原子等简单任务,机器人的表现令人惊讶地好。它们大多数时候都能做对。
- “困难”操作:当任务需要复杂的空间推理时——例如旋转一组原子或将一个原子移近另一个原子——机器人的表现严重挣扎。在旋转任务中,它们的成功率降至12% 以下。
- 类比:这就像要求机器人“在桌子上旋转陀螺”。它可能知道陀螺是什么,但当它尝试实际旋转时,往往会把桌子弄翻,或者朝错误的方向旋转。
- 规模很重要(但并非全部):更大、更强大的 AI 模型通常表现更好,但即使是最大的模型在最困难的空间任务上仍然失败。这表明仅仅让机器人变得更“聪明”(增加更多数据)是不够的;它需要一个不同类型的“大脑”来处理三维几何。
结论:副驾驶,而非机长
该论文得出结论,目前这些 AI 模型尚未准备好成为科学发现的主要机长。由于它们不断犯下几何错误,因此不能信任它们自主设计复杂的新型材料。
然而,它们是优秀的副驾驶。它们可以帮助科学家起草想法、检查简单错误,或处理工作中枯燥的部分,但人类专家需要对最终的三维结构进行复核。
为何这很重要
作者构建 AtomWorld 不仅是为了给机器人评分,更是为了给它们提供一个练习的场所。正如人类通过在停车场练习驾驶来学习开车,然后才驶上高速公路一样,这些 AI 模型需要一个像 AtomWorld 这样的地方来学习如何正确地“移动”原子。
该论文指出,未来的 AI 可能会通过向工具学习(例如使用计算器而不是心算数学)或通过观察三维图像而不仅仅是阅读文本描述来在这方面变得更好。但目前,这些数字科学家的“运动技能”仍处于完善过程中。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。