原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你正在尝试教一个机器人绘制一幅关于复杂量子世界的完美图画。在物理学中,这些“图画”被称为波函数。它们描述了电子等微小粒子如何舞动、相互作用并自行排列。长期以来,科学家们一直使用神经网络(一种人工智能)来尝试猜测这些图画的样子。
然而,存在一个问题:每个人都在使用不同的测试图画、不同的绘画风格以及不同的评分方式。因此,无法判断某一个人工智能是否真的优于另一个,或者它只是恰好擅长某种特定类型的图画。
本文介绍了WF-Bench,这是解决该问题的方案。可以将 WF-Bench 视为这些人工智能画家的通用“驾驶考试”。
“驾驶考试”(数据集)
正如驾驶考试会检查你是否能应对雨天的高速公路、积雪的山脉和繁忙的城市一样,WF-Bench 在三种截然不同的“量子地形”上测试人工智能波函数:
- 拓扑态(扭曲的结): 想象一根绳子被系成极其复杂、无法在不剪断的情况下解开的结状图案。这些代表了物质的奇异状态,其中粒子之间具有“扭曲”的关系。
- 超导体(完美的舞蹈): 想象一个舞厅,每位舞者都以完美同步的成对方式移动。这些是电流以零电阻流动的材料。
- 维格纳晶体(冻结的网格): 想象一群人,因为彼此过于厌烦,而完全静止地站在一个僵硬的网格图案中。当电子相互排斥得如此强烈以至于它们冻结在原地时,就会发生这种情况。
该数据集包含来自这三类的31 幅不同的“目标图画”。有些很简单,而另一些则极其复杂,具有奇特的相和图案。
“评分系统”(协议)
为了评估人工智能画得有多好,研究人员使用了一种称为保真度的指标。
- 类比: 想象人工智能是一名参加考试的学生。“目标波函数”是答案键。保真度就是学生答对答案键的百分比。
- 挑战: 随着电子数量(房间里的“学生”)的增加,考试难度呈指数级上升。研究发现,对于所有这些人工智能模型,随着系统变大,“分数”(保真度)会下降,遵循可预测的数学模式(幂律)。
“画笔”(架构)
研究人员在该测试中测试了两种流行的人工智能“画笔”(架构):
- Ferminet: 一种同时观察单个电子以及电子对如何相互作用的模型。
- Psiformer: 一种利用“自注意力”机制(类似于现代人工智能如 ChatGPT 的工作原理)来一次性观察整个电子群的模型。
结果: 在给定相同“脑力”(参数量)的情况下,Psiformer 绘制的图画始终优于 Ferminet。 它在几乎每一项测试中都获得了更高的分数,尤其是在最复杂、最扭曲的“拓扑”结上。
“边际收益递减”(扩展定律)
本文还研究了向人工智能添加更多“工具”如何影响其性能:
- 更多行列式(更多画笔): 添加更多“行列式”(数学构建块)起初能帮助人工智能快速改进。但在某个点(大约 32 个)之后,添加更多画笔并不会使图画好多少。这就像你只需要 4 支画笔却拥有 100 支;多余的画笔只会增加重量,而不会增加色彩。
- 更多层(更深层的思考): 使人工智能“更深”(添加更多处理层)在从 1 层增加到 2 层时很有帮助。但从 2 层增加到 10 层时,帮助不大。人工智能遇到了一个“天花板”,仅靠增加深度无法从中学习更多。
核心结论
本文不仅构建了一个数据集,还建立了一把标准化的尺子。
- 它证明了对于这些任务,Psiformer 目前是比 Ferminet 更强大的“画家”。
- 它表明更大并不总是更好:添加太多工具或使人工智能过深并不能保证画出更好的图画。
- 它确立了复杂性增长迅速:随着粒子数量的增加,任何人工智能要捕捉完美图画在数学上都变得愈发困难,但 WF-Bench 现在为科学家提供了一种方法,可以精确衡量不同模型面临的困难程度。
简而言之,WF-Bench 是允许科学家停止猜测哪种人工智能最佳并开始公平衡量它的工具,从而确保未来的量子模拟建立在坚实且可比较的基础之上。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。