Discovery of Interpretable Physical Laws in Materials via Language-Model-Guided Symbolic Regression

该论文提出了一种利用大语言模型引导符号回归以发现可解释物理定律的新框架,通过大幅压缩搜索空间,成功从数据中识别出比传统方法更准确且简洁的钙钛矿材料关键性能公式。

原作者: Yifeng Guan, Chuyi Liu, Dongzhan Zhou, Lei Bai, Wan-jian Yin, Jingyuan Li, Mao Su

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常酷的故事:科学家发明了一种"AI 侦探",专门帮我们在杂乱无章的数据海洋里,找出那些简单、漂亮且能解释物理世界的“终极公式”。

为了让你更容易理解,我们可以把这项研究想象成在茫茫大海中寻宝

1. 之前的困境:盲人摸象 vs. 大海捞针

在材料科学里,科学家们想知道为什么某种材料硬、某种材料导电好。以前,大家主要用两种方法:

  • 方法一:深度学习(黑盒子)
    这就像请了一位超级算命先生。他看了成千上万次实验数据后,能准确告诉你:“这块石头硬度是 8 级”。但他说不出为什么。你问他原理,他只会说:“因为数据就是这么告诉我的。”这对科学家来说不够,因为我们想知道背后的物理机制(比如原子是怎么排列的)。
  • 方法二:传统符号回归(盲目搜索)
    这就像让一个刚学会走路的孩子在巨大的迷宫里找出口。孩子手里有一堆积木(各种物理参数,如原子半径、电荷等),他试图用积木搭出各种形状(公式)来匹配数据。
    • 问题:积木太多了,孩子会搭出一些极其复杂、甚至荒谬的公式。比如,他可能发现“原子半径的 3.5 次方乘以电子亲和力的倒数”能凑出数据,但这在物理上根本讲不通。这就像为了凑答案,硬把“苹果”和“香蕉”强行加在一起,虽然算对了数,但逻辑是乱的。

2. 新方案:LangLaw(AI 向导 + 机器人)

这篇论文提出的 LangLaw 框架,就像给那个“盲目找路的孩子”配了一位博学的老教授(大语言模型,LLM)。

  • 老教授(LLM):他读过无数本物理书,懂得天体物理、化学原理。他知道“原子半径”和“硬度”肯定有关系,但“今天的天气”和“硬度”肯定没关系。
  • 机器人(符号回归引擎):它负责干苦力,拿着积木去搭建公式,计算哪个公式最准。

他们是怎么合作的

  1. 老教授先指路:在机器人开始搭积木之前,老教授说:“别乱搭!只关注‘原子半径’和‘电荷’这几个关键积木,其他的像‘天气’、‘颜色’都扔掉。”
    • 效果:这直接把需要搜索的迷宫大小缩小了 10 万倍!机器人不再在茫茫大海里乱撞,而是直奔主题。
  2. 机器人干活:机器人根据老教授的建议,快速搭建公式。
  3. 老教授复盘:机器人搭完一个公式,老教授看一眼:“这个公式虽然准,但太复杂了,而且那个‘立方根’在物理上讲不通,删掉它,换个简单的。”
  4. 循环优化:他们就这样你来我往,像下棋一样,一步步把公式打磨得既准确简单,还能解释得通。

3. 实战成果:他们找到了什么?

研究人员用这个方法在三个著名的材料领域“寻宝”,结果非常惊人:

  • 寻宝一:钙钛矿的“硬度”(体积模量)
    • 以前的公式:像是一团乱麻,充满了各种奇怪的指数和参数,虽然算得准,但没人看得懂。
    • LangLaw 找到的公式:像是一句清晰的物理格言。它告诉我们,硬度主要取决于“电子云的软硬度”和“离子键的强弱”。公式变得非常简洁,像 A+BA + B 一样直观,科学家一眼就能看懂背后的物理意义。
  • 寻宝二:无铅钙钛矿的“颜色/能量”(带隙)
    • 以前需要复杂的公式来预测材料能吸收什么颜色的光。LangLaw 找到的新公式,不仅更准,而且发现了一些以前被忽略的关键因素(比如阴离子的半径),让公式变得像诗一样简洁。
  • 寻宝三:催化剂的“效率”(析氧反应)
    • 这是制造清洁能源的关键。以前的模型需要很多数据才能训练,而且容易“死记硬背”(过拟合)。LangLaw 只用很少的数据,就找到了一个既简单又通用的公式,甚至能预测它没见过的新型材料。

4. 为什么这很重要?

这就好比以前我们造飞机,只能靠试错,或者用超级计算机模拟但不知道原理。现在,LangLaw 就像给了科学家一副**“透视眼镜”**。

  • 数据少也不怕:在材料科学里,做实验很贵、很慢,数据往往很少。纯靠数据驱动的 AI(深度学习)在数据少时容易“胡编乱造”,但 LangLaw 因为有“老教授”(物理知识)带着,哪怕只有几十个数据点,也能挖出真理。
  • 不仅准,还懂“为什么”:它找到的公式不是黑盒子,而是可解释的。它告诉科学家:“哦,原来是因为这个原子太软了,所以材料才容易变形。”这种洞察能直接指导科学家设计出更好的新材料。

总结

这篇论文的核心就是:让大语言模型(懂知识的 AI)

它不再让 AI 只是做一个只会预测数字的“计算器”,而是让它变成一个能发现科学规律、解释自然奥秘的“科学家助手”。这标志着我们离“用 AI 自动发现物理定律”的梦想又近了一大步。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →