Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

本文提出了名为 SymLang 的统一框架,通过结合类型化对称约束语法、语言模型引导的程序合成以及 MDL 正则化贝叶斯模型选择,在含噪和部分观测条件下显著提升了从实验数据中精确发现物理控制方程的准确性与可解释性。

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SymLang 的新方法,它的目标是帮助科学家从混乱、嘈杂的实验数据中,自动“挖掘”出描述自然规律的简洁数学公式(比如牛顿第二定律 F=maF=ma 或麦克斯韦方程组)。

想象一下,你手里有一堆被雨水淋湿、沾满泥巴的乐谱碎片(这就是带噪声的观测数据),你想从中拼凑出贝多芬的《第九交响曲》(这就是物理定律)。以前的方法要么像无头苍蝇一样乱猜,要么只能猜出几个音符,很难还原整首曲子。

SymLang 就像是一位拥有“超级直觉”且“严守规则”的侦探,它通过三个核心绝招来解决这个问题:

1. 第一招:给公式戴上“紧箍咒”(对称性约束)

以前的侦探在拼凑乐谱时,什么符号都敢往上放,导致候选方案多如牛毛,而且很多方案根本不符合音乐理论(比如在一个小调的曲子里强行插入大调的和弦)。

SymLang 则不同,它在开始拼凑之前,就先给所有可能的公式套上了**“物理紧箍咒”**:

  • 单位守恒:就像你不能把“苹果”和“时间”直接相加一样,公式里的每一项单位必须匹配(比如速度不能等于质量)。
  • 对称性:如果物理规律是“左右对称”的,那么公式里就不能出现破坏这种对称的项。
  • 效果:这就像在拼乐高之前,先告诉机器人:“只许用红色的积木,且必须拼成对称的形状”。这直接砍掉了 71% 以上的错误猜测,让搜索速度飞快,而且从一开始就排除了那些“物理上不可能”的荒谬公式。

2. 第二招:请一位“天才翻译官”(大语言模型引导)

有了紧箍咒,候选范围变小了,但依然有很多可能性。这时候,SymLang 请来了一个经过特殊训练的 AI 翻译官(一个 70 亿参数的大语言模型)。

  • 它的工作:这个翻译官不是瞎猜,而是先“阅读”数据的特征(比如数据是波动的还是直线上升的,有没有周期性)。
  • 它的直觉:基于它读过的成千上万条物理定律,它能凭直觉直接提出最像样的几个公式草稿。
  • 比喻:就像一位老练的厨师,看一眼冰箱里剩下的食材(数据特征),就能直接猜出这道菜最可能的食谱,而不是把冰箱里所有食材随机组合一遍。

3. 第三招:不仅找答案,还要找“不确定性”(贝叶斯模型选择)

这是 SymLang 最聪明的地方。以前的方法通常会自信地给出一个“最佳公式”,哪怕数据其实不足以确定唯一的答案。这就像侦探只告诉你:“凶手肯定是张三”,哪怕证据其实很模糊。

SymLang 则会说:

  • “根据现有数据,公式 A 的可能性是 50%,公式 B 的可能性也是 50%。”
  • 它会明确告诉你:“现在的证据不足以区分这两个公式,我们需要更多实验来搞清楚。”
  • 比喻:它不像是一个独断的法官,而像是一个诚实的科学家。如果数据模糊,它会举起“存疑”的牌子,而不是强行给出一个错误的答案。这能防止科学家被误导,去研究那些其实并不存在的“伪规律”。

它有多厉害?(实战表现)

研究人员在 133 个不同的物理系统(从摆钟、电路到种群增长模型)上测试了 SymLang:

  1. 抗噪能力强:即使数据里有 10% 的噪音(就像乐谱被雨水泡得模糊不清),SymLang 依然能83.7% 的概率完美还原出原始公式。这比目前最好的其他方法高出 22 个百分点。
  2. 预测更准:用 SymLang 找到的公式去预测未来的情况(比如预测明天的天气或明天的股价),它的误差比其他方法小 61%。
  3. 不犯低级错误:其他方法找出的公式,有时候会违反物理守恒定律(比如凭空创造能量),而 SymLang 找出的公式几乎 100% 遵守物理定律,因为它从一开始就被“紧箍咒”限制住了。
  4. 看不见的变量也能猜:如果实验只能观测到一半的数据(比如只能看到钟摆的角度,看不到速度),SymLang 依然能猜出背后的规律,准确率比其他方法高出近 60%。

总结

SymLang 就像是一个“物理世界的乐高大师”
它手里有一套严格的拼搭规则(对称性约束),有一个经验丰富的直觉助手(大语言模型),还有一个诚实的质检员(不确定性分析)。

它不仅能从混乱的数据中找回失落的物理定律,更重要的是,它知道什么时候自己“不知道”。这种“知其然,亦知其未知”的能力,让科学发现变得更加可靠、透明,也更能指导我们下一步该做什么实验。

这项技术是开源的,意味着未来的科学家都可以用它来加速发现新的自然规律,从微观粒子到宏观宇宙。