Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一种名为 SymLang 的新方法,它的目标是帮助科学家从混乱、嘈杂的实验数据中,自动“挖掘”出描述自然规律的简洁数学公式(比如牛顿第二定律 或麦克斯韦方程组)。
想象一下,你手里有一堆被雨水淋湿、沾满泥巴的乐谱碎片(这就是带噪声的观测数据),你想从中拼凑出贝多芬的《第九交响曲》(这就是物理定律)。以前的方法要么像无头苍蝇一样乱猜,要么只能猜出几个音符,很难还原整首曲子。
SymLang 就像是一位拥有“超级直觉”且“严守规则”的侦探,它通过三个核心绝招来解决这个问题:
1. 第一招:给公式戴上“紧箍咒”(对称性约束)
以前的侦探在拼凑乐谱时,什么符号都敢往上放,导致候选方案多如牛毛,而且很多方案根本不符合音乐理论(比如在一个小调的曲子里强行插入大调的和弦)。
SymLang 则不同,它在开始拼凑之前,就先给所有可能的公式套上了**“物理紧箍咒”**:
- 单位守恒:就像你不能把“苹果”和“时间”直接相加一样,公式里的每一项单位必须匹配(比如速度不能等于质量)。
- 对称性:如果物理规律是“左右对称”的,那么公式里就不能出现破坏这种对称的项。
- 效果:这就像在拼乐高之前,先告诉机器人:“只许用红色的积木,且必须拼成对称的形状”。这直接砍掉了 71% 以上的错误猜测,让搜索速度飞快,而且从一开始就排除了那些“物理上不可能”的荒谬公式。
2. 第二招:请一位“天才翻译官”(大语言模型引导)
有了紧箍咒,候选范围变小了,但依然有很多可能性。这时候,SymLang 请来了一个经过特殊训练的 AI 翻译官(一个 70 亿参数的大语言模型)。
- 它的工作:这个翻译官不是瞎猜,而是先“阅读”数据的特征(比如数据是波动的还是直线上升的,有没有周期性)。
- 它的直觉:基于它读过的成千上万条物理定律,它能凭直觉直接提出最像样的几个公式草稿。
- 比喻:就像一位老练的厨师,看一眼冰箱里剩下的食材(数据特征),就能直接猜出这道菜最可能的食谱,而不是把冰箱里所有食材随机组合一遍。
3. 第三招:不仅找答案,还要找“不确定性”(贝叶斯模型选择)
这是 SymLang 最聪明的地方。以前的方法通常会自信地给出一个“最佳公式”,哪怕数据其实不足以确定唯一的答案。这就像侦探只告诉你:“凶手肯定是张三”,哪怕证据其实很模糊。
SymLang 则会说:
- “根据现有数据,公式 A 的可能性是 50%,公式 B 的可能性也是 50%。”
- 它会明确告诉你:“现在的证据不足以区分这两个公式,我们需要更多实验来搞清楚。”
- 比喻:它不像是一个独断的法官,而像是一个诚实的科学家。如果数据模糊,它会举起“存疑”的牌子,而不是强行给出一个错误的答案。这能防止科学家被误导,去研究那些其实并不存在的“伪规律”。
它有多厉害?(实战表现)
研究人员在 133 个不同的物理系统(从摆钟、电路到种群增长模型)上测试了 SymLang:
- 抗噪能力强:即使数据里有 10% 的噪音(就像乐谱被雨水泡得模糊不清),SymLang 依然能83.7% 的概率完美还原出原始公式。这比目前最好的其他方法高出 22 个百分点。
- 预测更准:用 SymLang 找到的公式去预测未来的情况(比如预测明天的天气或明天的股价),它的误差比其他方法小 61%。
- 不犯低级错误:其他方法找出的公式,有时候会违反物理守恒定律(比如凭空创造能量),而 SymLang 找出的公式几乎 100% 遵守物理定律,因为它从一开始就被“紧箍咒”限制住了。
- 看不见的变量也能猜:如果实验只能观测到一半的数据(比如只能看到钟摆的角度,看不到速度),SymLang 依然能猜出背后的规律,准确率比其他方法高出近 60%。
总结
SymLang 就像是一个“物理世界的乐高大师”:
它手里有一套严格的拼搭规则(对称性约束),有一个经验丰富的直觉助手(大语言模型),还有一个诚实的质检员(不确定性分析)。
它不仅能从混乱的数据中找回失落的物理定律,更重要的是,它知道什么时候自己“不知道”。这种“知其然,亦知其未知”的能力,让科学发现变得更加可靠、透明,也更能指导我们下一步该做什么实验。
这项技术是开源的,意味着未来的科学家都可以用它来加速发现新的自然规律,从微观粒子到宏观宇宙。