Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SymLang 的新方法，它的目标是帮助科学家从混乱、嘈杂的实验数据中，自动“挖掘”出描述自然规律的简洁数学公式（比如牛顿第二定律 $F=ma$ 或麦克斯韦方程组）。

想象一下，你手里有一堆被雨水淋湿、沾满泥巴的乐谱碎片（这就是带噪声的观测数据），你想从中拼凑出贝多芬的《第九交响曲》（这就是物理定律）。以前的方法要么像无头苍蝇一样乱猜，要么只能猜出几个音符，很难还原整首曲子。

SymLang 就像是一位拥有“超级直觉”且“严守规则”的侦探，它通过三个核心绝招来解决这个问题：

1. 第一招：给公式戴上“紧箍咒”（对称性约束）

以前的侦探在拼凑乐谱时，什么符号都敢往上放，导致候选方案多如牛毛，而且很多方案根本不符合音乐理论（比如在一个小调的曲子里强行插入大调的和弦）。

SymLang 则不同，它在开始拼凑之前，就先给所有可能的公式套上了**“物理紧箍咒”**：

单位守恒：就像你不能把“苹果”和“时间”直接相加一样，公式里的每一项单位必须匹配（比如速度不能等于质量）。
对称性：如果物理规律是“左右对称”的，那么公式里就不能出现破坏这种对称的项。
效果：这就像在拼乐高之前，先告诉机器人：“只许用红色的积木，且必须拼成对称的形状”。这直接砍掉了 71% 以上的错误猜测，让搜索速度飞快，而且从一开始就排除了那些“物理上不可能”的荒谬公式。

2. 第二招：请一位“天才翻译官”（大语言模型引导）

有了紧箍咒，候选范围变小了，但依然有很多可能性。这时候，SymLang 请来了一个经过特殊训练的 AI 翻译官（一个 70 亿参数的大语言模型）。

它的工作：这个翻译官不是瞎猜，而是先“阅读”数据的特征（比如数据是波动的还是直线上升的，有没有周期性）。
它的直觉：基于它读过的成千上万条物理定律，它能凭直觉直接提出最像样的几个公式草稿。
比喻：就像一位老练的厨师，看一眼冰箱里剩下的食材（数据特征），就能直接猜出这道菜最可能的食谱，而不是把冰箱里所有食材随机组合一遍。

3. 第三招：不仅找答案，还要找“不确定性”（贝叶斯模型选择）

这是 SymLang 最聪明的地方。以前的方法通常会自信地给出一个“最佳公式”，哪怕数据其实不足以确定唯一的答案。这就像侦探只告诉你：“凶手肯定是张三”，哪怕证据其实很模糊。

SymLang 则会说：

“根据现有数据，公式 A 的可能性是 50%，公式 B 的可能性也是 50%。”
它会明确告诉你：“现在的证据不足以区分这两个公式，我们需要更多实验来搞清楚。”
比喻：它不像是一个独断的法官，而像是一个诚实的科学家。如果数据模糊，它会举起“存疑”的牌子，而不是强行给出一个错误的答案。这能防止科学家被误导，去研究那些其实并不存在的“伪规律”。

它有多厉害？（实战表现）

研究人员在 133 个不同的物理系统（从摆钟、电路到种群增长模型）上测试了 SymLang：

抗噪能力强：即使数据里有 10% 的噪音（就像乐谱被雨水泡得模糊不清），SymLang 依然能83.7% 的概率完美还原出原始公式。这比目前最好的其他方法高出 22 个百分点。
预测更准：用 SymLang 找到的公式去预测未来的情况（比如预测明天的天气或明天的股价），它的误差比其他方法小 61%。
不犯低级错误：其他方法找出的公式，有时候会违反物理守恒定律（比如凭空创造能量），而 SymLang 找出的公式几乎 100% 遵守物理定律，因为它从一开始就被“紧箍咒”限制住了。
看不见的变量也能猜：如果实验只能观测到一半的数据（比如只能看到钟摆的角度，看不到速度），SymLang 依然能猜出背后的规律，准确率比其他方法高出近 60%。

总结

SymLang 就像是一个“物理世界的乐高大师”：
它手里有一套严格的拼搭规则（对称性约束），有一个经验丰富的直觉助手（大语言模型），还有一个诚实的质检员（不确定性分析）。

它不仅能从混乱的数据中找回失落的物理定律，更重要的是，它知道什么时候自己“不知道”。这种“知其然，亦知其未知”的能力，让科学发现变得更加可靠、透明，也更能指导我们下一步该做什么实验。

这项技术是开源的，意味着未来的科学家都可以用它来加速发现新的自然规律，从微观粒子到宏观宇宙。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：基于对称性约束与语言引导的从噪声和部分观测中发现控制方程

论文标题：Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations
中文译名：对称性约束语言引导的程序合成：从噪声和部分观测中发现控制方程
框架名称：SymLang (Symmetry-constrained Language-guided equation discovery)

1. 研究背景与问题定义

核心挑战：
从实验观测数据中自动发现紧凑的控制方程（Governing Equations）是定量科学的核心目标。然而，现有的方法在实际应用中面临三大主要障碍：

噪声干扰：测量噪声会严重破坏导数估计，导致基于微分的方法失效。
部分可观测性：关键的状态变量往往未被观测到，只能获得投影或有效动力学。
结构不确定性：在统计不确定性范围内，可能存在多个符号结构同样能解释数据，现有方法通常只返回一个“最佳”方程，忽略了结构上的简并性（Degeneracy），导致科学结论的误导。

现有方法的局限性：

稀疏回归 (如 SINDy)：依赖固定的算子库，库外的方程结构不可见。
进化/遗传算法 (如 PySR)：搜索空间巨大，计算成本高，且缺乏物理约束，容易生成无物理意义的候选项。
神经符号回归 (如 DSR, AI Feynman)：虽然灵活，但往往缺乏对物理守恒律和对称性的硬性约束，且在部分观测下表现不佳。
缺乏不确定性量化：大多数方法无法区分数据是否足以唯一确定方程结构。

2. 方法论：SymLang 框架

SymLang 是一个统一的五阶段模块化框架，旨在解决上述问题。其核心思想是将物理约束（对称性、量纲分析）作为硬规则嵌入搜索空间，利用大语言模型 (LLM) 引导搜索，并通过贝叶斯模型选择量化结构不确定性。

阶段一：预处理与导数估计

使用平滑样条变分问题（Smoothing-spline）或全变分正则化（Total-variation）来从噪声数据中估计导数 $\dot{y}$ ，避免直接差分放大噪声。
通过广义交叉验证（GCV）自动选择平滑参数。

阶段二：无量纲化与单位约束

从数据统计中推断特征尺度，将变量无量纲化。
量纲一致性检查：构建类型一致的文法（Typed Grammar），确保每个产生式规则在物理量纲（M, L, T, $\Theta$ , I）和奇偶性（Parity）上是守恒的。
效果：在搜索早期即可剪除约 71.3% 的候选表达式树，大幅缩小搜索空间。

阶段三：对称性约束文法构建

除了量纲，还引入群论对称性约束作为硬生产规则：
- 奇偶性约束：根据数据检测恢复力等奇/偶动力学特性，禁止生成不匹配的项。
- 旋转不变性：限制 SO(3) 或 SO(2) 系统仅依赖不变量（如 $\|x\|^2$ ），而非单个笛卡尔分量。
- 时间平移不变性：自治系统排除显式时间 $t$ 依赖。
- 伽利略/洛伦兹不变性：处理相对运动系统。
这些约束通过文法类型传播，将搜索空间从 $O(e^{|O|\ell})$ 降低到 $O(e^{|O_c|\ell})$ 。

阶段四：语言引导的程序合成

数据描述符：计算频谱特征、对称性得分、守恒量候选和相关性结构，生成紧凑的结构化文本前缀。
LLM 提案生成：使用微调的 7B 参数解码器 Transformer，基于数据描述符自回归地生成符合文法类型的 S-表达式（符号表达式树）。
优势：LLM 利用先验知识高效导航受限搜索空间，比均匀采样快 3.7 倍，且生成的候选项物理合理性更高。

阶段五：常数拟合与物理正则化

常数拟合：对候选结构进行 $\ell_2$ 正则化的最小二乘拟合。
物理惩罚：如果检测到守恒量候选，添加软物理惩罚项，鼓励参数化满足守恒律，但不硬编码结构。
模型选择与不确定性量化：
- MDL (最小描述长度)：结合对数似然和结构复杂度（树描述长度）进行评分，平衡拟合度与复杂度。
- Block-Bootstrap 稳定性分析：通过重采样评估结构稳定性。
- 可识别性诊断：计算 Fisher 信息矩阵，识别非可识别参数。
- 输出：返回一组带有置信度权重的方程，并明确标记结构简并性（即数据不足以区分多个等价方程的情况）。

3. 关键贡献

统一的对称性约束框架：首次将量纲分析、群论不变性和奇偶性约束作为硬生产规则嵌入程序合成文法中，而非事后筛选。这消除了平均 71.3% 的无效候选项。
语言模型引导的搜索：利用微调的 7B LLM 作为“提案者”，根据数据特征高效导航受限的符号空间，显著提高了样本效率。
结构不确定性量化：摒弃了“单一最佳方程”的范式，采用 MDL 正则化和 Bootstrap 分析，显式报告结构简并性和参数不确定性，避免科学误导。
处理部分可观测性：提出了“有效动力学”学习和“潜在变量增强”两种策略，并在高遮挡率下仍能保持较高的恢复率。
开源与可复现：提供了完整的开源代码、基准测试集（133 个系统）和实验日志。

4. 实验结果

在涵盖经典力学、电动力学、热力学、种群动力学和非线性振荡器的 133 个动态系统基准测试中，SymLang 表现卓越：

结构恢复率 (Exact Structural Recovery)：
- 在 10% 噪声下，SymLang 达到 83.7% 的精确恢复率。
- 比次优基线 (PySR) 高出 22.4 个百分点，比 SINDy 高出 48.8 个百分点。
- 在 50% 状态遮挡下，恢复率为 61.2% (PySR 为 38.4%)。
外推能力 (Extrapolation)：
- 分布外 (OOD) 预测误差 (NRMSE) 比 PySR 降低 61%，比 SINDy 降低 81%。
- 物理漂移 (Physical Drift)：守恒律违反程度从基线的 $187.3 \times 10^{-3} $降低至 **$ 3.1 \times 10^{-3}$**，几乎消除了物理不一致性。
样本效率：
- 达到 80% 恢复率仅需约 4,800 个时间步，而 PySR 需要约 19,000 个（4 倍样本效率提升）。
不确定性识别：
- 在 50% 遮挡下，SymLang 能正确识别 91.3% 的不可识别系统并标记为“模糊”，而所有基线方法均返回单一的（错误的）置信方程。

5. 科学意义与结论

物理一致性优先：SymLang 证明了将物理约束（对称性、量纲）作为搜索的先验硬约束，比在搜索后筛选或让模型从数据中“学习”约束要高效和准确得多。
认识论的诚实性：通过显式报告结构简并性，SymLang 避免了将有限数据的巧合误认为基本定律，为科学家提供了关于“还需要什么数据”的可操作建议。
从数据到定律的闭环：该框架不仅是一个回归工具，更是一个科学发现引擎，能够处理噪声、缺失变量和模型不确定性，为从原始数据到可解释、可审计的物理定律提供了一条原则性路径。

局限性：
目前对称性规范仍需用户输入（尽管部分可自动检测）；LLM 的训练分布可能限制其对全新物理形式的探索；高维状态空间（ $d \gtrsim 20$ ）仍面临组合爆炸挑战。

总结：SymLang 代表了符号回归领域的重大进步，通过结合形式化物理约束、生成式 AI 和贝叶斯不确定性量化，解决了从嘈杂、不完整的实验数据中可靠发现物理定律的关键难题。

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations