VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VaSST 的新方法，它的目标是帮助科学家和 AI 从一堆杂乱的数据中，自动“猜”出背后隐藏的数学公式（就像牛顿从苹果落地猜出万有引力定律一样）。

为了让你更容易理解，我们可以把这项技术想象成**“教 AI 玩乐高，但这次是用‘软泥’来捏模型”**。

1. 背景：AI 为什么要找公式？

现在的 AI 很擅长做预测（比如预测明天会不会下雨），但它们通常像个“黑盒子”，只告诉你结果，不告诉你为什么。

传统方法：科学家想从数据里找到像 $F=ma$ 这样简洁、能解释物理世界的公式，非常困难。
以前的 AI 方法：
- 像“猴子打字”：以前的算法（如遗传算法）就像让无数只猴子在键盘上乱敲，试图碰巧敲出一句正确的诗。这很慢，而且容易敲出一堆谁也看不懂的乱码。
- 像“蒙眼走路”：有些基于概率的方法（贝叶斯方法）虽然更聪明，但在巨大的公式迷宫里，它们很容易迷路，或者在一个死胡同里转圈圈，找不到最好的路。

2. VaSST 的核心创意：把“硬积木”变成“软泥”

VaSST 的发明者想出了一个绝妙的点子：“软符号树”（Soft Symbolic Trees）。

以前的做法（硬积木）：
想象你在搭乐高。每一个零件（比如加号 +、乘号 ×、变量 x）都是硬邦邦的。你要么选加号，要么选乘号，没有中间状态。AI 必须在成千上万种“硬”的组合里一个个试，这就像在迷宫里硬闯，效率极低。
VaSST 的做法（软泥/橡皮泥）：
VaSST 把那些硬邦邦的乐高零件变成了橡皮泥。
- 在这个阶段，AI 不需要决定“这里是加号”还是“这里是减号”。
- 它可以说：“这里**80%**像加号，**20%**像减号”。
- 这种“模糊”的状态让 AI 可以使用梯度下降（一种非常高效的数学优化方法，就像顺着山坡滚下去找最低点）来快速调整。它不再是一个个试错，而是像水流一样，顺着最可能的方向快速流动。

3. 工作流程：从“软泥”变回“硬积木”

VaSST 的过程可以分为三步：

揉泥巴（连续松弛）：
AI 先在一个“软”的世界里工作。它把公式里的每一个符号都变成一种概率分布（比如：这个位置是 sin 函数的可能性是 0.6，是 cos 函数的可能性是 0.4）。因为现在是连续的数值，计算机可以用最强大的数学工具（自动微分）来快速优化，找到最接近真理的“泥巴形状”。
定型（变回硬积木）：
当“泥巴”被捏出了大致的形状（比如它发现某个位置主要是 sin 函数），VaSST 会做一个“硬化”处理。它根据刚才的概率，把最像的那个符号“拍死”下来，变成一个确定的、硬邦邦的数学公式。
给个“置信度”（不确定性量化）：
这是 VaSST 最厉害的地方。因为它知道每个符号是“软”的时候的概率，所以它能告诉你：“这个公式有 90% 的把握是对的，但那个符号可能有 10% 的可能是错的。”
- 比喻：以前的 AI 只会给你一个答案说“这就是真理”。VaSST 会说：“这是目前最好的答案，但我也有点不确定，这是其他几个可能的答案，你可以参考一下。”这对科学研究至关重要，因为科学家需要知道结论有多可靠。

4. 为什么它很牛？（实验结果）

作者在论文里做了很多测试，包括模拟数据和著名的“费曼物理公式”（比如万有引力、热传导定律）。

更准：在噪声很大（数据很脏）的情况下，VaSST 依然能猜出正确的公式，而以前的方法要么猜错，要么猜出一堆复杂的乱码。
更快：因为它用了高效的“梯度下降”而不是“猴子乱撞”，它的计算速度比传统的贝叶斯方法快得多。
更简洁：它遵循“奥卡姆剃刀”原则（如无必要，勿增实体），倾向于找出最简单、最优雅的公式，而不是那种为了拟合数据而堆砌出来的复杂怪物。

总结

VaSST 就像是一个拥有“直觉”的科学家助手。

它不再笨拙地一个个试公式，而是先模糊地感知公式的“形状”，快速找到方向，然后再把模糊的感知变成精确的数学定律。更重要的是，它非常诚实，会告诉你它有多少把握，让科学家在发现新定律时心里更有底。

这项技术让**“科学发现”**变得更加自动化、高效，并且充满了数学上的严谨性。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 VaSST (Variational Inference for Symbolic Regression using Soft Symbolic Trees) 的新框架，旨在解决符号回归（Symbolic Regression, SR）中存在的计算效率低、缺乏不确定性量化以及难以处理高噪声数据等问题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

符号回归旨在从数据中恢复显式的、封闭形式的数学表达式，以揭示潜在的物理定律，是科学机器学习（SciML）的核心任务。然而，现有的主流方法存在显著局限性：

启发式搜索主导：传统的遗传编程（GP）等方法计算复杂度高，对初始化敏感，且容易生成过于复杂的公式。
数据依赖与低噪假设：基于神经网络的深度符号回归方法通常假设低噪声环境，且需要大量数据，缺乏对噪声的鲁棒性。
概率框架缺失：现有的贝叶斯方法（如基于 MCMC 的 BMS 或 BSR）在处理符号表达式的高维、多模态组合空间时，往往面临混合效率低、收敛慢的问题，且难以进行有效的不确定性量化。
离散优化难题：符号树结构是离散的，直接应用变分推断（Variational Inference, VI）会导致组合优化问题，失去了 VI 的可扩展性优势。

2. 方法论 (Methodology)

VaSST 的核心创新在于将变分推断与**软符号树（Soft Symbolic Trees）**的连续松弛相结合，将离散的符号搜索转化为高效的梯度优化问题。

2.1 软符号树 (Soft Symbolic Trees)

连续松弛：VaSST 将离散的符号树结构（算子选择、特征分配、节点扩展）替换为连续的概率分布。
- 节点扩展：使用 Binary Concrete 分布对节点是内部节点还是叶节点进行松弛。
- 算子与特征分配：使用 Gumbel-Softmax 分布对算子（如 $+, \sin, \exp$ ）和特征（如 $x_1, x_2$ ）的选择进行松弛。
软评估：通过加权混合所有可能的算子和特征组合，构建“软”符号树。这使得整个模型对参数可微，从而允许使用自动微分（Automatic Differentiation）进行梯度下降优化。
后处理：优化完成后，通过随机采样将软表示映射回硬符号树（Hard Symbolic Trees），以恢复可解释的数学表达式。

2.2 概率模型与变分推断

模型结构：VaSST 将响应变量建模为 $K$ 棵符号树的线性组合（符号集成），并假设噪声服从高斯分布。
先验设定：
- 回归系数和噪声方差使用共轭的正态 - 逆伽马（Normal-Inverse-Gamma）先验。
- 奥卡姆剃刀原则：引入深度依赖的分裂概率先验（Depth-dependent split probability），即随着树深度的增加，节点继续扩展的概率呈指数级下降（ $p_\zeta = \alpha(1+d_\zeta)^{-\delta}$ ）。这有效地惩罚了过于复杂的表达式，鼓励结构简洁。
变分推断：
- 采用均值场（Mean-field）因子分解假设，构建变分后验分布。
- 通过最大化证据下界（ELBO）来优化变分参数。ELBO 包含对数似然项（通过蒙特卡洛采样近似）和 KL 散度项（解析计算）。
- 使用 AdamW 优化器和退火策略（Annealing Schedule）逐渐降低温度参数，使软松弛从平滑混合过渡到接近离散的硬结构。

2.3 不确定性量化

由于 VaSST 基于概率框架，它不仅能给出一个最佳表达式，还能通过后验分布生成多个候选符号树集合。通过采样 $H$ 个硬符号树并计算其均方根误差（RMSE），可以量化模型结构的不确定性，并提供一组按性能排序的候选解。

3. 主要贡献 (Key Contributions)

首个基于变分推断的可扩展符号回归框架：通过软符号树技术，成功将离散的组合搜索转化为连续的梯度优化问题，显著提高了计算效率。
原则性的不确定性量化：不同于大多数黑盒搜索方法，VaSST 提供了对符号结构后验分布的完整推断，能够量化发现的不确定性。
结构简洁性控制：通过深度依赖的先验，自动平衡模型复杂度与拟合能力，避免过拟合，符合科学发现的奥卡姆剃刀原则。
开源实现：提供了完整的 Python 实现，促进了该领域的复现与进一步研究。

4. 实验结果 (Results)

作者在合成数据实验和 Feynman 符号回归数据库（包含 100 多个物理定律）上进行了广泛测试，并与最先进的基线方法（QLattice, gplearn, DEAP, BMS, BSR）进行了对比。

结构恢复能力：
- 在合成数据和费曼方程中，VaSST 在噪声环境（ $\sigma^2 = 0.12, 0.22$ ）下均能准确恢复真实的数学结构。
- 相比之下，BMS 和 BSR 在复杂方程（如傅里叶热传导定律）上经常失败或产生数值错误；gplearn 和 DEAP 倾向于生成过度复杂的表达式；QLattice 在复杂情况下表现不佳。
预测精度：
- VaSST 在测试集上的均方根误差（RMSE）始终处于领先水平，与 BMS 相当或更优，且显著优于其他方法。
- 即使在噪声较大的情况下，VaSST 依然保持了极高的预测稳定性。
计算效率：
- VaSST 的运行时间显著短于基于 MCMC 的贝叶斯方法（BMS 和 BSR）。随着样本量增加，VaSST 展现出更好的可扩展性。
不确定性量化：
- 实验展示了 VaSST 能够生成多个合理的候选表达式，并正确识别出最优结构，证明了其不确定性量化的有效性。

5. 意义与影响 (Significance)

VaSST 填补了符号回归领域在全概率建模与可扩展性之间的空白。

科学发现工具：它为科学家提供了一种强有力的工具，不仅能从数据中发现物理定律，还能评估发现的可信度（不确定性），这对于高噪声或数据稀缺的科学实验至关重要。
方法论突破：通过将离散结构松弛为连续空间，VaSST 展示了变分推断在处理组合结构问题上的巨大潜力，为未来的科学机器学习模型设计提供了新的思路。
鲁棒性：该方法证明了在噪声环境下，基于概率的梯度优化方法比传统的启发式搜索或纯深度学习架构更具鲁棒性和可解释性。

综上所述，VaSST 通过结合软符号树和变分推断，实现了一个高效、可扩展且具备不确定性量化能力的符号回归框架，在结构恢复、预测精度和计算速度上均优于现有最先进方法。

VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

1. 背景：AI 为什么要找公式？

2. VaSST 的核心创意：把“硬积木”变成“软泥”

3. 工作流程：从“软泥”变回“硬积木”

4. 为什么它很牛？（实验结果）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 软符号树 (Soft Symbolic Trees)

2.2 概率模型与变分推断

2.3 不确定性量化

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields