VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

本文提出了 VaSST,一种基于变分推断和软符号树连续松弛的可扩展概率框架,通过将符号回归转化为高效的梯度优化问题,在实现显式物理定律发现的同时提供了原则性的不确定性量化,并在多项基准测试中展现出优于现有方法的性能。

Somjit Roy, Pritam Dey, Bani K. Mallick

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VaSST 的新方法,它的目标是帮助科学家和 AI 从一堆杂乱的数据中,自动“猜”出背后隐藏的数学公式(就像牛顿从苹果落地猜出万有引力定律一样)。

为了让你更容易理解,我们可以把这项技术想象成**“教 AI 玩乐高,但这次是用‘软泥’来捏模型”**。

1. 背景:AI 为什么要找公式?

现在的 AI 很擅长做预测(比如预测明天会不会下雨),但它们通常像个“黑盒子”,只告诉你结果,不告诉你为什么

  • 传统方法:科学家想从数据里找到像 $F=ma$ 这样简洁、能解释物理世界的公式,非常困难。
  • 以前的 AI 方法
    • 像“猴子打字”:以前的算法(如遗传算法)就像让无数只猴子在键盘上乱敲,试图碰巧敲出一句正确的诗。这很慢,而且容易敲出一堆谁也看不懂的乱码。
    • 像“蒙眼走路”:有些基于概率的方法(贝叶斯方法)虽然更聪明,但在巨大的公式迷宫里,它们很容易迷路,或者在一个死胡同里转圈圈,找不到最好的路。

2. VaSST 的核心创意:把“硬积木”变成“软泥”

VaSST 的发明者想出了一个绝妙的点子:“软符号树”(Soft Symbolic Trees)

  • 以前的做法(硬积木)
    想象你在搭乐高。每一个零件(比如加号 +、乘号 ×、变量 x)都是硬邦邦的。你要么选加号,要么选乘号,没有中间状态。AI 必须在成千上万种“硬”的组合里一个个试,这就像在迷宫里硬闯,效率极低。

  • VaSST 的做法(软泥/橡皮泥)
    VaSST 把那些硬邦邦的乐高零件变成了橡皮泥

    • 在这个阶段,AI 不需要决定“这里是加号”还是“这里是减号”。
    • 它可以说:“这里**80%**像加号,**20%**像减号”。
    • 这种“模糊”的状态让 AI 可以使用梯度下降(一种非常高效的数学优化方法,就像顺着山坡滚下去找最低点)来快速调整。它不再是一个个试错,而是像水流一样,顺着最可能的方向快速流动。

3. 工作流程:从“软泥”变回“硬积木”

VaSST 的过程可以分为三步:

  1. 揉泥巴(连续松弛)
    AI 先在一个“软”的世界里工作。它把公式里的每一个符号都变成一种概率分布(比如:这个位置是 sin 函数的可能性是 0.6,是 cos 函数的可能性是 0.4)。因为现在是连续的数值,计算机可以用最强大的数学工具(自动微分)来快速优化,找到最接近真理的“泥巴形状”。

  2. 定型(变回硬积木)
    当“泥巴”被捏出了大致的形状(比如它发现某个位置主要是 sin 函数),VaSST 会做一个“硬化”处理。它根据刚才的概率,把最像的那个符号“拍死”下来,变成一个确定的、硬邦邦的数学公式。

  3. 给个“置信度”(不确定性量化)
    这是 VaSST 最厉害的地方。因为它知道每个符号是“软”的时候的概率,所以它能告诉你:“这个公式有 90% 的把握是对的,但那个符号可能有 10% 的可能是错的。”

    • 比喻:以前的 AI 只会给你一个答案说“这就是真理”。VaSST 会说:“这是目前最好的答案,但我也有点不确定,这是其他几个可能的答案,你可以参考一下。”这对科学研究至关重要,因为科学家需要知道结论有多可靠。

4. 为什么它很牛?(实验结果)

作者在论文里做了很多测试,包括模拟数据和著名的“费曼物理公式”(比如万有引力、热传导定律)。

  • 更准:在噪声很大(数据很脏)的情况下,VaSST 依然能猜出正确的公式,而以前的方法要么猜错,要么猜出一堆复杂的乱码。
  • 更快:因为它用了高效的“梯度下降”而不是“猴子乱撞”,它的计算速度比传统的贝叶斯方法快得多。
  • 更简洁:它遵循“奥卡姆剃刀”原则(如无必要,勿增实体),倾向于找出最简单、最优雅的公式,而不是那种为了拟合数据而堆砌出来的复杂怪物。

总结

VaSST 就像是一个拥有“直觉”的科学家助手。

它不再笨拙地一个个试公式,而是先模糊地感知公式的“形状”,快速找到方向,然后再把模糊的感知变成精确的数学定律。更重要的是,它非常诚实,会告诉你它有多少把握,让科学家在发现新定律时心里更有底。

这项技术让**“科学发现”**变得更加自动化、高效,并且充满了数学上的严谨性。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →