Symbolic Discovery of Stochastic Differential Equations with Genetic Programming

该论文提出了一种基于遗传编程的随机微分方程符号发现方法,通过联合优化漂移和扩散函数,实现了在含噪动态系统中对可解释随机动力学方程的准确恢复与推广。

Sigur de Vries, Sander W. Keemink, Marcel A. J. van Gerven

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一项关于**“让计算机自动发现自然规律”**的有趣研究。简单来说,科学家们发明了一种新方法,教计算机如何从充满噪音和混乱的数据中,找出背后隐藏的数学公式。

为了让你更容易理解,我们可以把这项技术想象成**“侦探破案”“预测天气”**的故事。

1. 背景:世界是混乱的,但规律是存在的

想象一下,你正在观察一个在风中摇摆的秋千(或者股票价格的波动、细菌的生长)。

  • 旧方法(确定性侦探): 以前的科学家认为,只要公式够好,就能完美预测秋千下一秒在哪里。他们试图找出一个完美的公式(比如 F=maF=ma),认为任何偏差都是测量错误。
  • 现实情况: 但现实世界充满了“噪音”(比如一阵突如其来的风、市场的突发消息)。秋千不仅受重力影响,还受随机气流影响。如果只找“确定性”公式,就像试图用一张完美的地图去描述一场随时会变向的台风,结果往往不准。

2. 核心创新:给侦探配个“随机性助手”

这篇论文提出了一种新工具,叫GP-SDE(基于遗传编程的随机微分方程发现)。

  • 以前的做法: 就像侦探只记录“秋千往哪摆”,完全忽略“风往哪吹”。
  • 新方法的做法: 侦探现在同时记录两件事:
    1. 确定性部分(漂移): 秋千本身的物理规律(重力、摩擦力)。
    2. 随机性部分(扩散): 风的随机扰动规律。

比喻:
想象你在教一个机器人学画画。

  • 旧方法只教它画轮廓(确定性),如果画歪了,它认为是手抖了,不记录手抖的规律。
  • 新方法教它画轮廓的同时,还专门教它**“手抖的规律”(随机性)。这样,机器人不仅能画出完美的轮廓,还能模拟出各种“手抖”的效果,甚至能凭空画出**新的、看起来很像真的画作(生成性采样)。

3. 技术原理:像生物进化一样“试错”

这项技术使用了一种叫**“遗传编程”(Genetic Programming)的方法。这就像“自然选择”**:

  1. 繁殖: 计算机生成成千上万个随机的数学公式(就像生物产生后代)。
  2. 生存竞争: 把这些公式拿去和真实数据对比。谁算得准,谁就“活下来”;谁算得烂,就被淘汰。
  3. 杂交与变异: 活下来的好公式,会互相“交换零件”(杂交),或者随机“修改一下”(变异),产生新一代更聪明的公式。
  4. 进化: 经过很多代,计算机最终进化出了最接近真相的那个数学公式。

关键点: 以前的遗传编程只进化“确定性公式”,这次他们进化出了**“确定性 + 随机性”**的双胞胎公式。

4. 为什么这个方法很厉害?(三大优势)

A. 不怕“维度灾难”(处理复杂系统)

  • 比喻: 以前的方法(叫 KM-SR)像是在玩“连连看”。它需要把数据切分成很多小格子(分箱),在每个格子里统计规律。
    • 如果只有 2 个变量(x, y),切分一下很容易。
    • 如果有 20 个变量,格子数量会爆炸式增长(比如从 100 个变成 100 亿个),电脑直接死机,或者算不准。
  • 新方法: 不需要切格子!它直接像侦探一样,通过整体逻辑推理来寻找公式。无论系统多复杂(比如 20 个变量同时变化),它都能跑得动,而且越来越快。

B. 不怕“数据稀疏”(处理数据少的情况)

  • 比喻: 以前如果你只给侦探看秋千每隔 1 小时拍的一张照片,他很难猜出秋千中间的轨迹。
  • 新方法: 它引入了“多步积分”技术。就像侦探不仅看照片,还会在脑海里模拟秋千在两个照片之间是如何运动的。即使数据很少,它也能通过模拟填补空白,猜得更准。

C. 不仅能“解释”,还能“创造”(生成性)

  • 比喻: 以前的模型只能告诉你“过去发生了什么”。
  • 新方法: 因为它学会了“随机性”的规律,它不仅能解释过去,还能生成新的未来
    • 比如,它学会了某种病毒传播的规律(包括随机爆发的部分),它就可以模拟出“如果明天发生这种情况,病毒会怎么扩散”的一百种不同场景。这对于预测和规划非常有价值。

5. 实际应用与局限

  • 应用: 这个方法已经成功在多个经典物理模型(如洛伦兹吸引子、双稳态系统)上找到了正确的公式,甚至能处理更复杂的“偏微分方程”(比如描述热量在二维平面上如何扩散)。
  • 局限:
    • 假设完美: 目前假设所有数据都能看到(没有隐藏变量)。如果有些数据是隐藏的(比如只看到股价,看不到背后的交易员情绪),方法还需要改进。
    • 噪音类型: 目前主要假设噪音是“正态分布”的(像钟形曲线)。如果噪音是那种突然的、巨大的跳跃(像股市崩盘),还需要进一步研究。
    • 唯一性: 有时候,不同的公式组合可能产生看起来一样的结果。就像两个不同的食谱可能做出味道一样的菜,计算机找到了一个“好配方”,但不一定是“唯一真配方”。

总结

这篇论文就像给科学发现领域装上了一副**“透视眼镜”**。

以前,面对充满噪音和混乱的数据,我们只能看到模糊的轮廓,或者因为数据太复杂而束手无策。现在,通过这种新的“进化算法”,计算机不仅能看清确定的规律,还能理解随机的混乱,甚至能根据这些规律创造出新的可能。

这标志着我们在**“自动化科学发现”**的道路上又迈进了一大步,让机器在充满不确定性的世界里,也能像科学家一样思考、推理和创造。