Hybrid Machine Learning for Enhanced Prediction of Diffusion Coefficients in Liquids

本文提出了一种结合斯托克斯 - 爱因斯坦方程与机器学习的混合模型(ESE),仅需分子 SMILES 字符串即可实现对无限稀释液体扩散系数的高精度、物理一致预测,其性能优于现有最先进模型 SEGWE,并已通过开源网页工具公开。

Jens Wagner, Zeno Romero, Kerstin Münnemann, Sebastian Schmitt, Thomas Specht, Hans Hasse, Fabian Jirasek

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ESE(增强版斯托克斯 - 爱因斯坦模型) 的新方法,用来预测液体中分子扩散的速度。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成**“给老式导航仪装上了 AI 大脑”**的故事。

1. 背景:为什么我们需要预测“扩散”?

想象一下,你往一杯咖啡里滴了一滴牛奶。牛奶分子会慢慢散开,直到整杯水变均匀,这个过程叫扩散
在化工、制药或环保领域,工程师需要知道分子扩散得有多快(扩散系数),才能设计好反应罐或分离设备。

  • 难题: 做实验测量这个速度非常慢、非常贵,而且很多液体组合(比如某种特殊的药液和某种溶剂)根本没有现成的数据。
  • 现状: 以前大家要么靠猜(经验公式),要么靠查表(但表里没数据)。

2. 旧方法:老式导航仪(斯托克斯 - 爱因斯坦方程)

科学家有一个经典的物理公式,叫斯托克斯 - 爱因斯坦方程(SE 方程)

  • 比喻: 这就像是一个老式导航仪。它基于物理定律(比如分子像小球,液体像蜂蜜),能告诉你大概往哪个方向走。
  • 缺点: 它太“死板”了。它假设所有分子都是完美的圆球,所有液体都一样粘稠。但在现实世界里,分子形状千奇百怪,相互作用也很复杂。所以,老式导航仪经常指错路,误差很大。

后来有人给这个老导航仪加了点“补丁”(比如 SEGWE 模型),稍微修正了一下,但效果还是不够好,特别是在处理极性分子(像水这种有正负电荷的分子)时,经常出错。

3. 新方法:给导航仪装上 AI 大脑(ESE 模型)

这篇论文的作者(来自德国凯泽斯劳滕工业大学)想出了一个绝妙的办法:把“老式导航仪”和"AI 大脑”结合起来。

这就是他们的 ESE 模型

  • 物理骨架(老导航仪): 他们保留了那个经典的物理公式作为基础。这保证了预测结果符合物理规律(比如温度越高,分子跑得越快,AI 不会乱算出温度越高跑得越慢这种荒谬结果)。
  • AI 大脑(神经网络): 他们在物理公式旁边加了一个人工智能(神经网络)
    • 输入: AI 只需要看分子的“身份证”(SMILES 字符串,一种描述分子结构的代码)。
    • 任务: AI 不需要重新发明物理定律,它只需要学习“修正系数”。它观察物理公式算出的结果和真实实验数据之间的差距,然后告诉物理公式:“嘿,这次你算得有点偏,请把这个结果乘以 1.2 倍”或者“除以 0.8 倍”。
  • 输出: 最终结果 = 物理公式的基础值 × AI 的修正系数。

4. 这个新方法有多厉害?

作者用大量的实验数据(1000 多个数据点,涉及 200 多种溶质和 40 多种溶剂)来训练和测试这个模型。

  • 准确率大提升: 相比以前的最佳模型(SEGWE),新模型的预测误差直接减半甚至减少三分之二
  • 举一反三: 以前很多模型只能预测“见过的”分子组合。但 ESE 模型因为理解了分子的结构特征(比如它有没有环、有没有氢键),所以即使面对从未见过的新分子,它也能猜得很准。
  • 物理一致性: 因为它有物理公式打底,所以无论温度怎么变,它给出的结果都是合理的,不会出现“穿越”或“反常识”的数据。

5. 一个生动的比喻

想象你要预测一个人在拥挤的舞池(液体)里跳舞移动的速度(扩散)

  1. 纯物理模型(SE): 就像只根据舞池的拥挤程度(粘度)和人的身高(分子大小)来估算。它假设每个人都是圆滚滚的球,结果往往不准,因为它忽略了人可能会互相拉手、或者有人穿着高跟鞋(极性相互作用)。
  2. 纯数据模型(纯 AI): 就像一个只看过别人跳舞录像的 AI。如果舞池里出现了它没见过的舞伴或新音乐,它可能会瞎猜,甚至算出“人倒着走”这种违反物理常识的结果。
  3. ESE 混合模型: 就像一个懂物理的老教练(SE)带着一个看过无数录像的 AI 助手
    • 老教练说:“根据物理定律,这个人在这个拥挤程度下应该跑 1 米/秒。”
    • AI 助手看着这个人的穿着(分子结构)说:“等等,这个人穿着带刺的衣服(极性分子),在舞池里会卡住,实际速度应该只有 0.6 米/秒。”
    • 最终预测: 0.6 米/秒。既符合物理逻辑,又精准贴合现实。

6. 总结与意义

  • 简单好用: 只需要输入分子的化学式代码(SMILES),不需要复杂的额外数据。
  • 免费公开: 作者把模型和代码都公开了,大家可以通过网页直接试用。
  • 应用广泛: 可以帮助化学工程师更快地设计新药、优化化工流程,或者预测环境污染物的扩散。

一句话总结: 这篇论文成功地把严谨的物理定律聪明的机器学习“联姻”了,创造了一个既懂物理又懂数据的“超级预测员”,让科学家能更准、更快地算出液体里分子跑得多快。