The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

Meta FAIR 推出了名为 Open Molecules 2025 (OMol25) 的大规模数据集,该数据集包含超过 1 亿个基于高精度 DFT 计算的分子结构,涵盖了 83 种元素及多种化学场景,旨在解决分子机器学习训练数据匮乏的难题,并配套提供了基准模型与评估体系以推动下一代分子化学模型的发展。

Daniel S. Levine, Muhammed Shuaibi, Evan Walter Clark Spotte-Smith, Michael G. Taylor, Muhammad R. Hasyim, Kyle Michel, Ilyes Batatia, Gábor Csányi, Misko Dzamba, Peter Eastman, Nathan C. Frey, Xiang Fu, Vahe Gharakhanyan, Aditi S. Krishnapriyan, Joshua A. Rackers, Sanjeev Raja, Ammar Rizvi, Andrew S. Rosen, Zachary Ulissi, Santiago Vargas, C. Lawrence Zitnick, Samuel M. Blau, Brandon M. Wood

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Open Molecules 2025 (OMol25) 的超级大项目。为了让你轻松理解,我们可以把这项研究想象成为人工智能(AI)厨师建造了一座前所未有的“分子美食图书馆”和“训练场”

以下是用通俗易懂的语言和比喻对这篇论文的解读:

1. 核心问题:AI 厨师为什么“饿”了?

在化学和制药领域,科学家需要设计新的药物、电池材料或催化剂。过去,他们主要靠两种方法:

  • 做实验:在实验室里混合化学试剂。这很准确,但太慢、太贵,而且一次只能试一种。
  • 用超级计算机模拟(DFT):用数学公式计算原子怎么互动。这比做实验快,但计算量巨大,就像用算盘去算超级计算机的活儿,稍微复杂点的分子就算不动了。

最近,大家想用 AI(机器学习) 来代替超级计算机,让它像“超级厨师”一样,瞬间算出分子的性质。但是,AI 厨师要想做得好,必须吃够“数据”(训练材料)。以前的“食谱”(数据集)要么太小(只教了做简单的家常菜),要么太偏(只教了做某种特定的菜),导致 AI 遇到稍微复杂点的分子(比如含金属的、带电的、在水里泡着的)就“翻车”了。

2. 解决方案:OMol25 —— 一座“分子宇宙”图书馆

Meta FAIR 团队(论文作者)决定解决这个问题,他们建造了 OMol25

  • 规模惊人:这不仅仅是一个数据集,它包含了 1.4 亿次 高精度的量子化学计算。这相当于人类算了几十亿个 CPU 核心小时。
  • 无所不包:以前的数据集可能只教 AI 认识碳、氢、氧(像只教做沙拉)。OMol25 则涵盖了 83 种元素(几乎整个元素周期表),包括:
    • 生物大分子:像蛋白质、DNA 这种复杂的“生命机器”。
    • 金属配合物:像电池里的催化剂,结构千变万化。
    • 电解质:像电池里的液体,带电且在水或油里乱跑。
    • 反应过程:分子如何“变身”成另一种分子。
  • 高质量:所有的数据都是用目前最精准、最昂贵的数学公式(DFT 理论)算出来的,相当于给 AI 厨师提供了“米其林三星”级别的教材,而不是快餐。

比喻:如果把以前的数据集比作一本只有 100 页的《家常菜食谱》,那么 OMol25 就是一本 1400 万页的《全球美食百科全书》,里面不仅有家常菜,还有深海珍馐、太空料理,甚至包括了食材在极端压力下的变化。

3. 怎么造出来的?(采样策略)

为了收集这么多数据,作者们用了各种“魔法”:

  • 从现实世界“挖”宝:从蛋白质数据库里提取药物和蛋白结合的部位。
  • 随机生成:像搭积木一样,随机组合金属和配体,创造出从未存在过的分子结构。
  • 模拟动态:让分子在虚拟的“水”里游动,或者在电池里带电穿梭,捕捉它们动态的样子,而不仅仅是静止的照片。
  • 重新计算旧数据:把以前大家用过的旧数据集,用更高级的公式重新算了一遍,确保标准统一。

4. 训练与测试:AI 厨师的“大考”

有了数据,作者们还训练了几个基础的 AI 模型(Baseline Models),并设计了一套严格的考试来测试它们:

  • 考什么?
    • 结合力:药物能不能紧紧抓住病毒蛋白?(就像钥匙能不能完美插入锁孔)。
    • 构象:分子能不能找到最舒服的姿势?(就像人睡觉怎么躺最舒服)。
    • 带电与自旋:分子带电了会怎样?电子怎么转?(这就像测试厨师能不能处理带电的食材)。
    • 距离缩放:把分子拉开或推近,能量怎么变?(测试 AI 是否理解分子间的“引力”和“斥力”)。
  • 结果如何?
    • 目前的 AI 模型在简单任务上已经非常接近“化学精度”(误差极小,可以直接用于科研)。
    • 但在带电系统、金属反应、长距离相互作用等难题上,AI 还有提升空间。这就像 AI 厨师做沙拉很完美,但做复杂的分子料理(如含金属的催化剂)时,偶尔还会把盐放多。

5. 这意味着什么?(未来展望)

OMol25 的发布不仅仅是一个数据集,它更像是一个公共基础设施

  • 加速发现:以前需要几年才能筛选出的新药或电池材料,现在 AI 可能几天甚至几小时就能筛选出来。
  • 降低门槛:以前只有拥有超级计算机的大实验室才能做的高精度模拟,现在普通研究者用 AI 模型就能做。
  • 社区共建:作者公开了所有数据、代码和排行榜,邀请全世界的科学家来挑战,看看谁能做出更聪明的“分子厨师”。

总结

OMol25 就像是给化学界的 AI 装上了“超级大脑”和“超级眼睛”。 它通过提供海量、多样且高精度的分子数据,让 AI 能够以前所未有的速度和准确度去探索化学世界。虽然现在的 AI 还不是完美的,但它已经站在了一个全新的起点上,未来可能会彻底改变我们设计药物、开发新能源和制造新材料的方式。

一句话概括:Meta 团队造了一座包含 1.4 亿个分子“高清照片”的超级图书馆,让 AI 能像老练的化学家一样,快速、准确地预测和设计新的分子,从而加速人类在医疗和能源领域的创新。