Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Open Molecules 2025 (OMol25) 的超级大项目。为了让你轻松理解，我们可以把这项研究想象成为人工智能（AI）厨师建造了一座前所未有的“分子美食图书馆”和“训练场”。

以下是用通俗易懂的语言和比喻对这篇论文的解读：

1. 核心问题：AI 厨师为什么“饿”了？

在化学和制药领域，科学家需要设计新的药物、电池材料或催化剂。过去，他们主要靠两种方法：

做实验：在实验室里混合化学试剂。这很准确，但太慢、太贵，而且一次只能试一种。
用超级计算机模拟（DFT）：用数学公式计算原子怎么互动。这比做实验快，但计算量巨大，就像用算盘去算超级计算机的活儿，稍微复杂点的分子就算不动了。

最近，大家想用 AI（机器学习） 来代替超级计算机，让它像“超级厨师”一样，瞬间算出分子的性质。但是，AI 厨师要想做得好，必须吃够“数据”（训练材料）。以前的“食谱”（数据集）要么太小（只教了做简单的家常菜），要么太偏（只教了做某种特定的菜），导致 AI 遇到稍微复杂点的分子（比如含金属的、带电的、在水里泡着的）就“翻车”了。

2. 解决方案：OMol25 —— 一座“分子宇宙”图书馆

Meta FAIR 团队（论文作者）决定解决这个问题，他们建造了 OMol25。

规模惊人：这不仅仅是一个数据集，它包含了 1.4 亿次 高精度的量子化学计算。这相当于人类算了几十亿个 CPU 核心小时。
无所不包：以前的数据集可能只教 AI 认识碳、氢、氧（像只教做沙拉）。OMol25 则涵盖了 83 种元素（几乎整个元素周期表），包括：
- 生物大分子：像蛋白质、DNA 这种复杂的“生命机器”。
- 金属配合物：像电池里的催化剂，结构千变万化。
- 电解质：像电池里的液体，带电且在水或油里乱跑。
- 反应过程：分子如何“变身”成另一种分子。
高质量：所有的数据都是用目前最精准、最昂贵的数学公式（DFT 理论）算出来的，相当于给 AI 厨师提供了“米其林三星”级别的教材，而不是快餐。

比喻：如果把以前的数据集比作一本只有 100 页的《家常菜食谱》，那么 OMol25 就是一本 1400 万页的《全球美食百科全书》，里面不仅有家常菜，还有深海珍馐、太空料理，甚至包括了食材在极端压力下的变化。

3. 怎么造出来的？（采样策略）

为了收集这么多数据，作者们用了各种“魔法”：

从现实世界“挖”宝：从蛋白质数据库里提取药物和蛋白结合的部位。
随机生成：像搭积木一样，随机组合金属和配体，创造出从未存在过的分子结构。
模拟动态：让分子在虚拟的“水”里游动，或者在电池里带电穿梭，捕捉它们动态的样子，而不仅仅是静止的照片。
重新计算旧数据：把以前大家用过的旧数据集，用更高级的公式重新算了一遍，确保标准统一。

4. 训练与测试：AI 厨师的“大考”

有了数据，作者们还训练了几个基础的 AI 模型（Baseline Models），并设计了一套严格的考试来测试它们：

考什么？
- 结合力：药物能不能紧紧抓住病毒蛋白？（就像钥匙能不能完美插入锁孔）。
- 构象：分子能不能找到最舒服的姿势？（就像人睡觉怎么躺最舒服）。
- 带电与自旋：分子带电了会怎样？电子怎么转？（这就像测试厨师能不能处理带电的食材）。
- 距离缩放：把分子拉开或推近，能量怎么变？（测试 AI 是否理解分子间的“引力”和“斥力”）。
结果如何？
- 目前的 AI 模型在简单任务上已经非常接近“化学精度”（误差极小，可以直接用于科研）。
- 但在带电系统、金属反应、长距离相互作用等难题上，AI 还有提升空间。这就像 AI 厨师做沙拉很完美，但做复杂的分子料理（如含金属的催化剂）时，偶尔还会把盐放多。

5. 这意味着什么？（未来展望）

OMol25 的发布不仅仅是一个数据集，它更像是一个公共基础设施：

加速发现：以前需要几年才能筛选出的新药或电池材料，现在 AI 可能几天甚至几小时就能筛选出来。
降低门槛：以前只有拥有超级计算机的大实验室才能做的高精度模拟，现在普通研究者用 AI 模型就能做。
社区共建：作者公开了所有数据、代码和排行榜，邀请全世界的科学家来挑战，看看谁能做出更聪明的“分子厨师”。

总结

OMol25 就像是给化学界的 AI 装上了“超级大脑”和“超级眼睛”。 它通过提供海量、多样且高精度的分子数据，让 AI 能够以前所未有的速度和准确度去探索化学世界。虽然现在的 AI 还不是完美的，但它已经站在了一个全新的起点上，未来可能会彻底改变我们设计药物、开发新能源和制造新材料的方式。

一句话概括：Meta 团队造了一座包含 1.4 亿个分子“高清照片”的超级图书馆，让 AI 能像老练的化学家一样，快速、准确地预测和设计新的分子，从而加速人类在医疗和能源领域的创新。

Each language version is independently generated for its own context, not a direct translation.

Open Molecules 2025 (OMol25) 数据集、评估与模型技术总结

1. 研究背景与问题 (Problem)

机器学习（ML）模型在原子模拟领域展现出巨大潜力，有望以极低的计算成本实现量子化学级别的精度，从而推动高通量分子筛选和大规模模拟。然而，构建高性能通用分子 ML 模型面临的核心挑战是缺乏全面、高质量且多样化的训练数据。

现有的分子数据集存在以下局限性：

规模与多样性不足：早期数据集（如 QM9, MD-17）规模较小（<100 万），且主要局限于少数元素（C, H, O, N, F）和有机小分子。
化学空间覆盖有限：较新的数据集（100 万 -1000 万级）虽然扩展了化学多样性，但大多仍局限于电中性的孤立有机分子，原子数通常少于 50 个。
缺乏关键物理状态：现有数据缺乏对电荷态（Charge）、自旋态（Spin）、溶剂化效应、反应活性结构以及大尺寸系统（>50 原子）的充分覆盖。
评估标准单一：传统的评估指标（如随机划分的能量/力误差 MAE）无法充分反映模型在实际化学应用（如结合能预测、反应路径、长程相互作用）中的有效性。

2. 方法论 (Methodology)

为了解决上述问题，Meta FAIR 团队推出了 Open Molecules 2025 (OMol25) 数据集，并配套了基准模型和全面的评估任务。

2.1 数据集构建 (Dataset Construction)

OMol25 是一个包含超过 1.4 亿个密度泛函理论 (DFT) 单点计算的大规模数据集，总计算量达 66 亿 CPU 核心小时。

理论级别：采用高精度的 $\omega$ B97M-V/def2-TZVPD 泛函和基组，这是目前公认对广泛量子化学任务最准确的泛函之一（仅次于计算成本极高的双杂化泛函）。
覆盖范围：
- 元素：涵盖前 83 种元素。
- 系统规模：原子数从 2 到 350 个不等（平均约 50 个）。
- 物理状态：电荷范围 -10 到 +10，自旋多重度 1 到 11。
四大核心领域：
1. 生物分子 (Biomolecules)：包括蛋白质 - 配体、蛋白质 - 蛋白质、核酸 - 核酸及蛋白质 - 核酸相互作用。利用 BioLiP2 数据库提取口袋环境，结合分子动力学 (MD) 采样。
2. 金属配合物 (Metal Complexes)：涵盖过渡金属、主族金属及镧系元素。利用 Architector 工具生成大量不同配体、氧化态和配位数的配合物，并包含反应路径采样。
3. 电解质 (Electrolytes)：涵盖水溶液、非水溶液、离子液体和熔融盐。通过经典 MD 和 Ring Polymer MD (RPMD，包含核量子效应) 采样溶剂化壳层结构，并包含界面结构。
4. 主族分子 (Main-group Molecules)：包含重主族元素化合物、团簇、反应轨迹及特殊质子化/电离状态。
5. 社区数据集重算 (Community)：对 ANI-2X, SPICE2, GEOM 等现有知名数据集进行了统一的高精度重算，以消除理论级别不一致的问题。

2.2 数据生成策略

多样化采样：结合了基于实验结构（PDB, COD）的提取、基于规则的组合生成（Architector）、经典 MD 轨迹采样、ML 驱动的 MD 采样（使用 EquiformerV2 和 MACE 模型生成新构型）以及反应路径生成（AFIR 和 Popcornn 方法）。
质量控制：实施了严格的过滤标准，包括能量/力阈值检查、自旋污染检查 ( $S^2$ )、SCF 收敛性检查以及 HOMO-LUMO 间隙检查，确保数据质量。

2.3 基准模型与训练 (Baseline Models)

模型架构：训练了多种消息传递图神经网络（MP-GNN），包括 eSEN（等变模型）、GemNet-OC（不变模型）和 UMA（混合专家模型）。
电荷与自旋感知：针对 OMol25 中广泛存在的不同电荷和自旋态，对模型架构进行了修改，引入了基于总电荷和自旋的嵌入（Embedding）作为节点特征的输入，使模型能够区分同一几何结构下的不同电子态。
训练策略：采用了多阶段训练（预训练 + 微调）和混合精度（BF16/FP32）技术以提高大规模训练的稳定性。

2.4 评估任务 (Evaluation Tasks)

除了传统的能量和力误差外，论文提出了一系列基于物理和实际应用的评估任务：

蛋白 - 配体相互作用：预测结合口袋与配体的相互作用能和力。
配体应变能 (Ligand Strain)：评估模型预测生物活性构象与全局最小能量构象之间能量差的能力。
构象排序 (Conformers)：在大量局部极小值中识别全局最小能量构象。
质子化能 (Protonation Energies)：预测不同质子化状态下的能量差。
未优化电离能/电子亲和能 (Unoptimized IE/EA) 和 自旋隙 (Spin Gap)：评估模型在不同电荷/自旋态下的能量和力预测能力。
距离缩放 (Distance Scaling)：测试模型在短程和长程（截断半径外）相互作用下的能量和力缩放行为，考察长程力捕捉能力。

3. 关键贡献 (Key Contributions)

首个超大规模、多领域、高精度的分子数据集：OMol25 是目前最大的 DFT 分子数据集之一，首次将生物化学、电化学、有机和无机化学统一在一个高精度理论框架下，覆盖了从 2 到 350 个原子的系统。
填补了关键化学空间的空白：特别加强了对金属配合物、带电系统、溶剂化环境、反应活性中间体以及重主族元素的覆盖，解决了以往数据集“重有机、轻无机/金属”和“重中性、轻带电”的偏差。
统一的理论基准：通过重算现有社区数据集，消除了不同研究间因 DFT 泛函/基组不同导致的性能比较偏差，建立了统一的评估基准。
全面的评估体系：提出了超越简单 MAE 的评估指标，重点关注模型在物理一致性（如能量守恒、长程相互作用）和实际应用场景（如药物设计、电池材料）中的表现。
开源生态：公开了数据集（CC BY 4.0 许可）、预训练模型权重（商业友好许可）以及代码，并建立了公共排行榜以激励社区发展。

4. 实验结果 (Results)

基准模型性能：
- 在 OMol25 测试集上，UMA-M-1.1 模型表现最佳，平均能量误差为 1.38 kcal/mol，力误差为 0.13 kcal/mol/Å。
- 在“化学精度”（~1 kcal/mol）范围内，模型在生物分子和小分子有机领域表现优异，但在金属配合物、电解质和反应性任务上仍有提升空间。
- 电荷/自旋感知：引入电荷和自旋嵌入显著提升了模型在带电和开壳层系统上的表现。
评估任务表现：
- 构象排序：表现良好，误差小于 0.1 kcal/mol，达到化学精度。
- 配体应变能：误差在 0.07 - 0.19 kcal/mol 之间，表现优异。
- 挑战领域：
  - 电离能/电子亲和能 (IE/EA) 和 自旋隙 (Spin Gap)：误差较大（3-9 kcal/mol），表明模型在处理电子态变化（特别是金属配合物）时仍面临困难。
  - 长程相互作用：在距离缩放任务中，当分子间距超过截断半径（长程区）时，能量和力误差显著增加，表明当前模型缺乏有效的长程物理修正。
Wiggle150 基准：在高度应变的构象基准测试中，OMol25 训练的模型（如 eSEN, GemNet-OC）达到了 ~1 kcal/mol 的误差，与 $\omega$ B97M-V 泛函本身的精度相当，优于许多其他 ML 势函数。

5. 意义与展望 (Significance)

推动 ML 势函数 (MLIPs) 的通用化：OMol25 为训练能够跨越无机、有机、生物和电化学领域的通用基础模型提供了必要的“燃料”，使得 MLIPs 从特定领域工具向通用化学模拟器转变成为可能。
加速材料发现：该数据集将极大地加速药物发现（蛋白 - 配体结合）、电池材料设计（电解质稳定性）、催化剂开发（金属配合物）等领域的虚拟筛选和机理研究。
明确未来方向：评估结果清晰地指出了当前技术的瓶颈，特别是电荷/自旋的局域化描述、长程相互作用的处理以及反应路径的精确预测。这为下一代模型架构（如引入长程修正、更复杂的电子态描述）指明了改进方向。
社区协作：通过公开数据和排行榜，OMol25 旨在建立一个开放的协作生态，加速分子机器学习领域的技术迭代。

总之，OMol25 不仅是一个数据集，更是一个旨在重新定义分子模拟标准的综合性资源，标志着分子机器学习从“小样本、窄领域”向“大规模、全领域”发展的新阶段。

The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models