High-quality, high-information datasets for universal atomistic machine learning

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一项名为 MAD-1.5 的重大科学成果，简单来说，就是科学家们为人工智能（AI）准备了一份超级全面、超级精准的“原子食谱”，用来教 AI 如何预测和模拟物质世界的行为。

为了让你更容易理解，我们可以把这篇论文的内容想象成**建造一座“万能原子厨房”**的过程。

1. 为什么需要这个“新食谱”？（背景与问题）

想象一下，你想教一个机器人厨师（AI 模型）做全世界所有的菜（模拟所有物质）。

以前的困境： 之前的“食谱”（数据集）要么只教做中餐（只针对特定材料），要么教做西餐（只针对分子），而且这些食谱是不同人、在不同时间、用不同标准写的。有的说“盐放一勺”，有的说“盐放一克”，导致机器人学糊涂了，做出来的菜味道不对，甚至在高温或高压下会“炸锅”（模拟失败）。
核心问题： 现有的数据不够“通用”，也不够“一致”。

2. MAD-1.5 是什么？（解决方案）

MAD-1.5 就是科学家们重新编写的一本**“原子界的全能百科全书”**。

覆盖范围极广： 它涵盖了元素周期表上 102 种元素（从氢到铹，几乎包括了所有常见的和半衰期较长的元素）。这就好比这本食谱不仅教做家常菜，还教做稀有食材，甚至包括一些只在实验室里存在的“未来食材”。
统一标准： 以前大家是用不同的“火候”（计算方法）做菜，现在 MAD-1.5 规定所有人必须用同一种最高级的“智能灶台”（r2SCAN 算法）来烹饪。这保证了无论处理什么材料，数据的“味道”（精度）和“口感”（一致性）都是统一的。
内容极其丰富： 它不仅仅包含完美的晶体（像整齐的积木），还包含了：
- 分子和团簇： 像散落的乐高积木。
- 表面和二维材料： 像薄饼或薄膜。
- 极端状态： 甚至包括了原子被强行挤压在一起、或者被拉得很开的“扭曲”状态。这就像不仅教机器人做正常的菜，还教它如何处理“把锅烧红”或“把食材冻成冰”的极端情况。

3. 如何确保“食谱”没写错？（数据清洗）

收集了这么多数据，难免会有写错的地方（比如某个原子计算错了，或者数据不收敛）。

人工筛选 + AI 自查： 科学家先用一套规则（启发式过滤）把明显错误的“坏菜”挑出来。然后，他们训练了一个小型的 AI 助手，专门用来**“尝味道”**（不确定性量化）。
剔除“难吃”的数据： 如果 AI 助手发现某道菜的味道（预测值）和实际味道（真实计算值）差距太大，而且它自己都觉得“这道菜肯定有问题”，那么这道菜就会被扔进垃圾桶。
结果： 最终留下的 21 万多个结构，都是经过千挑万选、质量极高的“精品食材”。

4. 用这个食谱教出来的 AI 有多强？（模型与测试）

科学家利用 MAD-1.5 训练了两个 AI 模型，分别叫 PET-MAD-1.5-XS（轻量级）和 PET-MAD-1.5-S（加强版）。

表现惊人： 这些模型在测试中表现极佳，预测原子间作用力的误差非常小（比以前的模型提高了很多）。
终极挑战测试——“门捷列夫集群”：
- 为了测试 AI 是否真的“万能”，科学家搞了一个疯狂的实验：他们把周期表上所有 102 种元素各取一个原子，扔进一个盒子里，让它们随机混合，然后加热到 3000 度（比太阳表面还热！）。
- 结果： 这个 AI 模型不仅没有“崩溃”，还成功模拟出了这些原子在高温下如何运动、如何分离（比如惰性气体跑出来了，盐类形成了二聚体）。这就像让一个机器人厨师在火山口同时处理 102 种不同的食材，最后还能端出一盘结构合理的菜。

5. 总结：这对我们意味着什么？

对科学家： 这是一个巨大的工具库。以前模拟新材料可能需要几天甚至几周，现在用这个 AI 模型，可能只需要几分钟，而且结果非常可信。
对普通人： 这意味着未来我们可以更快地发现新药、更高效的电池材料、更坚固的合金，甚至设计出全新的物质。因为 AI 现在拥有了一个“全知全能”的原子世界地图，它能帮人类在虚拟世界里快速试错，从而加速现实世界的创新。

一句话总结：
MAD-1.5 就像是为原子模拟世界建立了一个**“统一标准、包罗万象且经过严格质检的超级数据库”**，让 AI 从此能像老练的厨师一样，从容应对从日常材料到极端环境下的任何物质模拟挑战。

High-quality, high-information datasets for universal atomistic machine learning

1. 为什么需要这个“新食谱”？（背景与问题）

2. MAD-1.5 是什么？（解决方案）

3. 如何确保“食谱”没写错？（数据清洗）

4. 用这个食谱教出来的 AI 有多强？（模型与测试）

5. 总结：这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 数据集构建 (MAD-1.5)

B. 模型训练 (PET-MAD-1.5)

3. 关键结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与影响 (Significance)

High-quality, high-information datasets for universal atomistic machine learning

1. 为什么需要这个“新食谱”？（背景与问题）

2. MAD-1.5 是什么？（解决方案）

3. 如何确保“食谱”没写错？（数据清洗）

4. 用这个食谱教出来的 AI 有多强？（模型与测试）

5. 总结：这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 数据集构建 (MAD-1.5)

B. 模型训练 (PET-MAD-1.5)

3. 关键结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与影响 (Significance)

类似论文

Source Shot Noise Mitigation in Focused Ion Beam Microscopy by Time-Resolved Measurement

Dynamics of ballistic photocurrents driven by Coulomb scattering

Extremely high excitonic ggg-factors in 2D crystals by alloy-induced admixing of band states

Quantum geometry in low-energy linear and nonlinear optical responses of magnetic Rashba semiconductor (Ge,Mn)Te

Magneto-Excitonic Duality From Monolayer to Trilayer CrSBr

Extremely high excitonic $g$ -factors in 2D crystals by alloy-induced admixing of band states