原作者： Fengyu Xie, Ruoyu Wang, Taoyuze Lv, Yuxiang Gao, Hongyu Wu, Zhicheng Zhong

发布于 2026-06-09

📖 1 分钟阅读☕ 轻松阅读

原作者： Fengyu Xie, Ruoyu Wang, Taoyuze Lv, Yuxiang Gao, Hongyu Wu, Zhicheng Zhong

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图为一种特定类型的材料（在这种情况下是锂、磷、硫的混合物）构建一个终极晶体结构库。

旧方法：静态库
传统上，科学家们构建这些库就像是在建立一个静态档案库。他们使用一套固定的规则来生成数以千计的晶体形状，利用超级计算机计算它们的性质，然后将它们仅仅是“存档”。用于预测性质的计算机模型就像是外部顾问，他们被聘请过来，给出建议，然后离开。库的增长只是通过添加更多文件来实现，但“大脑”（AI 模型）并不会从新文件中学习，文件也不会根据大脑学到的知识而改变。这是一个单行道。

新方法：自我进化的花园
这篇论文提出了一种新的架构原则，称为**“数据-模型共进化”。请不要将其视为一个图书馆，而是一个生机勃勃、自我照料的花园**。

种子（生成器）： 一个 AI “园丁”播种（生成候选晶体结构）。
土壤测试（评估器）： 另一个 AI “测试员”检查土壤（评估这些晶体的稳定性），使用的是一种快速且智能的近似方法。
专家检查（精炼）： 对于最有潜力的植物，一位人类水平的专家（一种极其精确的计算机模拟，即 DFT）会进行深度检查。
生长循环： 这里的魔力在于：专家检查的结果不仅仅是被存档。它们会被反馈给园丁和测试员。
- 园丁学习到： “噢，我不应该种长成那样的种子；它们长不好。下次我会尝试不同的形状。”
- 测试员学习到： “因为见过这些新植物，我现在可以更准确地预测土壤质量了。”

在这个系统中，数据库（花园）和 AI 模型（园丁和测试员）共同进化。它们是同一个生命系统的不可分割的部分。

他们实际做了什么
研究人员在一种复杂的化学混合物——锂、磷、硫（Li-P-S）上测试了这个“生命花园”。这是一个棘手的系统，就像是在贫瘠的土壤中尝试种植一种稀有、异域的植物。

快速成熟： 在这个循环仅经过 两到三轮 之后，AI 模型就变得异常敏锐。它们达到了这样的精度水平：能够预测能量和力的准确度几乎与缓慢且昂贵的专家模拟相当，但速度却快得多。
填补空白： 系统不仅仅是复制它之前见过的内容。它发现了世界上现有的最大数据库（如 Materials Project）中所缺失的新型稳定晶体形状。
- 它发现了一个名为 Li₂PS₃ 的晶体稳定版本，专家知道它在现实中存在，但在数字数据库中从未被发现过。
- 它发明了全新的分子“形状”（例如原子构成的环和链），这些形状在训练数据中从未出现过，但在化学上是合理的。
“饱和”信号： 研究人员注意到，在几轮之后，花园停止产生新型的基础构建模块。它已经探索了该特定化学混合物中原子结合的所有可能方式。这告诉他们：“我们已经覆盖了这片领地，不需要再继续瞎猜了。”

结果：通用查询工具
一旦花园“稳定”下来（模型经过训练且数据保持一致），研究人员就可以直接向数据库提出任何问题。他们不需要为每一个问题都构建一个新工具。他们可以询问：

“这些晶体中哪些是稳定的？”
“哪些能让锂离子快速通过它们（对电池有利）？”
“这些晶体内部的电子是如何分布的？”

该系统使用同一个统一框架回答了所有这些问题。

大局观
论文认为，我们不应该只是建立越来越大的静态数据堆，而应该构建 AI 原生数据库。这些是数据与 AI 模型在闭环中共同增长的系统。这使得科学家能够探索特定的化学系统，掌握它，然后将这种“成熟”状态作为探索相关系统的基础。它将数据库从一个被动的存储单元转变为一个主动的学习型合作伙伴，助力科学发现。

技术摘要：数据–模型协同演化作为 AI 原生材料数据库的架构原则

1. 问题陈述

当前的计算材料数据库（如 Materials Project、OQMD、Alexandria）基于以数据为中心的架构运行。在这些系统中，数据库作为静态存储库，通过预定义的流程（模板填充、元素替换或晶体结构预测）积累结构条目。预测模型在概念上仍独立于数据库状态；数据的增长与模型的更新是脱节的，模型并不能内生地驱动新数据的生成。这种结构性的分离限制了系统特定理解的持续积累，并且与 AI 原生的发现周期不兼容——在这些周期中，生成式模型提出候选对象，代理势函数进行评估，而第一性原理计算则在闭环中同时精炼数据和模型。

2. 方法论

作者提出了一种基于数据–模型协同演化的 AI 原生材料数据库架构。在该框架下，结构条目与集成的预测模型共同构成了数据库的状态。数据库的增长被视为一个由内生的生成–评估–精炼循环驱动的状态转换过程。

核心组件：

化学系统节点： 该框架将受限的化学系统（由目标元素组合和功能目标定义）形式化为数据库增长的基本“节点”。Li–P–S 三元系统作为演示原型。
生成骨干： 研究利用 MatterGen（一种深度生成模型）在目标化学领域内提出候选晶体结构。生成过程受特定的能量高于凸包值（ $E_{hull}$ ）目标（0.00、0.03 和 0.06 eV/atom）的约束。
代理评估： 使用**机器学习力场（MLFF）**进行快速且接近 DFT 精度的能量评估与筛选。研究基准测试了三种架构：DPA-3、MACE 和 MatterSim。
精炼循环：
1. 候选生成： 生成模型提出结构。
2. 筛选： MLFF 评估稳定性（ $E_{hull}$ ）。
3. 选择： 满足 稳定–唯一–新颖（S.U.N.） 标准的结构被选中。
4. 第一性原理精炼： 一部分选定的结构接受密度泛函理论（DFT）计算（使用带有 PBE 泛函的 VASP）。
5. 模型更新： 利用来自地面真值（ground-truth）DFT 的 $E_{hull}$ 值对生成模型进行微调。同时，根据最大信息熵增益准则对 MLFF 进行微调，以在最小化 DFT 计算成本的同时实现多样性的最大化。

操作指标：

局部饱和度： 通过局部原子特征的信息熵监测局部化学环境的多样性。当熵增长趋于饱和时，标志着收敛。
模型收敛性： 通过测试集上的能量和力均方根误差（RMSE）来追踪 MLFF 的准确性。

3. 主要贡献

架构形式化： 本文将数据–模型协同演化形式化为 AI 原生数据库的基础原则，实现了从静态数据存储库向状态化系统的范式转移，其中模型是数据库状态不可或缺的组成部分。
闭环实现： 实现了一个实用的闭环工作流，能够在特定的化学系统（Li–P–S）内自主生成、评估并精炼数据和模型，而不依赖于预定义的基元库（motif libraries）。
发现新颖基元： 该框架自主重新发现了稳定的 Li $_2$ PS $_3$ 相以及多样化的 P–S 阴离子基元（例如 (PS $_3$ ) $_3^-$ 三聚体、(P $_3$ S $_8$ ) $^{3-}$ 环状结构、聚合型 (PS $_4$ ) $_n^{n-}$ 链），这些基元在训练数据库（Materials Project 和 Alexandria）中并不存在，但与历史实验观察结果一致。
统一属性查询： 稳定的“数据–模型状态”允许在单一框架内直接查询原子结构和电子结构属性（相稳定性、离子传输、电荷密度、能带结构），消除了对单独的任务特定流水线的需求。

4. 关键结果

规模与效率： 在七次迭代中，该框架生成了约 70,000 个候选结构，其中超过 10,000 个 符合 S.U.N. 标准。
快速饱和： 局部化学环境的多样性在 两到三次迭代 内即达到饱和，这通过信息熵的收敛以及局部结构指纹的 t-SNE 分布重叠得到了证实。
模型性能：
- DPA-3 模型表现最佳。
- 在 $N_{train} = 4050$ （约 4,000 个 DFT 帧）时，经过微调的 DPA-3 实现了 6.8 meV/atom 的能量 RMSE 和 85.1 meV/Å 的力 RMSE。
- $E_{hull}$ 预测的 RMSE 从 46.9 改善至 26.5 meV/atom。
- 在可控的第一性原理计算预算下实现了高保真模型，并显示出在早期迭代后收益递减。
属性预测：
- 热力学： 收敛的节点支持 P–T 相稳定性图，揭示了 Li $_2$ PS $_3$ 和 Li $_3$ PS $_4$ 在有限压力（高达 2 GPa）和温度（300–600 K）下保持稳定。
- 离子电导率： 高通量分子动力学识别出了 29 个 Materials Project 中不存在的锂离子导体候选对象，其电导率阈值 $\ge$ 400 mS/cm。
- 电子结构： 集成的 EAC-Net 模型预测了电荷密度和能带结构。在仅经过 34 帧微调后，电荷密度的归一化平均绝对误差（NMAE）达到了 $\sim$ 4.8 $\times$ 10 $^{-3}$ ，能够准确重现 DFT 能带色散。

5. 重要性与主张

本文主张，数据–模型协同演化可作为 AI 时代材料数据基础设施的实践架构原则。通过将数据库视为数据与模型共同演化的状态化系统，该框架实现了：

内生增长： 数据库的扩张由内部反馈循环而非外部规则驱动。
可扩展的知识积累： 化学系统被形式化为“节点”，这些节点可以被复用、扩展、分支或迁移到相关的化学系统中，从而促进计算材料知识的模块化积累。
自主探索： 系统可以自主填补现有数据库的空白，通过重新发现原本不在训练分布中的化学合理基元，有效地扩展了可触及的化学键合空间。

作者强调，这种方法统一了数据库增长与模型演化，允许在化学系统领域内进行持续且可迁移的知识积累。作者同时也指出了一些局限性，包括该框架确保了受限系统内部的一致性，但并不保证实验上的可合成性，且目前主要关注近平衡态的晶体构型，而非过渡态或极端环境下的情况。

Data-model Coevolution as the Architectural Principle for AI-Native Materials Databases