Dataset-aware entropy-maximized active learning for machine-learned interatomic potentials

本文提出了一种数据感知、熵最大化的主动学习框架,该框架将局部熵驱动的分子动力学与全局信息过滤相结合,以高效生成用于机器学习原子间势的高质量训练数据,在多种化学体系中,仅需少量 DFT 标记结构即可实现比随机采样显著更低的能量误差。

原作者: Meiyan Wang, Rishi Rao, Li Zhu

发布于 2026-05-21
📖 1 分钟阅读☕ 轻松阅读

原作者: Meiyan Wang, Rishi Rao, Li Zhu

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在尝试教计算机预测原子在不同材料(如碳、硅或盐)中的行为。为此,你需要向计算机展示成千上万个处于不同位置的原子示例。然而,计算这些原子的真实物理性质(使用一种称为密度泛函理论 DFT 的方法)极其昂贵且缓慢,就像聘请一位世界级的厨师只为做一顿饭。你无法负担为他们支付数百万顿饭的费用。

问题在于,如果你只是让计算机“随机探索”,它会不断访问那些同样无聊、安全的区域。这就像派一名游客去一座城市,却只允许他在酒店周围转圈;他永远看不到城市的其余部分。最终,你支付了成千上万顿饭的费用,但这些饭本质上都是一样的,而计算机仍然不知道如何烹饪辣菜或甜点。

本文提出了一种智能的新方法,用于选择要付费的哪些“餐点”(原子构型)。他们将其称为数据感知熵最大化主动学习。以下是其工作原理,使用简单的类比说明:

1. 两步策略:探索者与图书管理员

作者采用一个两部分系统来构建完美的训练数据集,而无需浪费资金。

  • 探索者(局部熵):想象一位徒步旅行者被告知:“不要只走直线;试着寻找与你刚刚走过的路径看起来不同的路线。”计算机运行模拟,将原子推入奇怪、扭曲的形状,只是为了观察会发生什么。这确保计算机访问了它通常不会去的“奇怪”地方。
  • 图书管理员(全局熵):现在,想象一位图书管理员,他拥有徒步旅行者迄今为止找到的每一本书(原子结构)的庞大目录。在徒步旅行者可以将新书加入收藏之前,图书管理员会检查:“这本新书是否教给我们一些我们尚不知道的东西?”
    • 如果徒步旅行者带回的书只是他们已有书籍的略微不同副本,图书管理员会说:“不用了,我们已经有足够多的这类书了。”
    • 如果徒步旅行者带回的书是关于一个全新主题的,图书管理员会说:“太好了!这很有价值。让我们付钱请厨师做这一顿吧。”

这种组合确保计算机从各种独特的示例中学习,而不是陷入重复数据的循环中。

2. “双模式”技巧

本文还提到了一种巧妙的技巧,用于处理不同类型的材料。

  • 有序材料(如晶体):想象一座完美堆叠的砖塔。系统会观察整座塔,以判断该模式是否新颖。
  • 无序材料(如液体或杂乱的固体):想象一堆沙子。系统会观察单个沙粒,以判断局部排列是否新颖。
    通过在观察“整座塔”和“单个沙粒”之间切换,系统确保它既能理解整齐的晶体,也能理解杂乱、混乱的结构。

3. 结果:更智能,而非更费力

研究人员在三种截然不同的材料上测试了这种方法:

  • :(如钻石和石墨)。
  • :(如计算机芯片)。
  • 盐(NaCl):(离子晶体)。

他们将他们的“智能探索者”方法与“随机行走者”方法(即随机选择原子)进行了比较。

  • 结果:“智能探索者”的效率提高了3 到 10 倍
  • 类比:如果“随机行走者”需要 800 顿昂贵的饭菜才能学会做一道像样的菜,那么“智能探索者”仅用 800 顿饭就学会了做得同样好(甚至更好),但这 800 顿饭全都是不同有用的。事实上,对于碳而言,“随机行走者”遇到了一个“天花板”,即增加更多饭菜毫无帮助,而“智能探索者”则持续进步。

4. 针对碳的“锚点”修正

有一个小插曲。对于碳,“智能探索者”在发现奇怪、扭曲的形状方面如此出色,以至于它忘记了练习“近乎完美”的形状(如平静、稳定的钻石)。当在这些平静形状上进行测试时,计算机表现得有些不稳定。

修正方法:他们意识到,可以将 80% 的预算用于“智能探索者”(以发现奇怪且有用的东西),并保留 20% 作为“安全网”(仅选择几个平静、稳定的形状)。这种“混合池”使他们获得了两者的最佳效果:智能方法的高精度与平静形状的稳定性,而无需支付任何额外的饭菜费用。

总结

本文提出了一种更智能的方法来训练材料科学的人工智能。它不是盲目地将资金投入到随机示例中,而是使用“多样性过滤器”来确保每一次昂贵的计算都能教会计算机一些新东西。这使得科学家能够用更少的计算构建高度准确的模型,从而节省时间和金钱,同时覆盖更广泛的材料行为范围。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →