🔬 materials science

Acceleration of Atomistic NEGF: Algorithms, Parallelization, and Machine Learning

本文总结了在并行化和机器学习领域取得的关键算法进展，这些进展使得精确的从头算密度泛函理论结合非平衡格林函数（DFT+NEGF）模拟能够从小型原子系统扩展到现实的大规模纳米级器件。

原作者： Mathieu Luisier, Nicolas Vetsch, Alexander Maeder, Vincent Maillou, Anders Winka, Leonard Deuschle, Chen Hao Xia, Manasa Kaniselvan, Marko Mladenovic, Jiang Cao, Alexandros Nikolaos Ziogas

发布于 2026-02-04

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Mathieu Luisier, Nicolas Vetsch, Alexander Maeder, Vincent Maillou, Anders Winka, Leonard Deuschle, Chen Hao Xia, Manasa Kaniselvan, Marko Mladenovic, Jiang Cao, Alexandros Nikolaos Ziogas

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图理解电流是如何流过一根微小的、由硅制成的微观导线中的——这根导线如此之小，仅有几千个原子宽。为了准确地做到这一点，科学家们使用了一种复杂的数学工具，叫做 NEGF（非平衡格林函数）。你可以把 NEGF 想象成一个超级精准的电子“天气预报”：它能预测电子如何移动、如何相互碰撞，以及如何与材料中的振动发生相互作用。

然而，为现实世界规模的器件运行这些“预报”，就像是试图用一台 20 世纪 80 年代的计算器来预测全球的天气一样。这太慢了，而且会导致计算机崩溃。

这篇来自苏黎世联邦理工学院（ETH Zurich）团队的论文描述了他们如何构建了一个“超级计算器”来解决这个问题，他们使用了三个主要技巧：更好的算法、大规模协作（并行化）以及人工智能。

以下是他们工作的详细拆解，使用了简单的类比：

1. 问题所在：“数学交通拥堵”

在过去，科学家只能模拟极小的系统（几个原子）。要模拟一个现实的器件（数千个原子），数学计算会变得异常沉重。

挑战： 这些方程需要求解巨大的谜题，其中每一个碎片都依赖于其他所有碎片。一个接一个地进行计算需要耗费极长时间。
目标： 他们想要模拟一条具有实用价值的硅“纳米带”（一种微小的导线），同时还要考虑到电子之间的相互碰撞（散射），这就像汽车在交通中互相减速一样。

2. 解决方案：“流水线”（并行化）

为了提高速度，该团队不仅仅是建造了一台更快的计算机；他们改变了“工作的方式”。

类比： 想象一个巨大的图书馆，你需要寻找特定的书籍。与其让一名图书管理员一个一个走廊地巡视，不如同时雇佣 9,400 名图书管理员（计算机）来工作。
技巧： 他们开发了一种称为 Serinv 的方法。将这个巨大的数学问题想象成一排长而波浪状的方块。与其试图一次性解决整排方块，不如将其切成较小的块，并把每一块交给不同的计算机。
结果： 他们在 Frontier 超级计算机（世界上最强大的超级计算机之一）上测试了这一点。他们模拟了一条拥有 25,344 个原子的硅导线。通过使用 9,400 个计算节点协同工作，他们实现了 80% 的效率。这意味着几乎所有的计算机都在忙于工作，而不是在原地等待。

3. “时空穿梭”技巧（算法）

数学运算涉及两种不同类型的计算，它们对数据的组织方式要求也不同。

类比： 想象你正在炖一锅肉汤。有时你需要先切好所有的蔬菜（一种组织数据的方式），而其他时候你可能需要长时间搅拌锅里的东西（另一种组织方式）。
修复方案： 该团队创建了一个可以瞬间“转置”或重新排列数据的系统。这就像拥有一个神奇的厨房，无论厨师下一步需要什么，蔬菜都能瞬间从切菜板变成锅里的样子。这使得他们在求解线性方程和进行复杂的能量卷积之间切换时，不会浪费时间。

4. “水晶球”（机器学习）

即使有了超快速的计算机，仍然存在一个瓶颈：使用一种称为 DFT（密度泛函理论）的方法来创建初始的原子图谱（哈密顿矩阵）。

问题： DFT 就像是通过测量每栋建筑里的每一块砖头来绘制城市地图。它极其精确，但对于大型城市（数千个原子）来说，需要耗费大量的时间和能量。
创新： 团队训练了一个 AI（具体来说是一个图神经网络） 来充当“水晶球”。
- 他们向 AI 展示了一些特定类型存储单元（称为价变存储器或 VCM）中原子排列的示例。
- AI 学习了其中的模式。现在，AI 可以瞬间预测新的存储单元配置下的地图，而不再需要测量每一块砖头（运行 DFT）。
代价： 这个 AI 非常快（其规模随大小呈线性增长），且精度足以掌握大致轮廓，但它仍存在微小的误差（约 2 meV）。这就像 AI 可以画出一张完美的城市布局图，但路牌可能会稍微偏离一点。它目前还不足以完全取代人类测量员，但这是向前迈出的一大步。

5. 结果：他们发现了什么？

硅导线： 他们成功模拟了存在电子-电子相互作用的硅导线。他们发现，当电子发生相互作用时，能隙（带隙）会略微变大，正如物理学所预测的那样。
电流守恒： 他们证明了模拟工作的有效性，因为进入导线一端的电流与离开另一端的电流完全相同，即使在存在所有复杂相互作用的情况下也是如此。
AI 测试： 他们使用 AI 来预测电流如何流经一个存储单元。AI 的预测结果与真实的物理情况非常接近，这证明了机器学习可以显著提高这些模拟的速度。

总结

这篇论文的核心在于规模化。该团队将一种此前仅限于微型、玩具级模型的方法，扩展到了现实的、工业级的器件规模。他们通过以下方式实现了这一目标：

分工协作：将工作分配给数千台计算机（并行化）。
重组数据：重新组织数据，使计算机不会陷入停滞（算法）。
教导 AI：让 AI 去猜测数学中最困难的部分，从而节省时间（机器学习）。

他们还没有解决所有问题（AI 并不完美，且某些模拟仍然过于沉重），但他们已经打造出了一个引擎，让科学家终于能够高精度地模拟现实中的量子器件。

技术摘要：原子级 NEGF 的加速研究

问题陈述
晶体管的持续微缩化已使器件维度进入了必须进行从头算量子输运（QT）模拟的范畴。虽然非平衡格林函数（NEGF）形式结合密度泛函理论（DFT）为模拟纳米级器件提供了严谨的框架，但目前的实现面临着显著的瓶颈。从历史上看，这些模拟被限制在小规模系统（少量原子）或弹道输运极限内。由于 DFT 的 $O(N^3)$ 标度律以及传统递归格林函数（RGF）算法的顺序特性，将复杂的散射机制（电子-声子、电子-电子、电子-光子）纳入其中并扩展到现实尺寸的器件（数千个原子）在计算上仍然是难以实现的。此外，为大型动态演化结构（例如在电压扫描期间）生成哈密顿矩阵仍是一个主要挑战。

方法论
作者通过涉及算法优化、高性能并行化以及机器学习集成的多方面方法来解决这些局限性：

算法框架： 核心模拟依赖于求解存在散射自能（ $\Sigma^{R, <, >}$ ）情况下的迟滞（ $G^R$ ）以及较小/较大（ $G^{<, >}$ ）格林函数的 NEGF 方程。该方法区分了两种计算任务：
- 线性方程组 (LSE)： 求解特定能量点处的格林函数，这些点是独立的且适合并行化。
- 能量卷积 (EC)： 计算散射项，这需要对许多能量点进行积分。
  为了优化内存和通信，作者实现了一种数据转置方案。对于 LSE 任务，数据按能量点（ $E, \omega$ ）跨空间索引（ $i, j$ ）存储；而对于 EC 任务（使用快速傅里叶变换），数据被转置以访问特定空间索引下的多个能量点。
并行化 (Serinv)： 为了克服标准 RGF 算法的顺序瓶颈，作者使用了 Serinv 库。这个基于 GPU 的开源软件包在块三对角（BT）矩阵上采用了 Schur 补方法。系统被划分到多个计算单元（CPU/GPU）中，从而允许在重建局部格林函数条目之前并行求解缩减后的方程组。
机器学习集成： 为了绕过生成哈密顿量时昂贵的 $O(N^3)$ DFT 计算，作者探索了等变图神经网络（EGNN）。提出的工作流涉及在来自单个器件配置的 DFT 数据上训练 EGNN。一旦训练完成，该网络即可预测新配置（例如，存储单元中不同的氧空位分布）的哈密顿矩阵条目，其标度为 $O(N)$ ，从而实现对数千个原子的模拟。

核心贡献

QuaTrEx 软件包： 将这些模型和算法实现到一个名为 QuaTrEx 的新型开源软件包中。
可扩展并行求解器： 在 Frontier 超级计算机上展示了弱扩展性，在将规模从 1 个节点扩展到 9,400 个节点（75,200 个 GPU）进行硅纳米带模拟时，实现了 80% 的并行效率。
包含散射效应： 成功模拟了包含自洽电子-电子相互作用（GW 近似）的硅纳米带（25,344 个原子），超越了弹道极限。
机器学习驱动的哈密顿量预测： 开发了一种能够预测具有数千个原子的器件的哈密顿矩阵的 EGNN，该网络通过在单个配置上进行训练以处理变化的物理状态。

结果

硅纳米带模拟： 作者模拟了一个长 52.1 nm、包含 25,344 个原子的硅纳米带。结果证实，通过引入电子-电子相互作用（通过自洽 GW），带隙略有增加，这与理论预期一致。研究还验证了尽管沿输运方向的谱电流分布存在差异，但整个器件内的电流保持守恒。
性能： 并行实现成功处理了全规模的 Frontier 超级计算机，证明了模拟包含载流子-载流子散射的大规模器件的可行性。
机器学习精度： 对于电荷变化存储器（VCM）单元的应用，EGNN 在哈密顿矩阵条目上的平均误差与 DFT 相比约为 2 meV。然而，作者指出，虽然该误差与最先进的分子预测水平相当，但目前尚不足以完全重现器件的传输函数行为。

意义与主张
本文声称，结合 Serinv 并行化策略和专门的数值算法，能够解锁探索接近实验现实的器件尺寸和功能性的能力，包括此前计算成本过高的相关物理效应（如载流子-载流子散射）。

关于机器学习，作者将其呈现为一条有前景的途径，可以部分消除对重复 DFT 计算的需求，特别是对于具有随时间变化的原子几何结构的器件。然而，他们对该技术的现状保持谨慎，承认虽然其标度优势显著（ $O(N)$ 对比 $O(N^3)$ ），但其对复杂传输特性（如传输函数）的预测精度尚不足以完全取代第一性原理方法。这项工作是向将 ML 集成到从头算 QT 工作流中迈出的基础性一步。