A Unified Heterogeneous Implementation of Numerical Atomic Orbitals-Based Real-Time TDDFT within the ABACUS Package

本文介绍了 ABACUS 软件包中基于数值原子轨道的实时含时密度泛函理论(RT-TDDFT)的统一异构计算框架,通过三层协同设计显著加速了波函数传播与实空间格点操作,并在从分子到固体的各类体系验证了其高精度与多 GPU 扩展性。

原作者: Taoni Bao, Yuanbo Li, Zichao Deng, Haotian Zhao, Denghui Lu, Yike Huang, Chao Lian, Lixin He, Mohan Chen

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一项名为 ABACUS 的超级计算软件的重大升级。为了让你更容易理解,我们可以把这项研究想象成给一辆赛车换上了“万能引擎”和“超级变速箱”

1. 背景:为什么要做这个?(赛车的需求)

想象一下,科学家们在研究原子和电子如何运动,特别是当它们受到激光照射时(比如超快电子动力学)。这就像是在观察一场微观世界的赛车比赛

  • 旧问题:以前的软件(赛车)主要是在 CPU(普通引擎)上跑。虽然能跑,但面对极其复杂的计算(比如模拟成千上万个原子的实时反应),速度太慢了,就像用自行车去追 F1 赛车。
  • 新挑战:现在的超级计算机都有 GPU(图形处理器,相当于高性能赛车引擎),它们并行计算能力极强。但是,让旧软件直接跑在 GPU 上非常困难,就像强行把自行车的零件装到法拉利上,不仅跑不起来,还容易散架。而且,不同的 GPU 品牌(NVIDIA、AMD 等)就像不同品牌的赛车,零件不通用,导致软件很难移植。

2. 核心创新:三层架构(万能改装方案)

为了解决这个问题,研究团队在 ABACUS 软件中设计了一套**“三层万能改装系统”**,让物理算法和硬件彻底分离:

  • 第一层:用户层(驾驶员)
    • 比喻:这是赛车手看到的仪表盘。
    • 作用:用户只需要输入结构、原子轨道等基础数据,不需要关心底层是 CPU 还是 GPU。软件会自动输出光学响应、电荷迁移等物理结果。
  • 第二层:算法层(赛车手)
    • 比喻:这是决定赛车如何过弯、加速的策略。
    • 作用:这里负责核心的物理计算,比如电子波函数如何随时间演化。以前这里写死了对 CPU 的依赖,现在它变得“硬件无关”,无论下面挂什么引擎,它都能指挥。
  • 第三层:核心抽象层(万能变速箱/传动系统)
    • 比喻:这是最关键的发明。它像是一个智能适配器
    • 作用
      1. 统一数据容器:不管数据存在 CPU 内存还是 GPU 显存,都打包成标准的“集装箱”(Tensor),搬运时不用重新包装。
      2. 统一线性代数算子:把复杂的数学运算(如矩阵乘法)封装成标准接口。如果是 CPU,就调用 CPU 的数学库;如果是 GPU,就自动调用 GPU 的加速库。
      3. 统一网格积分:这是处理空间计算的接口,确保在不同硬件上计算结果一致。

简单说:以前写代码要专门为 NVIDIA 显卡写一套,为 AMD 显卡写一套。现在,他们造了一个“万能插头”,物理学家只管写物理公式,软件自动适配任何硬件。

3. 攻克最大难点:速度计与相位(消除“速度瓶颈”)

在模拟光与物质相互作用时,有两种计算方法(规范):

  • 长度规范:适合小分子,但算不了大晶体。
  • 速度规范:适合大晶体,但计算量巨大,因为需要处理一种复杂的“相位因子”(可以想象成在计算每个原子周围都有一个快速旋转的陀螺,以前在 CPU 上算这个非常慢,是最大的瓶颈)。

团队的突破
他们专门为 GPU 设计了一个**“球形网格积分加速器”**。

  • 比喻:以前在 CPU 上算这个,就像让一个人拿着计算器,一个一个地数旋转的陀螺,累得半死。
  • 现在:在 GPU 上,他们让成千上万个线程同时去数,并且优化了算法,把“数陀螺”变成了“批量处理”。
  • 结果:这个最慢的环节,在 GPU 上比 CPU 快了 12 倍!这意味着以前不敢用的“速度规范”现在变得既快又准,科学家可以自由选择最适合物理问题的方法,而不必被计算速度限制。

4. 实际效果:速度与规模(赛车实测)

团队用真实的材料(如硅晶体、石墨烯等)进行了测试:

  • 单卡加速:用一张高端 GPU(NVIDIA A800),比用满 56 个核心的双路 CPU 服务器还要快 3 到 4 倍
  • 大规模并行:当使用 40 张 GPU 一起工作时,软件依然能保持 76% 的极高效率。这意味着如果你把计算任务分给 40 辆车,它们能几乎完美地协同工作,没有太多时间浪费在互相沟通上。
  • 适用范围:从单个分子到巨大的晶体,从二维材料到三维固体,结果都非常准确,与之前的权威数据完全吻合。

5. 总结与未来(未来的赛车)

这项工作的意义在于:

  1. :让模拟超快电子运动(飞秒、阿秒级别)变得可行,以前算一天,现在可能只要一小时。
  2. 通用:不再被特定硬件绑定,未来无论是国产芯片(如华为昇腾、海光 DCU)还是其他新型加速器,这套框架都能轻松适配。
  3. 开放:这是开源软件 ABACUS 的一部分,全球科学家都可以免费使用,推动材料科学和量子物理的发展。

一句话总结
作者给 ABACUS 软件装上了一个**“智能硬件翻译器”和一个“超级加速器”**,让原本只能在慢速 CPU 上运行的复杂物理模拟,现在能在 GPU 上全速奔跑,并且能轻松适应各种未来的超级计算机,让科学家能以前所未有的速度和规模去探索微观世界的奥秘。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →