Mixed precision solvers with half-precision floating point numbers for Lattice QCD on A64FX processor

本文针对 A64FX 处理器,提出了一种在 Lattice QCD 混合精度求解器中引入重缩放步骤以利用半精度浮点数(FP16)的方法,实验表明该方法在保持数值稳定性的同时,迭代次数仅比双精度版本增加 20% 以内,证明了其在实际计算中的可行性。

原作者: Issaku Kanamori, Hideo Matsufuru, Tatsumi Aoyama, Kazuyuki Kanaya, Yusuke Namekawa, Hidekatsu Nemura, Keigo Nitadori

发布于 2026-02-17
📖 1 分钟阅读🧠 深度阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让超级计算机跑得更快、更省电的故事,特别是针对一种叫做“格点量子色动力学”(Lattice QCD)的复杂物理模拟。

为了让你更容易理解,我们可以把这项研究想象成在拥挤的城市里运送货物

1. 背景:超级计算机的“搬运工”困境

想象一下,你有一辆巨大的卡车(超级计算机),需要把成千上万个箱子(数据)从一个地方搬到另一个地方,以计算宇宙中最基本的粒子(夸克和胶子)是如何互动的。

  • 传统做法(双精度 FP64): 以前,为了绝对精确,卡车司机(计算机)每次搬运都使用特大号、加固的保险箱。这些箱子非常结实,数据一点都不会错,但是它们太重了,卡车一次只能拉很少几个,而且搬运速度很慢。
  • 新趋势(半精度 FP16): 现在的芯片(比如 A64FX 处理器)进化了,它们能同时处理很多轻便的小纸盒(半精度数据)。虽然小纸盒装不了太多东西,但卡车一次能拉几千个,速度极快!
  • 问题所在: 科学家发现,如果直接把那些需要“特大保险箱”的精密计算任务,强行塞进“小纸盒”里,会发生灾难。因为小纸盒太小了,稍微有点大的数字(比如 1000)装不进去,就会溢出;稍微有点小的数字(比如 0.0000001)也装不下,直接变成零(这叫“下溢”)。这就导致计算结果完全乱套,就像用漏勺去捞水,什么都留不住。

2. 核心创新:给小纸盒装上“伸缩弹簧”

这篇论文的作者们(来自日本 RIKEN、KEK 等机构)想出了一个绝妙的主意:既然小纸盒容易装不下,那我们就在搬运过程中,给它们装上“伸缩弹簧”(重缩放技术)。

  • 原来的死板做法: 就像你试图把一个巨大的西瓜硬塞进一个小信封里,或者把一滴水倒进大海里瞬间消失。
  • 作者的新方法(重缩放 Rescaling):
    • 第一步(放大): 在把数据装进“小纸盒”之前,如果数字太小快消失了,我们就先把它放大(乘以一个系数),让它变得足够大,能稳稳地待在纸盒里。
    • 第二步(计算): 用这些放大的数据在“小纸盒”里进行快速计算。
    • 第三步(还原): 计算结束后,再把结果缩小回去,还原成原本的大小。

这就好比你在用一个小杯子量大海的水量。你不能直接倒,而是先舀一勺(放大),算出这勺水占大海的比例,最后再推算出总量。

3. 实验结果:快了一倍,而且没出错

作者在超级计算机“富岳”(Fugaku)上做了实验:

  • 没有“弹簧”时: 如果直接用半精度(小纸盒)去算,计算过程会卡住,甚至算出乱码,就像卡车在泥地里打滑,根本跑不动。
  • 加上“弹簧”后: 计算变得非常稳定。虽然为了保持精度,卡车多跑了几趟(迭代次数增加了不到 20%),但因为每次跑的箱子多、速度快,总时间反而缩短了一半
    • 对比数据: 用传统的大保险箱(双精度)需要 1.39 秒;用普通的小箱子(单精度)需要 0.92 秒;而用了作者发明的“伸缩弹簧”小箱子(半精度),只需要0.46 秒

4. 为什么这很重要?

  • 为未来做准备: 未来的超级计算机(比如日本的下一代“富岳 NEXT")将大量使用这种能处理“小纸盒”的芯片(类似显卡里的 Tensor Core)。这篇论文证明了,只要方法得当,这些新芯片完全可以用来做最顶尖的科学计算,而不仅仅是用来打游戏或训练 AI。
  • 通用性: 作者提出的这个“伸缩弹簧”方法,不仅适用于现在的物理模拟,未来也可以用在其他需要快速计算但精度要求没那么苛刻的领域。

总结

简单来说,这篇论文就是教超级计算机如何“化整为零”

以前我们觉得“小盒子”装不下精密数据,所以不敢用。作者发明了一种动态调整盒子大小的技巧,让计算机既能享受“小盒子”带来的极速,又能保证数据不丢失。这就像给一辆跑车换上了更轻的轮胎,虽然轮胎小,但通过特殊的悬挂系统(重缩放),它跑得比以前的重型卡车还要快,而且依然能稳稳地跑完全程。

这对于加速模拟宇宙起源、核反应等科学难题,是一个巨大的进步。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →