Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何用低精度的算盘，算出高精度账本”**的故事。

为了让你轻松理解，我们可以把计算机里的矩阵乘法（Matrix Multiplication）想象成超级复杂的会计记账，而**FP64（双精度）**就是那种能算出小数点后几十位、绝对精确的“黄金账本”。

1. 背景：为什么我们需要“算盘”？

现状： 以前，计算机做这种高精度记账（FP64）主要靠专门的“黄金算盘”（FP64 单元）。但最近，为了迎合人工智能（AI）的爆发，芯片厂商（如 NVIDIA）把重心转移到了**“快速算盘”**（低精度，如 INT8 或 FP8）上。这些新算盘算得飞快，但精度低，容易算错。
问题： 科学计算（如天气预报、物理模拟）必须用“黄金账本”，不能出错。但现在的芯片里，“黄金算盘”越来越少了，甚至有的新芯片（如 NVIDIA Rubin）里，传统的整数快速算盘（INT8）也被砍掉了，只剩下浮点快速算盘（FP8）。
挑战： 我们怎么在只有“快速算盘”（FP8）的芯片上，算出“黄金账本”（FP64）那样精确的结果？

2. 核心方法：Ozaki 方案（把大数拆成小块）

论文里提到的Ozaki 方案，就像是一个聪明的**“分拆记账法”**。

传统做法（Ozaki-I）： 就像把一个大数字拆成很多个“个位数”的小纸条，分别计算，最后加起来。但这需要拆很多很多张纸条（比如拆成 11 层），计算量巨大，就像要算 121 次加法。
旧版做法（Ozaki-II）： 这是一个更高级的数学技巧（基于中国剩余定理）。它把大数字拆成几个“模数”（就像把大数拆成几个不同进制的余数）。
- 以前的局限： 这个高级技巧以前只能配合**整数算盘（INT8）**使用，因为整数算盘没有“小数点”和“指数”，非常适合这种分拆。
- 现在的困境： 新芯片（如 Rubin）把整数算盘砍掉了，只给了浮点算盘（FP8）。FP8 有“指数”（就像科学计数法里的 $10^x$），这导致旧版的“分拆记账法”直接套用会出错，因为 FP8 的“指数”会干扰精确的整数运算。

3. 本文的突破：给 FP8 算盘装上“新鞋”

作者提出了一种新的混合策略，让 Ozaki-II 方案也能在 FP8 算盘上跑起来。

比喻：把大数拆成“整数部分”和“小数部分”
作者发现，FP8 虽然有小数点，但如果我们把数字拆得足够小，它其实也能像整数一样工作。
- 技巧一（Karatsuba 扩展）： 就像把一个大数字拆成“高位”和“低位”两部分。比如把 12345 拆成 12 和 345。这样可以用 FP8 分别算，再拼起来。但这需要算 3 次乘法。
- 技巧二（模数选择）： 作者发现，如果选一些特殊的数字（比如平方数，如 $33^2 = 1089$），可以直接利用数学性质，省去一部分复杂的“拼凑”步骤。
- 混合魔法： 作者把这两种技巧结合起来。对于特殊的数字用“技巧二”（省步骤），对于普通数字用“技巧一”。
结果：
- 旧方法（Ozaki-I）： 需要算 121 次乘法才能算准。
- 新方法（Ozaki-II + FP8）： 只需要算 36 次乘法（12 组，每组 3 次）。
- 对比旧版 Ozaki-II（INT8）： 虽然新方法比纯整数版多算一点（整数版只要 14-15 次），但在没有整数算盘的芯片上，这是唯一能跑通且高效的路。

4. 代价与收益：用空间换时间

代价（内存）： 这种“分拆记账”需要大量的临时记事本（内存）。
- 用整数算盘（INT8）时，记事本比较小。
- 用浮点算盘（FP8）时，因为要存“指数”信息，记事本变得更大（大约多了一倍）。
- 比喻： 就像用 FP8 算账，虽然算得快，但你需要更多的纸张来记录中间过程。如果内存不够大，这个方法就跑不起来。
收益（速度）： 在像 NVIDIA B300 或 Rubin 这种砍掉了整数算盘的新芯片上，这个方法能让原本慢吞吞的高精度计算，速度提升几倍甚至十几倍。

5. 总结：这意味着什么？

对未来的影响： 随着 AI 芯片越来越偏向浮点运算（FP8），传统的整数加速（INT8）可能会消失。这篇论文证明了，即使没有整数加速，我们依然可以用 FP8 算出高精度的科学计算结果。
简单类比：
- 以前： 我们有一辆法拉利（INT8 芯片）和一辆拖拉机（FP64 芯片）。我们要运重物（高精度计算），法拉利快但只能拉轻货，拖拉机慢但能拉重货。
- 现在： 法拉利被改装了，去掉了拉轻货的货斗（砍掉 INT8），只留下了能跑高速的引擎（FP8）。
- 本文的贡献： 作者发明了一种**“特制集装箱”**（新的算法），让我们能把重货（高精度数据）装进法拉利（FP8 芯片）里，虽然需要多放几个箱子（多算几次乘法、多占点内存），但依然能跑得飞快，而且不会把货压坏（保证精度）。

一句话总结：
这篇论文发明了一种聪明的数学技巧，让我们能在没有传统整数加速的最新 AI 芯片上，依然能快速且精确地完成那些原本需要超级计算机才能算好的科学难题。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：基于 Ozaki-II 方案与 FP8 量化的双精度矩阵乘法模拟

1. 研究背景与问题陈述 (Problem Statement)

背景：
在高性能计算（HPC）领域，双精度浮点运算（FP64）对于保证数值精度和稳定性至关重要。然而，近年来硬件架构（如 NVIDIA Blackwell Ultra 和 Rubin）为了迎合 AI 工作负载，大幅提升了低精度算术（如 FP8、INT8）的吞吐量，而 FP64 的性能提升相对有限。更值得注意的是，新一代架构中 INT8 的计算资源被显著削减（例如 B300 和 Rubin 的 INT8 性能大幅下降），而 FP8 的浮点计算能力则得到加强。

核心问题：
现有的双精度矩阵乘法（DGEMM）模拟技术主要依赖 Ozaki 方案，将 FP64 矩阵分解为多个低精度矩阵进行计算。

Ozaki-I 方案：已有基于 INT8、FP8 和 FP16 的实现，算法结构通用。
Ozaki-II 方案：基于中国剩余定理（CRT）和长整数乘法。现有的 Ozaki-II 实现主要基于 INT8（利用其定点特性）。然而，由于 FP8 具有浮点指数位，无法直接将原有的 INT8 版 Ozaki-II 算法适配到 FP8 张量核心（MMA）上，因为 FP8 的指数位会导致精度损失或无法直接进行模运算所需的精确整数表示。

目标：
开发一种基于 FP8 MMA 单元 的 Ozaki-II 方案，以在 INT8 资源受限但 FP8 性能强大的新一代 GPU 上高效模拟 FP64 矩阵乘法。

2. 方法论 (Methodology)

作者提出了一种混合方法，结合了 Karatsuba 算法扩展 和 模数约减（Modular Reduction） 技术，以克服 FP8 E4M3 格式在表示大整数范围时的局限性。

2.1 FP8 量化的局限性

FP8 E4M3 格式能精确表示 -16 到 16 的连续整数。若直接应用 Ozaki-II，模数 $p_\ell$ 必须 $\le 32$ 。这导致所有模数的乘积 $P$ 过小（ $P/2 < 2^{47}$ ），无法支撑 FP32 甚至 FP64 的精度需求。

2.2 核心技术创新

为了解决上述问题，论文提出了以下策略：

基于 Karatsuba 的扩展（Karatsuba-Based Extension）：
- 将整数矩阵 $A'_\ell$ 分解为两个 FP8 矩阵的和： $A'_\ell = s \cdot A^{(1)}_\ell + A^{(2)}_\ell$ 。
- 利用 Karatsuba 算法将乘积展开，仅需 3 次 FP8 矩阵乘法即可计算 $A'_\ell B'_\ell$ 。
- 通过选择缩放因子 $s=16$ ，确保分解后的子矩阵元素在 FP8 E4M3 的可表示范围内（ $\le 24$ ），且中间计算在 FP32 累加下无舍入误差。
- 代价：允许更大的模数（ $p_\ell \le 513$ ），但仍需较多模数（ $N \ge 13$ ）才能达到 FP64 精度。
无 Karatsuba 的模数约减（Modular Reduction without Karatsuba）：
- 针对平方模数（ $p_\ell = s^2$ ），利用模运算性质： $mod(s^2 \cdot X, s^2) = 0$ 。
- 当 $p_\ell$ 为平方数时，可以直接计算 $C'_\ell = mod(s A^{(1)} B^{(2)} + s A^{(2)} B^{(1)} + A^{(2)} B^{(2)}, p_\ell)$ ，无需 Karatsuba 的重构步骤。
- 这种方法允许使用更大的模数（如 $1089 = 33^2$），从而减少所需的模数数量。
混合方法（Hybrid Method）：
- 优先选择平方模数（如 1089, 1024, 961...），使用上述“无 Karatsuba"技术。
- 剩余模数使用 Karatsuba 扩展技术。
- 效果：仅需 12 个模数（ $N \ge 12$ ）即可达到与 INT8 方案（需 14 个模数）相当的 FP64 精度，且总 FP8 矩阵乘法次数从 $3N $降至$ 36$ 次（相比纯 Karatsuba 方案减少）。

2.3 为什么选择 FP8 而非 FP16/FP4？

FP16/BF16：为了在无舍入误差的 FP32 累加下保持精度，需要极小的分块（ $k \le 64$ ），导致算术强度低，无法充分利用硬件。
FP4：表示能力太弱，难以进行递归 Karatsuba 分解中的中间和计算。
FP8：在 $k \le 2^{16}$ 时，FP8 E4M3 配合 FP32 累加可实现无舍入误差，且硬件吞吐量远高于 FP16。

3. 主要贡献 (Key Contributions)

算法适配性分析：阐明了为何 INT8 版 Ozaki-II 不能直接移植到 FP8，指出了定点语义与浮点指数位的冲突。
FP8 版 Ozaki-II 方案：提出了一种结合 Karatsuba 扩展和平方模数约减的混合算法，成功在 FP8 MMA 上实现了 FP64 精度模拟。
性能与资源分析：
- 建立了新的 INT8 和 FP8 版 Ozaki-II 的解析性能模型。
- 分析了工作内存占用（FP8 方案因需存储中间 INT16 结果和多个 FP8 分量，内存占用约为 INT8 方案的 2 倍）。
开源实现：提供了支持 NVIDIA 和 AMD GPU 的开源库，实现了 INT8 和 FP8 两种方案，并保证在固定工具链下的位级可复现性。

4. 实验结果 (Results)

实验在 NVIDIA RTX 5080 和 HGX B200 上进行。

4.1 精度 (Accuracy)

提出的 FP8 方案在“准确模式”下（使用直接低精度乘法估算上界），其精度与基于 7 个切片的 INT8 Ozaki-I 方案相当，能够满足大多数 HPC 应用（如电子结构计算、分子动力学）的需求。
在 $k$ 较大时，FP8 方案的精度表现优于 INT8 方案，这得益于其更紧致的上界估算方法（避免了 INT8 方案中因向上取整导致的小值膨胀）。

4.2 吞吐量 (Throughput)

RTX 5080 (INT8 资源丰富)：
- INT8 方案比 FP8 方案快 1.3–2.9 倍。
- 两者均比原生 FP64 快 4–24 倍。
- 结论：在 INT8 资源充足的硬件上，INT8 方案仍是首选。
B200 (INT8 资源受限，FP8 增强)：
- 对于小矩阵，两种模拟方案均慢于原生 FP64。
- 对于大矩阵（$16384 \times 16384$），INT8 方案达到 125 TFLOP/s，FP8 方案达到 64 TFLOP/s。
- 关键发现：虽然 FP8 方案绝对速度较慢，但在 B300/Rubin 等 INT8 性能进一步大幅下降的架构上，FP8 方案将成为唯一可行的高精度模拟方案。
性能模型验证：解析模型预测值与实测值高度吻合，证明了模型的可靠性。

4.3 时间分解

在大矩阵计算中，低精度 GEMM（gemms）阶段占据主导。
FP8 方案在 gemms 阶段耗时比例更高，因为每个模数需要 3 次 FP8 乘法，而 INT8 方案仅需 1 次。

5. 意义与结论 (Significance & Conclusion)

填补技术空白：首次实现了基于 Ozaki-II 方案的 FP8 矩阵乘法模拟，解决了新一代 AI 优先架构中 INT8 资源不足导致的高精度计算瓶颈。
架构适应性：
- 在 INT8 资源丰富 的硬件（如 B200, H100）上，INT8 方案在吞吐量和内存效率上仍占优。
- 在 INT8 资源受限、FP8 主导 的硬件（如 B300, Rubin）上，该 FP8 方案提供了唯一的实用化 FP64 模拟路径。
权衡分析：论文清晰地量化了精度、性能（乘法次数）和内存占用之间的权衡。虽然 FP8 方案需要更多的计算次数和内存，但它成功地将 FP64 精度模拟扩展到了浮点优先的硬件生态中。
未来展望：随着 AI 硬件向 FP8/FP4 演进，该工作为 HPC 应用在这些新型硬件上保持数值稳定性提供了关键的理论基础和工程实现。

总结：这项工作证明了通过巧妙的算法设计（Karatsuba + 模数约减），可以在 FP8 硬件上实现双精度矩阵乘法模拟。虽然目前在纯性能上略逊于成熟的 INT8 方案，但它是应对未来硬件架构变化（INT8 衰退、FP8 崛起）的关键技术储备。

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization