Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs

本文提出了一种针对 Hopper 架构 GPU 上大规模混合专家(MoE)模型的 FP4 训练方案,通过引入直接 FP8 到 FP4 的量化转换及感知缩放技术,在不依赖原生 FP4 计算支持的情况下,显著降低了激活显存占用并提升了训练吞吐量。

Wuyue Zhang, Chongdong Huang, Chunbo You, Cheng Gu, Fengjuan Wang, Mou Sun

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何在“老款”高性能显卡上,用更省钱的“低精度”方式训练超级大模型的故事。

为了让你更容易理解,我们可以把训练一个大模型想象成指挥一支庞大的交响乐团,而显卡(GPU)就是乐团的指挥台

1. 背景:大模型的“内存焦虑”

现在的 AI 模型(比如 DeepSeek-V3)越来越聪明,参数高达 6710 亿(671B)。

  • 问题:这些模型太“重”了,就像乐团里突然多了几千个乐手,指挥台(显卡内存)根本坐不下。
  • 现状:为了训练它们,通常需要使用“高精度”数据(比如 FP8 或 BF16),这就像给每个乐手都发了一套昂贵的纯金乐器。虽然音质好,但太占地方,导致指挥台塞不下,或者指挥(计算)速度太慢。
  • 新趋势:大家想改用“低精度”数据(比如 FP4),就像给乐手发“塑料乐器”。虽然轻了、便宜了,能塞进更多人,但目前的顶级显卡(Hopper 架构)只认识“金乐器”和“银乐器”,不认识“塑料乐器”。如果强行用,就需要反复转换,反而更慢。

2. 核心挑战:没有“塑料乐器”的指挥台

NVIDIA 最新的 Blackwell 显卡(下一代)原生支持 FP4(塑料乐器),但大家手里现有的 Hopper 显卡(当前主流)不支持。

  • 痛点:如果你想在 Hopper 上用 FP4,就像让一个只懂读中文的翻译官去读阿拉伯语。传统的做法是:阿拉伯语 -> 翻译成中文 -> 再翻译成英文 -> 最后读出来。这个过程(FP4 -> BF16 -> FP8)既慢又容易出错(精度损失)。

3. 作者的解决方案:聪明的“翻译官”团队

作者团队开发了一套软件魔法,让 Hopper 显卡也能高效地处理 FP4 数据,而无需硬件升级。他们的策略可以概括为三点:

A. “快递打包”策略(通信优化)

  • 比喻:在乐团排练时,不同乐手之间需要传递乐谱(数据通信)。以前用 FP8,乐谱是“精装版”,很占空间。
  • 做法:作者发明了一种直接打包法。他们把 FP4 数据直接压缩成“迷你版”乐谱,并且跳过了中间翻译成中文再转英文的步骤。
  • 效果:乐谱体积直接减半(通信量减少 50%),乐手之间传递乐谱的速度飞快,不再堵车。

B. “前紧后松”的战术(混合精度)

  • 比喻:乐团排练分“前半场”(前向传播,生成内容)和“后半场”(反向传播,修正错误)。
  • 做法
    • 前半场:大胆使用“塑料乐器”(FP4)。因为这时候主要是传递信息,只要大概对就行,省空间、省流量。
    • 后半场:为了修正错误,必须精准。这时候他们用 FP4,而是直接切回“金乐器”(FP8)进行计算。
  • 妙处:这种“不对称”的设计,既省了内存,又保证了训练出来的模型不会“跑偏”(收敛稳定)。

C. “特制工具”(定制算子)

  • 比喻:因为显卡不认识塑料乐器,作者自己写了一套特制的翻译工具(CUDA 内核)
  • 做法:这些工具能直接把“塑料乐谱”(FP4)瞬间转换成“金乐谱”(FP8)供显卡计算,而且转换过程是按位操作(Bit-wise),就像直接换零件,而不是重新组装,速度极快。
  • 亮点:他们还专门处理了 MoE 模型中“有的乐手忙、有的乐手闲”(稀疏激活)的情况,让工具能灵活应对,不浪费任何时间。

4. 成果:省下的钱能买新显卡

在 6710 亿参数的超级大模型上测试,这套方法带来了惊人的效果:

  • 内存大瘦身:峰值内存占用减少了 14.8%(相当于省下了 11.8GB 的内存)。这就像指挥台突然空出了一大块地方,可以容纳更多乐手,或者让排练更从容。
  • 速度大提升:训练速度提升了 12.5%(从每秒 1157 个词提升到 1302 个词)。
  • 质量不下降:虽然用了“塑料乐器”,但最终训练出来的模型效果,和用“金乐器”训练的几乎一样好。

总结

这篇论文就像是一个精明的管家,在没有新家具(原生 FP4 显卡)的情况下,通过重新整理房间布局(优化数据流)、使用特制收纳盒(定制算子)和灵活的调度策略(前向 FP4/反向 FP8),让现有的旧家具(Hopper 显卡)发挥出了超越极限的效能。

一句话总结:即使没有原生支持 FP4 的显卡,通过巧妙的软件设计,我们也能用更少的内存、更快的速度,训练出同样强大的超级 AI 模型。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →