Pretraining Large Language Models with NVFP4

该论文提出了一种结合随机哈达玛变换、二维量化、随机舍入及选择性高精度层的 NVFP4 训练方法,成功在 10 万亿 token 上预训练了 120 亿参数模型,实现了与 FP8 基线相当的性能,为大规模语言模型的低精度高效训练开辟了新路径。

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是 NVIDIA 如何给大型人工智能模型(LLM)“瘦身”和“加速”的故事。

想象一下,训练一个超级聪明的大语言模型(比如能写诗、写代码、做数学题的 AI),就像是在用巨大的卡车车队运送一座图书馆的书籍

1. 背景:卡车太贵,路太堵

以前,为了训练这些模型,我们用的“卡车”(数据格式)是 FP8(8 位浮点数)。这就像是用重型卡车运书。虽然稳,但太占地方(内存大)、太耗油(算力消耗大)、速度也慢。
现在,NVIDIA 推出了新的 NVFP4 格式。这就像发明了一种超轻量的折叠自行车

  • 优势:同样的路,自行车能跑得快两倍到三倍,而且一次能运的“书”(数据)虽然单本变薄了,但整体效率极高,能省下一半的“油箱”(显存)。
  • 挑战:自行车太轻了,如果路上遇到大石头(数据中的极端值/异常值),或者骑得太快,车子容易散架(模型训练不稳定,学不到东西)。

2. 核心问题:自行车怎么骑才不摔?

直接把书扔上自行车(直接量化到 4 位),书会散架,模型就学傻了。NVIDIA 的科学家发现,要让这辆“自行车”跑得稳,需要一套特殊的骑行技巧(训练方法论):

技巧一:给“关键路段”铺柏油路(混合精度)

并不是所有路都适合骑自行车。

  • 比喻:模型里有些部分(比如最后的几层)非常精密,就像悬崖边的窄路。如果在这里骑自行车,稍微歪一点就掉下去了。
  • 做法:NVIDIA 决定,90% 的路(大部分计算)都骑自行车(用 NVFP4),但在最后 10% 的关键路段(最后几层),我们暂时换回重型卡车(用高精度的 BF16 格式)。
  • 效果:既保证了大部分路程的极速,又确保了在关键地方不会翻车。

技巧二:把“大石头”打碎(随机哈达玛变换)

数据里偶尔会出现几个特别大的数字(异常值),就像路上的大石头。在 4 位格式下,大石头会卡住车轮。

  • 比喻:以前我们只能把大石头硬塞进小篮子,结果篮子破了。现在,NVIDIA 发明了一种魔法粉碎机(随机哈达玛变换)。
  • 做法:在把数据装上车之前,先把这些大石头打碎,均匀地撒在整条路上,变成小石子。
  • 效果:路变平了,自行车就能平稳地骑过去,不会因为某一点太重而翻车。

技巧三:前后轮要对齐(2D 块缩放)

骑自行车时,前轮和后轮如果转的方向不一样,车就会歪。

  • 比喻:在训练过程中,模型要“看”一遍书(前向传播),然后“反思”哪里错了(反向传播)。如果“看”的时候和“反思”的时候,对同一本书的打包方式不一样,模型就会晕头转向,不知道该怎么改。
  • 做法:NVIDIA 设计了一种2D 打包法(2D 块缩放),确保无论模型是“看”还是“反思”,数据的打包方式都完全一致。
  • 效果:前后轮步调一致,模型学习路径清晰,不会迷路。

技巧四:偶尔“抛硬币”决定方向(随机舍入)

在把书塞进小篮子时,有些书的大小刚好卡在两个格子里。

  • 比喻:如果每次都机械地把书塞进同一个格子(确定性舍入),久而久之,书就会偏向一边,导致篮子歪了(产生偏差)。
  • 做法:NVIDIA 让模型在遇到这种临界情况时,抛一枚硬币(随机舍入)。这次塞左边,下次塞右边,概率各半。
  • 效果:长期来看,书在篮子里分布得很均匀,没有系统性偏差,模型学得更准。

3. 实验结果:真的行得通吗?

NVIDIA 真的用这套方法,训练了一个120 亿参数的超级模型,读了10 万亿个单词(这是目前公开记录中,用 4 位精度训练的最长、最大的模型之一)。

  • 对比结果
    • FP8 组(开重型卡车):考满分 100 分,得了 62.62 分
    • NVFP4 组(骑自行车):考满分 100 分,得了 62.58 分
  • 结论:骑自行车几乎和开卡车一样快,而且成绩几乎一模一样!甚至在某些数学和常识推理任务上,自行车还跑得更好。

4. 为什么这很重要?

这就好比以前我们要把一座图书馆搬走,需要 100 辆大卡车,耗时耗油。现在,NVIDIA 告诉我们:只要掌握了正确的骑行技巧,我们只需要 30 辆自行车就能完成同样的任务,而且速度更快,油耗更低

这意味着未来的 AI 模型可以:

  1. 训练得更快(省时间)。
  2. 更便宜(省电费、省硬件)。
  3. 更环保(省能源)。

这篇论文就是 NVIDIA 给全行业的一份“自行车骑行指南”,告诉大家:别怕,4 位精度(FP4)不仅能用,还能用得非常好!