The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

该论文指出大语言模型低比特训练中的数值不稳定性主要由秩一均值偏差驱动,并提出通过简单的均值减法消除该偏差,从而在无需复杂 SVD 分解的情况下显著提升了 FP4 量化训练的稳定性与性能。

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个让大语言模型(LLM)在“低精度”模式下训练变得非常困难的问题,并发现了一个既像“诅咒”又像“祝福”的简单原因。

我们可以把大语言模型想象成一个超级巨大的图书馆,里面的每一本书(数据)都代表人类的一种知识或情感。

1. 核心问题:图书馆里的“噪音”太大了

在训练模型时,我们需要把海量的文字信息压缩成数字,存进计算机的“小房间”里。为了省空间,我们试图用FP4(一种只有 4 位数的极低精度格式)来记录这些信息。这就好比我们要把一本厚厚的百科全书,强行塞进一个只有几页纸的笔记本里。

问题出在哪里?
研究发现,这个图书馆里的书并不是均匀分布的。

  • 正常的书:大部分内容(语义)是分散的、细腻的,像图书馆里成千上万本普通小说。
  • 异常的书:但是,有一小部分“超级书”(由高频词汇和共同语境形成),它们的声音特别大,能量特别强。

在低精度模式下,计算机记录数字的范围(动态范围)是有限的。如果有一个“超级书”声音太大,它会把整个笔记本的刻度尺撑开。结果就是,为了容纳这个巨大的声音,其他成千上万本普通小说的细腻内容就被挤扁了,变得模糊不清,甚至完全丢失。这就是所谓的“数值不稳定”,导致模型学不好东西。

2. 罪魁祸首:一个“共同的背景音”

以前的科学家认为,这些“超级书”是因为某些特定的方向(比如某种复杂的语法结构)太强了,需要复杂的数学手术(如 SVD 分解)来切除。

但这篇论文发现了一个更简单、更本质的原因:这些“超级书”其实只是同一个“背景音”在到处回响。

  • 比喻:想象你在一个巨大的体育馆里听演讲。
    • 原本大家应该是在讨论各种各样的话题(语义)。
    • 但是,因为大家都穿着同样的衣服(高频词汇),或者因为体育馆的音响系统有个毛病,导致所有人的声音里都混入了一个巨大的、单调的嗡嗡声(这就是论文说的Mean Bias,平均偏差)。
    • 这个“嗡嗡声”虽然听起来很单调,但因为它是所有人一起发出的(相干性),所以它的音量叠加起来,变得震耳欲聋。
    • 这个巨大的“嗡嗡声”就是那个把笔记本刻度尺撑开的“超级书”。

3. 为什么它是“诅咒”又是“祝福”?

  • 诅咒:这个“嗡嗡声”让低精度训练变得极其不稳定,模型学不到真正的知识,因为所有的注意力都被这个巨大的噪音抢走了。
  • 祝福:因为这个噪音太“简单”了!它不是复杂的交响乐,它只是一个单一的、重复的音调(论文称之为“秩为 1 的均值偏差”)。
    • 以前我们以为要切除复杂的肿瘤,需要开大刀(昂贵的数学计算)。
    • 现在发现,这其实只是衣服上沾了一大块泥巴。我们只需要把这块泥巴拍掉(减去这个平均值),剩下的衣服(真正的语义信息)就干干净净了。

4. 解决方案:Averis(拍掉泥巴)

作者提出了一种叫 Averis 的方法,非常简单粗暴:

  1. 识别:在数据进入模型之前,先算出那个“共同的嗡嗡声”(计算每一列的平均值)。
  2. 分离:把这个“嗡嗡声”单独拿出来,用高精度的方式记录(因为它太重要了,不能压缩)。
  3. 拍掉:把原始数据里的这个“嗡嗡声”减掉,剩下的就是纯净的、细腻的“普通小说”内容。
  4. 压缩:现在剩下的内容没有那个巨大的噪音了,我们可以放心地用FP4这种极低精度的格式去压缩它,而不会丢失细节。

5. 结果如何?

实验证明,这个方法效果惊人:

  • 原本用 FP4 训练,模型效果很差,几乎没法用。
  • 用了这个“拍掉泥巴”的方法后,FP4 训练的效果非常接近使用全精度(BF16,相当于用高清相机拍照)训练的效果。
  • 而且,这个方法不需要复杂的数学运算,只需要简单的加减法,对硬件非常友好,就像给模型装了一个高效的“降噪耳机”。

总结

这篇论文告诉我们:大语言模型在低精度训练时遇到的巨大困难,往往不是因为模型太复杂,而是因为有一个**简单、重复的“背景噪音”**在捣乱。

只要我们在源头把这个共同的平均值减去,剩下的信息就能在极小的存储空间里完美呈现。这就像是在嘈杂的房间里,只要关掉那个最大的扩音器,大家就能听清彼此的悄悄话了。这是一个既省钱(节省算力)又高效(提升稳定性)的巧妙发现。