Scaling Laws for Precision in High-Dimensional Linear Regression

本文在高维缩略线性回归框架下,通过理论分析揭示了乘性与加性量化在有效模型规模影响上的关键差异,阐明了模型规模、数据集大小与量化误差之间的相互作用机制,为低精度训练的资源优化提供了理论依据。

Dechen Zhang, Xuan Tang, Yingyu Liang, Difan Zou

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大模型(如 Chatbot)训练中非常实际的问题:如何在节省算力和内存的同时,还能让模型学得好?

为了让你轻松理解,我们可以把训练一个大模型想象成在一个巨大的图书馆里找一本特定的书(学习知识)

1. 核心背景:为什么要“低精度”?

  • 全精度(Full Precision): 就像用显微镜看书。每一个字、每一个笔画都看得清清楚楚,非常精准,但需要巨大的存储空间和极快的阅读速度(计算成本极高)。
  • 低精度(Low Precision): 就像用普通眼镜甚至模糊的滤镜看书。虽然看不清极细微的笔画,但能认出大概的字形,而且读得快、占地方小。
  • 现状: 现在的模型太大了,用“显微镜”看书太贵了,大家被迫用“普通眼镜”。但问题是:眼镜越模糊,我们还能找到那本书吗?找到书的难度会增加多少?

2. 论文的核心发现:两种“模糊”方式,两种命运

论文发现,低精度训练其实有两种不同的“模糊”方式,它们对模型的影响截然不同。作者把它们比作**“信号依赖型模糊”“信号无关型模糊”**。

第一种:乘法量化(Multiplicative Quantization)

  • 比喻: 就像**“智能滤镜”**。
    • 当书本上的字很大、很清晰时(信号强),滤镜稍微模糊一点点;
    • 当书本上的字很小、很模糊时(信号弱),滤镜也跟着变得非常模糊。
    • 关键点: 模糊的程度是跟着内容变的。重要的信息(大字)依然相对清晰,不重要的信息(小字)虽然模糊了,但因为本来就不重要,所以影响不大。
  • 结果:
    • 模型容量不变: 就像图书馆的书架数量没变。虽然有些书看不清细节,但书架本身还是能放那么多书。模型依然能利用所有的参数(书架)去学习。
    • 数据效率降低: 就像阅读速度变慢了,因为需要花更多时间辨认模糊的字。
    • 结论: 这种方式(类似浮点数 FP8)比较安全,不会让模型“变笨”或“变小”,只是稍微慢一点。

第二种:加法量化(Additive Quantization)

  • 比喻: 就像**“固定厚度的毛玻璃”**。
    • 不管书本上的字是大是小,都在上面盖了一层厚度固定的毛玻璃。
    • 关键点: 对于大字(强信号),毛玻璃的影响很小;但对于小字(弱信号/高频细节),毛玻璃直接把它们完全盖住了,根本看不见。
  • 结果:
    • 模型容量缩水: 这是最致命的。因为那些被毛玻璃盖住的“小字”(模型参数中的细微部分)完全无法被利用,相当于书架的一部分被拆掉了。模型实际上能用的“有效书架”变少了。
    • 数据效率降低: 同样需要花更多时间辨认。
    • 结论: 这种方式(类似整数 INT8)不仅慢,还会强行让模型“变小”,导致它学不到原本能学到的复杂知识。

3. 为什么这个发现很重要?

以前大家只是凭经验(试错)知道:

  • 用整数(INT)量化,模型效果好像变差了,有人猜测是模型“变小”了。
  • 用浮点(FP)量化,效果好像还行,有人猜测只是加了一点噪音。

这篇论文从数学理论上证明了

  1. 整数量化(加法): 确实会物理性地减少模型的有效容量(有效书架变少)。如果你强行用极低的比特数(比如 4-bit)训练,模型可能会因为“书架不够用”而学不到东西。
  2. 浮点量化(乘法): 不会减少模型容量,只是增加了噪音。只要数据量够多,模型依然能发挥全部实力。

4. 给工程师的“操作指南”

这篇论文就像给大模型训练者的一张**“避坑地图”**:

  • 如果你用浮点格式(如 FP8): 放心大胆地用!你的模型大小(M)和数据量(N)依然可以按照原来的比例缩放。只要数据够多,模型就能学好。
  • 如果你用整数格式(如 INT8): 要小心了!你的模型实际上“变小”了。如果你想达到同样的效果,你可能需要:
    • 增加数据量来弥补模型容量的损失。
    • 或者不要盲目追求极致的低比特,因为超过某个界限,模型的有效容量会急剧下降,导致“怎么练都练不好”。

总结

这就好比你在装修房子(训练模型):

  • 乘法量化就像是换了个稍微旧点的窗户,虽然透光率差一点(有噪音),但房间(模型容量)还是那么大,家具(参数)都能放得下。
  • 加法量化就像是直接拆掉了一面墙,房间变小了,有些家具(参数)根本放不进去,只能扔掉。

这篇论文告诉我们:在低精度时代,选择什么样的“窗户”(量化方式),决定了你的“房间”到底还能装多少东西。 这为未来如何平衡成本(低精度)和效果(模型大小)提供了坚实的理论依据。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →