A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization

该论文提出了首个分析自适应优化器(如 Adam 和 Muon)在浮点量化下收敛性的理论框架,证明了在特定条件下这些算法能保持接近全精度的收敛速率,并揭示了 Adam 对量化误差更为敏感而 Muon 更具鲁棒性的关键差异。

Xuan Tang, Jichu Li, Difan Zou

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)的“减肥训练”做体检。

想象一下,训练一个像 ChatGPT 这样的大模型,就像是在教一个超级天才学生做几千道数学题

1. 背景:为什么要“减肥”?

现在的模型越来越大,需要的“脑力”(内存)和“体力”(计算量)惊人。为了在普通的显卡上跑得动,或者为了跑得更快,工程师们开始给模型“减肥”:

  • 全精度(FP32):就像用精密的游标卡尺测量数据,非常准,但很占地方,很慢。
  • 低精度(BF16, FP8):就像用普通的卷尺或者甚至目测,虽然没那么准,但速度快、省空间。

大家发现,用“卷尺”(低精度)训练,模型居然也能学得很好!但这在理论上一直是个谜:为什么用“粗糙”的工具,还能画出精准的地图? 以前的理论都假设所有步骤都是完美的,没法解释这种“粗糙但有效”的现象。

2. 核心发现:给“粗糙”工具做理论分析

这篇论文就是第一个给“粗糙工具”做全面体检的理论框架。作者不仅看了“卷尺”(梯度)准不准,还看了学生记笔记的**草稿纸(权重)错题本(优化器状态,如动量)**是不是也用了“卷尺”。

他们发现,只要“卷尺”的刻度(尾数位数)稍微增加一点点(哪怕只是随着训练时间对数级地增加),模型就能像用“游标卡尺”一样精准地收敛。

3. 两个主角:Adam vs. Muon

论文重点对比了两种常用的“学习方法”(优化器):

主角 A:Adam(老练但挑剔的教练)

  • 特点:Adam 很聪明,它会记住过去的错误(动量)和错误的剧烈程度(二阶矩)。
  • 问题:它有一个致命的弱点。它非常依赖一个叫 β2\beta_2 的参数,这个参数通常设得非常接近 1(比如 0.999)。
  • 比喻:这就像 Adam 是一个极度依赖“历史平均成绩”的教练。如果他的“错题本”(二阶矩)是用粗糙的卷尺量的,哪怕只有一点点误差,因为 β2\beta_2 接近 1,这个误差会被无限放大,导致他算出的“下一步该怎么走”完全偏了。
  • 结论:Adam 对“错题本”和“体重”(权重)的精度要求极高,稍微粗糙一点,效果就大打折扣。

主角 B:Muon(稳健的新星)

  • 特点:Muon 是最近很火的新方法,它用一种叫“奇异值分解(SVD)”的数学技巧来调整方向。
  • 优势:它不像 Adam 那样死板地依赖历史数据的平方根倒数。
  • 比喻:Muon 更像是一个直觉敏锐的向导。它不看具体的“错题数值”有多精确,而是看“大方向”对不对。即使“卷尺”有点不准,它也能通过整体结构(SVD)把方向拉回来。
  • 结论:Muon 对“粗糙工具”的容忍度高得多。即使精度很低,它也能跑得稳,甚至比 Adam 更好。

4. 实验验证:从玩具到真家伙

作者不仅在数学上证明了这一点,还做了实验:

  • 玩具实验:用简单的数学函数(Rosenbrock 函数)测试,发现精度越低,Adam 越容易“迷路”,而 Muon 依然稳健。
  • 真实实验:在 CIFAR-10(图片分类)和 nanoGPT(语言模型)上,结果一样:
    • 当精度极低(比如尾数只有 2 位)时,Adam 训练效果变差,损失函数下不去。
    • Muon 在同样极低的精度下,依然能保持很好的效果,甚至接近高精度训练的结果。

5. 总结:这对我们意味着什么?

这篇论文就像给 AI 工程师吃了一颗定心丸

  1. 理论解释:它终于解释了为什么现在的低精度训练(比如用 FP8 训练万亿参数的模型)能成功。
  2. 指导实践:它告诉我们,如果你要用低精度训练,Muon 可能比 Adam 更安全、更鲁棒
  3. 未来方向:它指出,只要“尾数”(精度)随着训练时间稍微增加一点点,就能保证理论上的收敛。这为未来设计更高效的低精度训练算法提供了理论地基。

一句话总结
以前大家觉得用“卷尺”教大模型是“运气好”,现在这篇论文证明了这是“有科学依据的”,并且发现Muon 这种新方法比传统的 Adam 更擅长在“粗糙”的环境下工作

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →