Muon+: Towards Better Muon via One Additional Normalization Step

本文提出了 Muon+,一种在 Muon 优化器正交化后增加归一化步骤的简单有效改进方案,通过在多种模型规模和架构上的大规模预训练实验,证明了其能显著提升训练和验证困惑度。

Ruijie Zhang, Yequan Zhao, Ziyue Liu, Zhengyang Wang, Zheng Zhang

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MUON+ 的新方法,它是为了改进大语言模型(LLM)训练中的一种优化器——Muon

为了让你更容易理解,我们可以把训练一个大型 AI 模型想象成指挥一支庞大的交响乐团演奏一首复杂的交响曲

1. 背景:为什么要改进?

  • 现状:现在的 AI 模型(如 GPT、LLaMA)就像超级庞大的乐团,有几十亿甚至上百亿个乐手(参数)。训练它们非常烧钱、烧算力。
  • 旧工具(Muon):之前,研究人员发现 Muon 这个“指挥家”很不错。它有一个绝招叫“正交化”(Orthogonalization)。
    • 比喻:想象乐团里的乐手们(梯度)一开始乱成一团,有的声音太大,有的太小,甚至有人互相干扰(梯度秩坍塌)。Muon 的“正交化”就像是一个严厉的指挥,强行让所有乐手站成整齐的方阵,确保每个人都在自己的轨道上,互不干扰,这样演奏(训练)效率就高了。
  • 问题:虽然 Muon 已经很棒了,但作者发现,在让乐手站好队形(正交化)之后,如果直接开始演奏,声音的音量(更新幅度)可能还是忽大忽小,不够稳定。

2. 核心创新:MUON+ 做了什么?

作者提出了 MUON+,它只在 Muon 的基础上加了一个非常简单但极其有效的步骤:“额外归一化”(Additional Normalization Step)。

  • 比喻
    • Muon 的做法:指挥让乐手站好队形(正交化),然后直接喊“开始演奏!”。
    • MUON+ 的做法:指挥让乐手站好队形后,多做一个动作——给每个乐手发一个“音量调节器”(归一化)。
    • 具体操作:这个“音量调节器”会检查每个乐手(或者每一行/每一列的乐手组)的声音大小,把太响的调小,把太轻的调大,确保大家出来的声音力度均匀、平衡

3. 这个“音量调节”有什么用?

论文通过大量的实验(在从 1 亿参数到 10 亿参数不等的模型上测试)发现,加上这个“音量调节”后:

  1. 训练更稳:就像乐团演奏时,不会因为某个声部突然太吵而盖过其他声部,整个训练过程更加平稳,不容易“翻车”。
  2. 效果更好:最终训练出来的模型(交响曲的成品)质量更高,理解能力和生成能力更强(困惑度 Perplexity 更低)。
  3. 适应性强
    • 不管模型是“小乐团”(1 亿参数)还是“超级乐团”(10 亿参数),这个方法都管用。
    • 不管训练时间是“短跑”(计算最优,数据量刚好)还是“马拉松”(数据量极大,训练很久),它都能保持优势。
    • 它对“指挥”(学习率)的敏感度降低了,也就是说,即使你选的学习率不是最完美的,加了 MUON+ 也能练出好结果。

4. 实验结果:真的有效吗?

作者做了很多测试,结果非常漂亮:

  • GPT 风格模型:在 1.3 亿到 7.7 亿参数的模型上,MUON+ 总是比原来的 Muon 表现更好,错误率明显降低。
  • LLaMA 风格模型:在 6000 万到 10 亿参数的模型上,同样全面胜出。
  • 超大规模训练:即使把训练数据量增加到原来的 10 倍(从“计算最优”变成“工业级”),MUON+ 依然能保持领先,说明它非常耐用。

5. 总结:为什么这很重要?

这就好比在造火箭。

  • Muon 已经是一个很好的火箭推进系统了。
  • MUON+ 并没有发明新的燃料,也没有把火箭造得更大,它只是在推进器后面加了一个小小的“稳定翼”(归一化步骤)。
  • 结果就是:火箭飞得更稳、更准,而且能飞得更远,成本还几乎没增加。

一句话总结
这篇论文告诉我们,在训练大 AI 模型时,在让参数“站好队”(正交化)之后,再给它们“调好音量”(归一化),就能让模型学得更快、更稳、更好。这是一个简单、低成本但回报极高的改进。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →