Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本文提出了名为 Mousse 的新型优化器,它通过结合 Shampoo 的曲率感知预条件技术与 Muon 的谱优化方法,在黎曼流形上实现了各向异性的信任区域约束,从而在几乎不增加计算开销的情况下显著提升了语言模型的训练效率。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Mousse(慕斯)的新算法,它是用来训练大型人工智能模型(比如大语言模型)的“加速器”。

为了让你轻松理解,我们可以把训练 AI 模型想象成在崎岖不平的山地里寻找最低点(山谷)的过程

1. 背景:之前的登山者(Muon)

在 Mousse 出现之前,有一种很流行的登山方法叫 Muon

  • 它的做法:Muon 就像是一个严格守纪律的登山队。它规定,无论你在哪个方向走,每一步的“最大跨度”必须完全一样(就像给每个人发了一根长度固定的登山杖)。
  • 优点:这种纪律性让队伍走得很稳,不会乱跑,训练速度很快。
  • 缺点:现实中的山(AI 的损失函数地形)是非常复杂的。有的地方是陡峭的悬崖(高曲率),有的地方是平坦的草地(低曲率)。
    • Muon 的“一刀切”策略有个大问题:在陡峭的悬崖边,它不敢迈大步(怕摔死);在平坦的草地上,它又不敢迈大步(因为规则限制了最大步长)。结果就是,该快的时候快不起来,该稳的时候又太保守。

2. 主角登场:Mousse(慕斯)

Mousse 的名字来源于一种甜点(慕斯),寓意它像慕斯一样,既保留了 Muon 的“结构”(像慕斯的骨架),又加入了“顺滑”的曲率感知(像慕斯的口感)

  • 核心创新:Mousse 发现,Muon 的问题在于它是在“错误的地图”上走路的。它没有考虑到山地的曲率(哪里陡、哪里平)。
  • Mousse 的做法
    1. 先“熨平”地形:Mousse 会先利用一种叫 Shampoo 的技术,给地图做一个“预处理”。想象一下,它把陡峭的悬崖“压平”,把平坦的草地“垫高”,让原本崎岖的山地瞬间变成平坦的球面
    2. 再执行 Muon 的规则:在这个被“熨平”后的新地图上,Mousse 再让 Muon 那个“严格守纪律”的登山队出发。
    3. 最后还原:走完后,再把步长还原回真实的地形。

通俗比喻
想象你在玩一个迷宫游戏

  • Muon 是拿着一个固定长度的尺子在走,不管前面是墙还是空地,它都只能走尺子那么长。
  • Mousse 则是先拿一个魔法透镜(Shampoo 预处理)看迷宫。透过这个透镜,所有的墙都变矮了,所有的坑都填平了,迷宫变得像操场一样平坦。
  • 然后,Mousse 依然拿着那把固定长度的尺子(Muon 的纪律)在平坦的操场上走。
  • 因为操场是平的,尺子能发挥最大效率;等走完了,再透过透镜看回原来的迷宫,你会发现你其实已经走了很远很远的路,而且避开了所有悬崖。

3. 为什么 Mousse 更厉害?

论文通过实验证明,Mousse 比 Muon 强在两点:

  1. 跑得更快(省步数)
    在训练 8 亿参数(800M)的模型时,Mousse 比 Muon 少用了约 12% 的步数就能达到同样的效果。

    • 比喻:如果 Muon 需要走 100 步下山,Mousse 只需要走 88 步就能到山脚,而且走得更稳。
  2. 不费力气(低开销)
    以前有些高级算法(比如 SOAP)虽然也能感知地形,但它们太“重”了,计算量大,像背着大石头爬山。

    • Mousse 很聪明,它只增加了3%的计算时间,却换来了巨大的性能提升。它就像给登山队配了一副轻便的护目镜,而不是让他们背个沉重的背包。

4. 关键技巧(如何让它稳定)

为了让这个“魔法透镜”不失效,作者还加了两个小补丁:

  • 迹归一化 (Trace Normalization):就像给地图做“标准化”,防止某些层的数据太大或太小,导致透镜变形。
  • 谱调节 (Spectral Tempering):就像调节透镜的“焦距”。如果焦距太猛(过度矫正),反而会把路看歪;Mousse 发现把焦距调得柔和一点(参数设为 0.125 而不是 0.25),效果反而最好。

总结

Mousse 就是给原本就很优秀的 Muon 算法,加上了**“地形感知眼镜”
它不再盲目地用同一种步长去走所有路,而是先看清哪里陡、哪里平,把路“修平”后再走。这使得 AI 模型训练得
更快、更稳、更省资源**。对于想要训练大模型的公司来说,这意味着能省下大量的时间和电费。