HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

本文提出 HTMuon 算法,通过引入重尾谱校正机制解决 Muon 优化器过度抑制重尾权重谱的问题,在 LLM 预训练和图像分类任务中显著提升了性能并提供了相应的理论收敛保证。

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HTMuon 的新型“训练助手”,专门用来帮助大型人工智能模型(LLM)学得更好、更快。

为了让你轻松理解,我们可以把训练 AI 模型想象成教一个超级聪明的学生(模型)通过做大量的练习题(数据)来掌握知识。在这个过程中,我们需要一个“教练”(优化器)来告诉学生:“这道题你哪里做错了?下一步该怎么改?”

1. 现有的教练(Muon)有什么问题?

以前,大家最常用的教练叫 Muon。它很厉害,因为它不仅看学生每一道题的对错,还能看出题目之间的联系(比如,这道题做错了,可能意味着另一类题也做错了)。

但是,Muon 有一个致命的习惯
它有一个“强迫症”,认为所有方向的错误都一样重要

  • 比喻:想象学生在跑步。有些方向是平坦的大道(信号强,学得快),有些方向是布满荆棘的泥潭(全是噪音,学得很慢)。Muon 这个教练会强行把学生在“大道”和“泥潭”上的步长调整得一模一样
  • 后果:学生在“泥潭”里(噪音方向)浪费了大量精力,甚至越跑越偏;而在“大道”上又没跑够。这就导致模型虽然学了不少,但最后的效果(泛化能力)不够好,就像学生虽然背了很多书,但遇到新题还是不会做。

2. 什么是“重尾”(Heavy-Tailed)?

论文里提到了一个听起来很学术的词:重尾(Heavy-Tailed)

  • 比喻:想象一下学生的成绩分布。
    • 轻尾(Muon 的现状):大部分学生成绩都差不多,都在平均分附近,很难出现特别拔尖或特别差的学生。这就像 Muon 把步长都拉平了,导致模型变得“平庸”。
    • 重尾(HTMuon 的目标):允许出现一些特别突出的“天才”方向(大步长),同时也允许一些特别弱的“噪音”方向(小步长,甚至忽略)。这种分布更符合真实世界的规律——真正的学习往往是由少数几个关键突破点驱动的。

3. HTMuon 是怎么做的?

HTMuon 就是 Muon 的“升级版”,它给教练加了一个智能调节器

  • 核心操作:它不再把步长强行拉平,而是根据方向的重要性进行**“幂次调整”**(把步长开一个小于 1 的方,比如 0.125 次方)。
  • 通俗解释
    • 对于重要的方向(大道):HTMuon 会放大步长,让学生跑得更快、更坚决。
    • 对于不重要的方向(泥潭/噪音):HTMuon 会缩小步长,甚至让学生“轻轻点一下”就过,避免在噪音里浪费时间。
  • 结果:这种“重尾”的更新方式,让模型能更敏锐地捕捉到数据中的核心规律,而不是被噪音带偏。

4. 效果怎么样?

论文在多个任务上做了测试,效果非常显著:

  1. 语言模型(LLM)
    • 在训练像 LLaMA 这样的大模型时,HTMuon 让模型在同样的训练量下,“困惑度”(Perplexity,衡量模型懂不懂人话的指标,越低越好)降低了近 1 个点
    • 比喻:这就像同样的学习时间,用 HTMuon 教出来的学生,阅读理解能力直接从“大学生”提升到了“研究生”水平。
  2. 图像识别
    • 在识别图片(如 CIFAR、ImageNet)的任务中,HTMuon 也让模型的准确率有了明显的提升。
  3. 兼容性
    • 它不仅能独立使用,还能像“插件”一样,直接加在 Muon 的其他变种上,让它们变得更强。

5. 理论上的“为什么”

论文还从数学角度解释了为什么这招管用:

  • 重尾自我正则化理论 (HT-SR):研究发现,那些真正学得好的神经网络,它们的内部结构(权重分布)天然就是“重尾”的。也就是说,好的模型天生就喜欢“重尾”分布
  • HTMuon 只是顺应了这种天性,而不是强行改变它。它让模型在训练过程中自然地形成了这种健康的“重尾”结构,从而变得更聪明、更稳定。

总结

HTMuon 就像是一个懂得因材施教的超级教练
它不再搞“一刀切”,而是把力气花在刀刃上

  • 关键方向上,它鼓励学生大胆冲刺
  • 噪音方向上,它让学生轻描淡写

这种策略不仅让 AI 模型学得更快、更准,还让它们在处理新任务时表现得更加出色。对于想要训练大模型的研究者和公司来说,这是一个既简单又强大的新工具。