On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

该论文通过引入具有层可组合性的均值归一化算子范数,将 AdamW 和 Muon 等优化器统一为矩阵算子范数下的最速下降法,从而提出了能实现宽度无关平滑度保证及跨宽度超参数迁移的 MOGA 优化器,并在 GPT-2 和 LLaMA 的大规模预训练中展现出比 Muon 更优的效率与稳定性。

Ruihan Xu, Jiajin Li, Yiping Lu

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个深度学习中的核心难题:当我们把神经网络的“大脑”(即网络宽度)变大时,如何调整它的“学习步长”(学习率),才能让它既学得快,又不走火入魔?

想象一下,你正在教一群学生(神经网络)学习。

  • 窄网络:就像只有 10 个学生的小班。
  • 宽网络:就像有 1000 个学生的大班。

目前的困境是:在小班里行之有效的教学节奏(学习率),一旦直接套用到大班,要么学生听得太快跟不上了(发散/崩溃),要么听得慢吞吞效率极低。这篇论文就是为了解决这个“大班教学”的难题。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心问题:为什么“大班”难教?

在数学上,这被称为**“宽度缩放”(Width Scaling)**问题。
现有的优化器(如 AdamW 或 Muon)就像不同的“教学策略”。

  • 旧策略的缺陷:以前的策略在计算“步长”时,没有考虑到学生人数的变化。当学生人数(网络宽度 ww)增加时,整个班级的“噪音”和“混乱度”会非线性地增加。这就好比在 10 人的教室里大声说话很合适,但在 1000 人的礼堂里,同样的音量会让所有人听不清,甚至引发骚乱。
  • 后果:如果你把小模型调好的学习率直接用到大模型上,大模型往往会训练失败。

2. 新视角:把优化看作“几何导航”

作者提出了一种全新的视角:把优化过程看作是在一个复杂的“地形”上寻找最低点(损失最小值)。

  • 地形(Loss Landscape):想象成一片起伏的山地,我们要找谷底。
  • 优化器:就是向导。
  • 步长(学习率):向导决定迈多大一步。

作者发现,很多流行的优化器(如 AdamW, Muon)其实都是在特定的“几何规则”下,寻找下降最快的方向(最陡下降法)。

  • Muon:像是一个拿着精密罗盘的向导,试图在二维平面上找最陡的路(基于谱范数/2 范数)。
  • AdamW:像是一个更随性的向导,主要看每个方向上的符号(基于无穷范数)。

关键发现
作者发现,Muon 这种“精密罗盘”策略,当学生人数(宽度)增加时,地形的**“崎岖程度”(平滑度常数)**会急剧上升(大约增加 w\sqrt{w} 倍)。这意味着,人越多,路越陡、越乱,向导必须把步子迈得极小才能不摔跟头。这就是为什么 Muon 在大模型上很难调参的原因。

3. 解决方案:引入“平均化”的新地图

为了解决这个问题,作者发明了一种新的**“平均化”几何规则**(Mean-Normalized Operator Norms)。

通俗比喻:
想象你在测量一群人的身高。

  • 旧方法(标准范数):直接看最高那个人有多高。如果人多了,最高的人可能更高,导致测量结果随人数膨胀。
  • 新方法(平均化范数):看平均身高。无论人多少,平均身高保持在一个稳定的范围内。

作者通过这种“平均化”处理,重新定义了地形的测量方式。

  • 效果:在这种新地图下,无论学生人数(网络宽度)怎么变,地形的**“崎岖程度”(平滑度)**都保持不变!
  • 结论:既然地形不再随人数变乱,那么**“步长”(学习率)也就无需随人数调整了**。

4. 新优化器:MOGA

基于这个理论,作者提出了一个新的优化器家族,叫 MOGA(Matrix Operator Geometry Aware,矩阵算子几何感知)。

MOGA 的核心操作非常简单,就像给每个学生的“动作”做**“行归一化”**(Row Normalization):

  • 它不关心整个矩阵的复杂结构,而是简单地让每一行(代表一个神经元或特征)的更新幅度保持平衡。
  • 行归一化(Row Normalization):就像给每个小组分配任务时,确保每个小组的总工作量是固定的,不会因为小组人数多了就乱套。

MOGA 的两大优势:

  1. 超参数迁移(Hyperparameter Transfer):这是最厉害的一点。如果你在小模型(比如 1 亿参数)上调好了学习率,你可以直接把这个学习率用到大模型(比如 100 亿参数)上,不需要重新调参!就像给小班设计的课表,直接拿来给大班用,效果依然完美。
  2. 训练效率:在大规模训练(特别是训练后期,损失值很低时),MOGA 比 Muon 和 AdamW 跑得更快、更稳。

5. 实验验证:真的好用吗?

作者在 GPT-2 和 LLaMA 这样的大语言模型上进行了测试:

  • 学习率迁移:从 GPT-2 Small(小)到 GPT-XL(大),MOGA 的最佳学习率几乎完全不变。这证明了理论的正确性。
  • 训练速度:在训练后期(低损失阶段),MOGA 的表现优于 Muon,收敛得更快。特别是在数据量很大(大 Token 预算)的情况下,MOGA 的优势更明显。

总结:这篇论文告诉我们什么?

  1. 旧地图不行:以前用来指导大模型训练的“几何规则”(如 Muon 的谱范数)在人数(宽度)增加时会失效,导致路变陡、步长难调。
  2. 新地图很稳:作者发明的“平均化”几何规则,让地形在任何规模下都保持“平坦”和“稳定”。
  3. 一招鲜,吃遍天:基于新规则设计的 MOGA 优化器,实现了**“一次调参,通吃大小模型”**。你不需要为不同大小的模型重新调学习率,这大大降低了训练大模型的门槛和成本。
  4. 行归一化是王道:在 MOGA 家族中,**行归一化(Row Normalization)**表现最好,它在保持训练稳定的同时,没有过度限制模型的学习能力。

一句话总结
这篇论文就像给深度学习界提供了一套**“万能课表”**。以前,老师(优化器)需要根据班级人数(模型宽度)不断调整讲课速度(学习率);现在,有了 MOGA 这套新规则,无论班级是 10 人还是 1000 人,老师都可以用同样的节奏讲课,而且效果一样好,甚至在大班后期跑得更快。