The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

本文通过理论分析与实验验证,证明了在平滑齐次神经网络中,Muon、MomentumGD、Signum 及 Adam 等动量优化器在衰减学习率下近似于不同范数下的最陡下降轨迹,从而展现出对相应范数最大间隔 KKT 点的隐式偏差。

Eitan Gronich, Gal Vardi

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:当我们训练人工智能(神经网络)时,优化算法(比如 Adam 或 Muon)不仅仅是“教”模型学习,它们还在悄悄地把模型“塑造”成某种特定的形状。 这种看不见的塑造倾向,被称为“隐式偏差”(Implicit Bias)。

为了让你更容易理解,我们可以把训练神经网络想象成在茫茫大海上寻找一座名为“完美答案”的岛屿

1. 核心概念:海上的迷雾与指南针

  • 神经网络(模型):就像一艘船。
  • 训练数据:是海上的灯塔,告诉船哪里是安全的(分类正确),哪里是危险的(分类错误)。
  • 优化算法(Optimizer):是船上的指南针和舵手。它的任务是指挥船往“错误最小”的方向开。
  • 隐式偏差(Implicit Bias):这是论文的核心。虽然所有算法的目标都是“错误最小”,但不同的指南针(算法)会让船以不同的姿态靠岸。有的船会笔直地撞向岛屿(最大化某种“安全距离”),有的船则会侧着身子靠岸。

2. 以前的发现:最陡下降(Steepest Descent)

以前的研究发现,如果你用一种叫“最陡下降”的简单算法(就像一个人闭着眼睛,只往脚下最陡的下坡路走),船最终会停在一个特定的位置:最大化“安全距离”(Margin)

想象一下,船要停在岛屿边缘,为了安全,它希望离悬崖(错误分类的边界)越远越好。最陡下降算法会让船停在离悬崖最远的地方。这就像是在悬崖边找一块最平坦、最安全的草地扎营。

3. 这篇论文的新发现:带“动量”的算法

现在的流行算法(如 AdamMuon)不仅仅是看脚下的路,它们还有**“动量”(Momentum)**。

  • 动量是什么? 就像骑自行车下坡。如果你只是看脚下,你会走得很慢。但如果你利用惯性(动量),你会冲得更快,而且不容易被小石子绊倒。
  • 论文的问题:这种“惯性”会不会改变船最终停靠的姿态?它还会停在离悬崖最远的地方吗?还是会停在别的地方?

4. 论文的答案:不同的算法,不同的“靠岸姿势”

作者发现,是的,不同的算法确实会让船停在不同的“安全区”。这取决于你用的是哪种“指南针”:

A. Adam 算法:像“走钢丝”

  • 特点:Adam 是目前最流行的算法,它非常灵活,能自动调整步长。
  • 论文发现:当学习率(步长)慢慢变小时,Adam 会让船停在最大化 \ell_\infty 范数的位置。
  • 通俗比喻:想象你在走钢丝。\ell_\infty 范数关注的是最危险的那一根绳子。Adam 的策略是:“只要我最危险的那根绳子(最大的那个误差)足够安全,我就觉得我很安全。”它不在乎其他绳子是不是松松垮垮,它只死磕那个最大的短板。
  • 结果:Adam 倾向于让模型对最难的样本特别宽容,从而最大化那个“最难的样本”的安全距离。

B. Muon 算法:像“整理书架”

  • 特点:Muon 是最近很火的新算法,专门用来处理神经网络中的“矩阵”(可以想象成书架上的书)。
  • 论文发现:Muon 会让船停在**最大化谱范数(Spectral Norm)**的位置。
  • 通俗比喻:谱范数关注的是整个书架的整体稳定性,而不是某一本特定的书。Muon 的策略是:“我要让整组书架(权重矩阵)看起来最稳固、最平衡。”它不只看单个数字,而是看矩阵作为一个整体的“能量”或“张力”。
  • 结果:Muon 倾向于让模型在整体结构上达到一种平衡,最大化整体的安全距离。

C. 混合算法(Muon-Adam):像“团队作战”

  • 特点:有时候我们会把 Muon 用在矩阵部分,把 Adam 用在其他部分。
  • 论文发现:这种混合算法会同时最大化两种距离的最大值
  • 通俗比喻:就像一支特种部队,一部分人负责保护整体结构(Muon),另一部分人负责死磕最难的点(Adam)。最终,整个团队的安全距离取决于两者中更严格的那个标准

5. 为什么这很重要?(生活中的启示)

想象你在教一个学生(AI)做题:

  • 如果你用Adam教他,他可能会变成那种**“死磕难题”**的学生。只要最难的题做对了,他觉得其他题简单,整体就稳了。
  • 如果你用Muon教他,他可能会变成那种**“追求整体平衡”**的学生。他不仅要做对难题,还要保证所有知识点的结构都很稳固,没有短板。

这篇论文的意义在于:
它告诉我们,选择优化算法不仅仅是为了“算得快”,更是在选择“什么样的模型”

  • 如果你希望模型对极端情况(最难样本)鲁棒,选 Adam。
  • 如果你希望模型整体结构稳定,选 Muon。
  • 如果你想要特定的混合效果,可以组合使用。

总结

这篇论文就像是一份**“航海指南”**。它告诉未来的船长(AI 研究人员):

“嘿,别以为所有算法都能把你带到同一个终点。带上 Adam,你会停在‘最难点’最远的地方;带上 Muon,你会停在‘整体结构’最稳的地方。你想让船停在哪里,就选哪个指南针吧!”

这不仅解释了为什么现在的 AI 模型表现这么好(因为它们无意中找到了很好的“安全区”),也给了科学家一把钥匙,可以通过主动选择算法来设计具有特定特性的 AI 模型。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →