The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：当我们训练人工智能（神经网络）时，优化算法（比如 Adam 或 Muon）不仅仅是“教”模型学习，它们还在悄悄地把模型“塑造”成某种特定的形状。 这种看不见的塑造倾向，被称为“隐式偏差”（Implicit Bias）。

为了让你更容易理解，我们可以把训练神经网络想象成在茫茫大海上寻找一座名为“完美答案”的岛屿。

1. 核心概念：海上的迷雾与指南针

神经网络（模型）：就像一艘船。
训练数据：是海上的灯塔，告诉船哪里是安全的（分类正确），哪里是危险的（分类错误）。
优化算法（Optimizer）：是船上的指南针和舵手。它的任务是指挥船往“错误最小”的方向开。
隐式偏差（Implicit Bias）：这是论文的核心。虽然所有算法的目标都是“错误最小”，但不同的指南针（算法）会让船以不同的姿态靠岸。有的船会笔直地撞向岛屿（最大化某种“安全距离”），有的船则会侧着身子靠岸。

2. 以前的发现：最陡下降（Steepest Descent）

以前的研究发现，如果你用一种叫“最陡下降”的简单算法（就像一个人闭着眼睛，只往脚下最陡的下坡路走），船最终会停在一个特定的位置：最大化“安全距离”（Margin）。

想象一下，船要停在岛屿边缘，为了安全，它希望离悬崖（错误分类的边界）越远越好。最陡下降算法会让船停在离悬崖最远的地方。这就像是在悬崖边找一块最平坦、最安全的草地扎营。

3. 这篇论文的新发现：带“动量”的算法

现在的流行算法（如 Adam 和 Muon）不仅仅是看脚下的路，它们还有**“动量”（Momentum）**。

动量是什么？ 就像骑自行车下坡。如果你只是看脚下，你会走得很慢。但如果你利用惯性（动量），你会冲得更快，而且不容易被小石子绊倒。
论文的问题：这种“惯性”会不会改变船最终停靠的姿态？它还会停在离悬崖最远的地方吗？还是会停在别的地方？

4. 论文的答案：不同的算法，不同的“靠岸姿势”

作者发现，是的，不同的算法确实会让船停在不同的“安全区”。这取决于你用的是哪种“指南针”：

A. Adam 算法：像“走钢丝”

特点：Adam 是目前最流行的算法，它非常灵活，能自动调整步长。
论文发现：当学习率（步长）慢慢变小时，Adam 会让船停在最大化 $\ell_\infty$ 范数的位置。
通俗比喻：想象你在走钢丝。 $\ell_\infty$ 范数关注的是最危险的那一根绳子。Adam 的策略是：“只要我最危险的那根绳子（最大的那个误差）足够安全，我就觉得我很安全。”它不在乎其他绳子是不是松松垮垮，它只死磕那个最大的短板。
结果：Adam 倾向于让模型对最难的样本特别宽容，从而最大化那个“最难的样本”的安全距离。

B. Muon 算法：像“整理书架”

特点：Muon 是最近很火的新算法，专门用来处理神经网络中的“矩阵”（可以想象成书架上的书）。
论文发现：Muon 会让船停在**最大化谱范数（Spectral Norm）**的位置。
通俗比喻：谱范数关注的是整个书架的整体稳定性，而不是某一本特定的书。Muon 的策略是：“我要让整组书架（权重矩阵）看起来最稳固、最平衡。”它不只看单个数字，而是看矩阵作为一个整体的“能量”或“张力”。
结果：Muon 倾向于让模型在整体结构上达到一种平衡，最大化整体的安全距离。

C. 混合算法（Muon-Adam）：像“团队作战”

特点：有时候我们会把 Muon 用在矩阵部分，把 Adam 用在其他部分。
论文发现：这种混合算法会同时最大化两种距离的最大值。
通俗比喻：就像一支特种部队，一部分人负责保护整体结构（Muon），另一部分人负责死磕最难的点（Adam）。最终，整个团队的安全距离取决于两者中更严格的那个标准。

5. 为什么这很重要？（生活中的启示）

想象你在教一个学生（AI）做题：

如果你用Adam教他，他可能会变成那种**“死磕难题”**的学生。只要最难的题做对了，他觉得其他题简单，整体就稳了。
如果你用Muon教他，他可能会变成那种**“追求整体平衡”**的学生。他不仅要做对难题，还要保证所有知识点的结构都很稳固，没有短板。

这篇论文的意义在于：
它告诉我们，选择优化算法不仅仅是为了“算得快”，更是在选择“什么样的模型”。

如果你希望模型对极端情况（最难样本）鲁棒，选 Adam。
如果你希望模型整体结构稳定，选 Muon。
如果你想要特定的混合效果，可以组合使用。

总结

这篇论文就像是一份**“航海指南”**。它告诉未来的船长（AI 研究人员）：

“嘿，别以为所有算法都能把你带到同一个终点。带上 Adam，你会停在‘最难点’最远的地方；带上 Muon，你会停在‘整体结构’最稳的地方。你想让船停在哪里，就选哪个指南针吧！”

这不仅解释了为什么现在的 AI 模型表现这么好（因为它们无意中找到了很好的“安全区”），也给了科学家一把钥匙，可以通过主动选择算法来设计具有特定特性的 AI 模型。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：深度神经网络即使在没有显式正则化的情况下，往往也能展现出卓越的泛化能力。这一现象通常归因于优化算法的隐式偏差（Implicit Bias），即梯度下降类算法倾向于收敛到具有特定性质的解（通常是最大化分类间隔的解）。
现有局限：
- 早期的研究主要集中在梯度下降（GD）和线性模型上，证明了 GD 倾向于最大化 $\ell_2$ 间隔。
- 近年来，像 Adam 和 Muon 这样的动量优化器在训练大语言模型（LLM）和视觉 Transformer 中变得极为普遍，但对其隐式偏差的理论理解尚不充分。
- 现有针对 Adam 和 Muon 的隐式偏差分析主要局限于线性模型。
核心问题：在更广泛的平滑齐次模型（Smooth Homogeneous Models）（如带有平滑激活函数的深度网络）中，Adam 和 Muon 等动量优化器的隐式偏差是什么？它们是否也倾向于最大化某种形式的间隔？如果是，是哪种范数下的间隔？

2. 方法论 (Methodology)

作者提出并扩展了一个统一的理论框架，将动量优化器视为**近似最速下降（Approximate Steepest Descent）**轨迹。

2.1 核心定义与假设

模型假设：考虑平滑（ $C^1$ ）且 $L$ -齐次（Homogeneous）的模型 $f(x; \alpha\theta) = \alpha^L f(x; \theta)$ 。这涵盖了线性网络、ReLU 网络（需弱假设）以及带有平滑激活函数（如 $z \to \max(0, z)^q, q>1$ ）的网络。
损失函数：对数凹、指数尾部的损失函数（如指数损失、逻辑损失）。
学习率调度：假设学习率 $\eta(t)$ 满足 $\int_0^\infty \eta(t) dt = \infty$ ，且对于动量优化器， $\eta(t)$ 需衰减得足够快（ $o(t^{\frac{1}{L}-1})$ ）。

2.2 理论框架：近似最速下降

作者引入了**近似最速下降（Approximate Steepest Descent）**的概念，作为连接标准最速下降与复杂动量优化器的桥梁。

标准最速下降：更新方向严格对齐负梯度在特定范数下的对偶方向。
近似最速下降：允许更新方向与负梯度方向不完全对齐，但在渐近意义上（随着时间 $t \to \infty$ ），这种对齐程度趋近于 1。
关键洞察：
- 对于动量最速下降（Momentum Steepest Descent, MSD），在衰减学习率下，动量估计 $m_t$ 渐近地跟随显著梯度的坐标，使得 $m_t / g_t \to 1$ 。
- 对于 Adam（无稳定性常数 $\epsilon$ ），其更新规则 $\frac{\hat{m}_t}{\sqrt{\hat{v}_t}}$ 在渐近意义上表现为符号梯度下降（Sign Gradient Descent），即对应于 $\ell_\infty$ 范数的最速下降。

2.3 主要分析工具

KKT 条件：证明优化轨迹的极限方向是最大间隔问题的 KKT 点（Karush-Kuhn-Tucker 点）。
软间隔（Soft Margin）：引入软间隔 $\tilde{\gamma}(\theta)$ 作为硬间隔的代理，证明在损失趋于 0 时，软间隔与硬间隔收敛一致。
方向收敛假设：假设参数方向 $\frac{\theta_t}{\|\theta_t\|}$ 收敛到某个 $\bar{\theta}$ ，且该方向具有正间隔。

3. 主要贡献 (Key Contributions)

归一化最速下降的推广：
- 将 Tsilivis 等人 (2025) 关于未归一化最速下降的结果扩展到归一化最速下降（Normalized Steepest Descent），并允许任意学习率调度（只要积分发散）。
- 证明了归一化最速下降轨迹的极限方向是相应范数下最大间隔问题的 KKT 点。
动量优化器的隐式偏差证明：
- Muon：证明了 Muon 在平滑齐次模型下，其隐式偏差是最大化基于**谱范数（Spectral Norm）**定义的间隔。对于多层网络，对应的是最大谱范数（Max-Spectral Norm, $\|\cdot\|_{msp}$ ）。
- Adam：证明了在不使用稳定性常数（ $\epsilon=0$ ）的情况下，Adam 的隐式偏差是最大化 $\ell_\infty$ 间隔。
- 复合优化器：证明了 Muon-Signum（矩阵用 Muon，标量用 Signum）和 Muon-Adam 的隐式偏差是最大化混合范数间隔。例如，Muon-Adam 最大化 $\max(\frac{\eta_A}{\eta_M}\|W\|_{msp}, \|u\|_\infty)$ 。
统一框架：
- 建立了一个通用的“近似最速下降”框架，表明只要动量机制在衰减学习率下能渐近地忠实于显著梯度坐标，该优化器就具有最大间隔偏差。

4. 实验结果 (Results)

作者在 MNIST 数据集（偶数/奇数分类）上进行了实验，使用两层齐次网络（隐藏层），对比了 NGD、Signum、Adam、Muon 和 Muon-Adam。

验证理论预测：
- NGD（含/不含动量）：最大化 $\ell_2$ 间隔。
- Signum 和 Adam：最大化 $\ell_\infty$ 间隔。实验显示 Signum 在 $\ell_\infty$ 间隔上略优于 Adam，这与 Adam 近似于符号梯度下降的理论一致。
- Muon：最大化 $\|\cdot\|_{msp}$ （最大谱范数）间隔。
- Muon-Adam：最大化混合范数间隔 $\max(\|W\|_{msp}, \|u\|_\infty)$ 。
激活函数影响：实验涵盖了平滑的平方 ReLU ( $z^2$ ) 和非平滑的 ReLU。理论主要基于平滑模型，但实验表明结论在 ReLU 网络中也表现出类似的趋势（尽管 ReLU 的严格理论证明需要额外的轨迹稳定性假设）。
方向收敛性：通过计算迭代方向与最终方向的余弦相似度，验证了假设 (T2)，即参数方向在训练后期确实收敛。

5. 意义与影响 (Significance)

理论扩展：将隐式偏差的研究从线性模型和平滑模型中的梯度下降，成功扩展到了现代深度学习中最常用的动量优化器（Adam, Muon）和更广泛的齐次模型类别。
解释优化器行为：从理论层面解释了为什么不同的优化器会导致不同的泛化性能。例如，Adam 倾向于 $\ell_\infty$ 间隔，这可能与其在稀疏特征或特定数据分布下的表现有关；而 Muon 倾向于谱范数间隔，这可能解释了其在训练大型 Transformer 时的有效性。
指导实践：
- 为选择优化器提供了理论依据：如果希望模型具有特定的间隔特性（如 $\ell_\infty$ 鲁棒性或谱范数特性），可以选择对应的优化器。
- 揭示了 Adam 在 $\epsilon \to 0$ 时的行为本质是符号梯度下降，这有助于理解其在实际训练中的表现。
未来方向：
- 论文指出了在非平滑模型（如标准 ReLU 网络）上证明方向收敛性的困难，这是未来研究的重要方向。
- 探讨了隐式偏差对对抗鲁棒性和数据重建攻击的潜在影响。

总结

这篇论文通过建立“近似最速下降”的理论框架，严谨地证明了 Adam 和 Muon 在平滑齐次神经网络中分别倾向于最大化 $\ell_\infty$ 间隔和谱范数间隔。这一发现填补了现代优化器隐式偏差理论的空白，为理解大模型训练动力学提供了新的视角，并强调了优化器选择对模型最终解的几何性质（即隐式正则化）的决定性作用。