Adam Converges Without Any Modification On Update Rules

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个困扰人工智能领域多年的“悬案”：为什么 Adam 算法（目前最流行的 AI 训练工具）在理论上被证明会“跑飞”（发散），但在实际应用中却总是表现良好，甚至能训练出像 Llama、GPT 这样的大模型？

简单来说，作者发现：理论家们和实际工程师们玩的是两套不同的规则。

下面我用几个生动的比喻来解释这篇论文的核心发现。

1. 之前的困惑：为什么理论说“会翻车”，实际却“很稳”？

想象一下，Adam 算法是一个开车的人，而我们要训练 AI 模型就像是在开车去目的地。

理论界的担忧（Reddi 等人的发现）：
以前的理论家（Reddi 等人）做了一个实验：他们先选定了“油门和刹车”的参数（ $\beta_1, \beta_2$ ），然后专门去找一条最刁钻、最坑爹的路（构造一个特定的数学问题），结果发现车确实开翻了（发散）。
- 比喻： 就像有人先定好“车速必须是 100 码”，然后专门找了一个全是急转弯的赛道，证明“在这个速度下，这辆车一定会翻”。
实际界的困惑：
但是，现实中的工程师们（训练大模型的人）做法完全不同。他们是先定好路（数据集和问题），然后再去调整车速和方向盘（调整参数 $\beta_1, \beta_2$ ）。
- 比喻： 工程师们说：“我先定好要去北京（固定问题），然后我会根据路况调整车速。只要我调得对，车就能稳稳开到。”

这篇论文的核心发现就是： 理论家们之前的“翻车”结论，是因为他们先定参数再找路，这是一种“作弊”的测试方法。而在先定路再调参的真实场景下，Adam 只要参数调对了，是绝对安全的，根本不会翻车。

2. 核心发现：参数的“生死线”

作者通过数学证明，在参数空间（ $\beta_1$ 和 $\beta_2$ 的二维平面）上画出了一条**“生死线”**（Phase Transition）。

$\beta_2$ 是“惯性”的关键：
想象 $\beta_2$ 控制着车的惯性记忆。
- 如果 $\beta_2$ 太小（惯性不足）： 就像车在冰面上，稍微有点风吹草动（数据噪声），车就会失控乱窜，最后冲出悬崖（发散到无穷大）。
- 如果 $\beta_2$ 足够大（惯性充足）： 车就像在高速公路上，虽然路面有颠簸，但巨大的惯性让车身非常稳，能平滑地驶向目的地（收敛）。
$\beta_1$ 是“方向修正”：
只要 $\beta_2$ 足够大（车很稳）， $\beta_1$ （方向修正）可以在一个很大的范围内随意调整，车都能开稳。

结论： 只要把 $\beta_2$ 调得足够大，Adam 就能保证收敛。这解释了为什么大家默认设置 $\beta_2=0.999$ 时，模型训练得那么好。

3. 一个反直觉的“秘密”：批次大小（Batch Size）的影响

这是论文最精彩、最实用的部分。作者发现，这条“生死线”不是固定的，它取决于你一次看多少数据（Batch Size）。

比喻：
- 小批量（Batch Size 小）： 就像你每次只透过一个小窗户看路况，视野很窄，噪声很大，车很容易晃。这时候，你需要**更大的惯性（更大的 $\beta_2$ ）**来稳住车身，防止翻车。
- 大批量（Batch Size 大）： 就像你站在高塔上俯瞰全景，路况看得很清楚，噪声很小。这时候，惯性可以小一点（ $\beta_2$ 可以小一点），车也能开稳。

论文给出的建议：
如果你发现训练效果不好，或者模型“跑飞”了，不要急着换算法。试着把 $\beta_2$ 调大（比如从 0.99 调到 0.999 甚至更高），特别是当你使用小批量训练时。这就像在颠簸的路上，把车的悬挂调硬一点，或者把惯性调大一点，车反而更稳。

4. 总结：为什么这篇论文很重要？

洗清了冤屈： 它证明了原始的 Adam 算法（没有修改任何公式）在理论上是安全的，只要参数选对。之前那些“必须修改 Adam"的变体（如 AMSGrad），在很多时候可能并不是必须的。
给出了“操作手册”： 以前大家调参靠“玄学”或经验。现在有了理论指导：“小批量训练时，务必把 $\beta_2$ 调大”。
解释了大模型的成功： 为什么现在的 LLM（大语言模型）训练这么成功？因为大家无意中（或者有意地）使用了较大的 $\beta_2$ 和合适的参数组合，正好跨过了那条“生死线”，进入了安全区。

一句话总结：
Adam 算法并没有“坏掉”，它只是需要正确的“驾驶方式”。只要根据路况（数据量）把“惯性”（ $\beta_2$ ）调得足够大，它就能稳稳地把你带到目的地，不需要任何额外的改装。

Each language version is independently generated for its own context, not a direct translation.

这篇论文题为《Adam Converges Without Any Modification On Update Rules》（Adam 在不修改更新规则的情况下收敛），由来自香港中文大学（深圳）和深圳大数据研究院的研究团队撰写。该论文旨在解决 Adam 优化器在理论上的发散问题，并证明在固定问题设定下，通过合理调整超参数，原始 Adam 算法（无需修改更新规则）可以保证收敛。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：Adam 是训练神经网络（包括大语言模型 LLM）的默认算法，应用极其广泛。然而，Reddi 等人 [2018] 提出了一个著名的反例，证明在某些超参数设置下（特别是 $\beta_1 < \sqrt{\beta_2}$ 时），Adam 会发散。这引发了业界对 Adam 在 AI 模型训练中稳定性的担忧，并催生了 AMSGrad、AdaBound 等变体。
核心矛盾：尽管存在发散理论，但在实际应用中（如训练 Llama、GPT-3 等），原始 Adam 配合默认超参数（如 $\beta_1=0.9, \beta_2=0.999$ ）表现优异。
问题根源：作者指出，Reddi 等人的反例构建方式与实际应用存在关键的不匹配（Mismatch）：
- 理论反例：先固定超参数 $(\beta_1, \beta_2)$ ，然后针对该参数构造特定的问题（特别是调整 Mini-batch 数量 $n$ ）来制造发散。
- 实际应用：先固定问题（即固定数据集和 Mini-batch 数量 $n$ ），然后针对该问题调整超参数 $(\beta_1, \beta_2)$ 。
研究目标：在固定问题（Fixed Problem）的前提下，探究原始 Adam 是否能在不修改更新规则的情况下收敛，并刻画 $(\beta_1, \beta_2)$ 参数空间中的收敛与发散区域。

2. 方法论 (Methodology)

作者采用了严格的非渐近理论分析（Non-asymptotic Analysis），结合了随机优化理论和概率集中不等式。

问题设定：
- 考虑经验风险最小化问题 (ERM)，假设目标函数满足平滑性（Lipschitz 梯度）和梯度方差条件（Assumption 2.2，允许方差随梯度范数增长，比传统的有界方差假设更弱）。
- 不假设梯度有界（这是揭示发散现象的关键，因为如果梯度有界，Adam 不可能发散）。
- 分析了两种采样策略：有放回采样（With-replacement）和随机洗牌（Random Shuffling）。
核心证明思路：
1. 集中效应 (Concentration Effect)：
  - 当 $\beta_2$ 较大时，Adam 中的二阶动量项 $v_k$ 变化缓慢。作者证明了 $1/\sqrt{v_k}$ 会高度集中在其期望值 $1/\sqrt{E[v_k]}$ 附近。
  - 利用 Bernstein 不等式和 Adam 梯度的几何求和结构，证明了在 $\beta_2$ 足够大时，随机项 $1/\sqrt{v_k}$ 的行为是可预测的，从而使得更新方向 $m_k/\sqrt{v_k}$ 能够保持为下降方向。
2. 势函数 (Potential Function)：
  - 为了处理一阶动量 $m_k$ 带来的历史信号干扰，作者构造了一个辅助序列 $z_k = \frac{x_k - \beta_1^n x_{k-n}}{1-\beta_1^n}$ 。
  - 通过势函数 $f(z_k)$ 抵消了 $m_k$ 中的历史累积误差，从而建立了更新方向与真实梯度 $\nabla f(x_k)$ 之间的紧密联系。
3. 发散反例构造：
  - 针对小 $\beta_2$ 的情况，作者构造了一个特定的分段函数反例。证明了当 $\beta_2$ 较小时， $v_k$ 的波动会导致更新方向偏离梯度方向，甚至指向相反方向，从而导致迭代值、梯度和函数值发散至无穷大。

3. 关键贡献 (Key Contributions)

首次揭示 $(\beta_1, \beta_2)$ 平面的相变 (Phase Transition)：
- 这是文献中首次报告 Adam 在 $(\beta_1, \beta_2)$ 二维平面上的相变现象。
- 存在一个临界边界 $(\beta_1^*, \beta_2^*)$ ，将参数空间划分为“安全区域”（收敛）和“危险区域”（发散）。
- 收敛条件：当 $\beta_2$ 足够大（大于问题相关的阈值）且 $\beta_1 < \sqrt{\beta_2}$ 时，Adam 收敛到临界点（可实化情况）或临界点邻域（不可实化情况）。
- 发散条件：当 $\beta_2$ 较小且 $\beta_1, \beta_2$ 处于特定区域时，Adam 会发散至无穷大。
问题依赖的超参数界限 (Problem-Dependent Bounds)：
- 与 Reddi 等人 [2018] 的“与问题无关”的发散结论不同，本文证明了收敛/发散区域是依赖于问题的，特别是依赖于 Mini-batch 数量 $n$ （即 Batch Size）。
- 关键发现： $\beta_2$ 的收敛阈值 $\gamma(n)$ 随 $n$ 增大而增大（即随 Batch Size 减小而增大）。这意味着在小 Batch Size 下，需要更大的 $\beta_2$ 来保证收敛。
无需修改更新规则：
- 证明了原始 Adam 算法（Vanilla Adam）在适当调参下即可收敛，无需引入 AMSGrad 的单调性约束或 AdaBound 的步长截断。
去除了有界梯度假设：
- 分析过程不依赖“梯度有界”这一常见但过于强硬的假设，这使得理论结果更能反映深度学习的真实情况，并成功揭示了发散的可能性。

4. 主要结果 (Results)

理论结果：
- 定理 3.1 & 3.3：证明了在 $\beta_2 \ge 1 - O(\frac{1-\beta_1^n}{n^5})$ 且 $\beta_1 < \sqrt{\beta_2}$ 时，Adam 以 $O(\frac{\log T}{\sqrt{T}})$ 的速率收敛到临界点邻域。
- 定理 3.5：证明了对于任意 $n \ge 3$ ，存在特定的 $(\beta_1, \beta_2)$ 区域（随 $n$ 增大而扩大），使得 Adam 发散。
- 相图：如图 1(b) 所示，随着 $n$ 的变化，收敛区域（蓝色）和发散区域（红色）的边界会发生移动。
实验验证：
- 在 MNIST 和 CIFAR-10 上进行了网格搜索实验，验证了理论预测：大 $\beta_2$ 配合 $\beta_1 < \sqrt{\beta_2}$ 表现良好，而小 $\beta_2$ 导致性能下降或发散。
- LLM 训练指导：引用了多项近期关于 LLM 预训练的研究（如 Orvieto & Gower, 2025; Zhang et al., 2024a），指出在小 Batch Size 训练时，增大 $\beta_2$ （例如从 0.95 调至 0.99 或 0.999）能显著提升性能，这与本文理论完全一致。

5. 意义与影响 (Significance)

理论层面：
- 澄清了 Adam 发散理论的适用范围，指出了 Reddi 等人反例的局限性（即其构造依赖于动态调整 $n$ ）。
- 为原始 Adam 算法提供了坚实的理论保证，解释了为何它在实践中如此成功。
- 首次定义了 Adam 超参数空间中的相变边界，填补了理论空白。
实践层面：
- 调参指南：为深度学习 practitioners 提供了具体的调参建议。当 Adam 训练效果不佳或发散时，建议逆着 Batch Size 调整 $\beta_2$ ：
  - 如果 Batch Size 较小（ $n$ 较大），应增大 $\beta_2$ 以超过临界阈值 $\beta_2^*$ 。
  - 在满足 $\beta_2$ 足够大的前提下，尝试 $\beta_1 < \sqrt{\beta_2}$ 。
- 这一建议已被多个 LLM 预训练项目（如 Llama, DeepSeek 等）的实证研究支持，证明了增大 $\beta_2$ 在小 Batch 训练中的必要性。

总结：
这篇论文通过严谨的数学推导和实验验证，解决了 Adam 优化器“理论发散但实践成功”的悖论。它表明 Adam 的发散并非算法本身的固有缺陷，而是超参数选择与问题规模（Batch Size）不匹配的结果。通过根据 Batch Size 动态调整 $\beta_2$ ，原始 Adam 可以在不修改算法结构的情况下实现稳定收敛。这一发现为大规模语言模型的训练提供了重要的理论依据和实操指导。

Adam Converges Without Any Modification On Update Rules

1. 之前的困惑：为什么理论说“会翻车”，实际却“很稳”？

2. 核心发现：参数的“生死线”

3. 一个反直觉的“秘密”：批次大小（Batch Size）的影响

4. 总结：为什么这篇论文很重要？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

5. 意义与影响 (Significance)

类似论文

The Influence of Exclusion Zones on the Coexistence of Predator and Prey with an Allee Effect

Cominuscule subvarieties of flag varieties

A coherent theory of tent spaces and homogeneous Triebel-Lizorkin spaces

Morita equivalence of Nijenhuis structures

Quantum metrics from length functions on étale groupoids