Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的现象：为什么同一个优化算法（Adam），在不同的“训练模式”下，会走向完全不同的终点？

为了让你轻松理解，我们可以把训练神经网络想象成一群登山者（优化算法）试图翻越一座山脉（损失函数），找到最低的山谷（最佳模型）。

1. 核心背景：登山者的“指南针”

在机器学习里，有一个著名的算法叫 Adam。它就像是一个经验丰富的登山向导，能根据地形自动调整步伐，是目前最流行的“向导”。

以前的认知（全批量模式 Full-batch）：
以前大家发现，如果所有登山者一起看整张地图（使用所有数据计算梯度），Adam 向导会特别偏爱一种特定的路线：它会沿着**“最陡峭的悬崖”**（ $\ell_\infty$ 几何结构）走。这就像它只关心哪条路能最快避开最宽的障碍，而忽略了其他细节。
新的发现（小批量/增量模式 Mini-batch/Incremental）：
但在实际工作中，为了省时间，我们通常让登山者一次只看一小块地图（每次只处理一个或几个数据点，即“增量”模式）。
这篇论文发现：一旦改成这种“盲人摸象”式的增量模式，Adam 向导就“变心”了！ 它不再执着于之前的“悬崖路线”，而是开始走向完全不同的方向，甚至有时候会走向**“最平缓的缓坡”**（ $\ell_2$ 几何结构，也就是传统的最大间隔路线）。

2. 核心比喻：登山队的“记忆”与“步调”

为了理解为什么会有这种变化，我们可以用两个比喻：

比喻一：全知全能的队长 vs. 记性不好的队员

全批量 Adam（队长）： 队长手里拿着完整的地图，每一步都基于所有队员的反馈来调整方向。他的“记忆”（动量）非常完美，能精准地计算出整体的趋势，所以他能坚定地走向那个特定的“悬崖终点”。
增量 Adam（记性不好的队员）： 队员每次只看到一个路标（一个数据点）。他虽然也有“记忆”（动量），但他的记忆是基于过去看到的一个个零散路标拼凑起来的。
- 论文发现，这种“拼凑”的记忆会产生一种数据依赖的偏差。就像队员在迷雾中走路，他走的路线不再由“悬崖”决定，而是由他具体看到了哪些路标（数据集的结构）决定的。
- 极端例子： 作者构造了一种特殊的“对称迷宫”（SR 数据）。在这种迷宫里，全批量队长会走向“悬崖终点”，但增量队员却会神奇地走向“缓坡终点”。这证明了**“怎么走路”（采样方式）直接决定了“走到哪”**。

比喻二：导航仪的“自适应”失灵

Adam 之所以强大，是因为它能自适应：路陡就慢走，路平就走快。

在全批量模式下，这种自适应是全局的，非常稳定。
在增量模式下，这种自适应变成了局部的。就像你的导航仪每走一步就重新计算一次路线，结果发现：“哎呀，刚才那个路口太窄了，我得绕路！” 这种不断的“绕路”累积起来，最终把你带到了一个和原本计划完全不同的地方。

3. 论文的主要贡献（用大白话总结）

打破了旧观念： 以前以为 Adam 无论怎么跑，都会走向那个特定的“悬崖终点”。现在证明：如果你一次只看一个数据（增量模式），它可能会走向完全不同的终点，甚至走向传统的“缓坡终点”。
找到了“替身”算法（Proxy）： 因为直接分析增量 Adam 太复杂（像分析一群人在迷雾中乱跑），作者设计了一个简化的“替身”算法（AdamProxy）。
- 这个替身算法就像是一个**“智能罗盘”。它不直接告诉你终点在哪，而是告诉你：终点取决于数据的分布和算法内部的固定点**。
- 作者发现，这个终点是由一个**“数据自适应的马氏距离”决定的。简单说，就是数据长什么样，算法就走向什么样的终点**。
对比实验（Signum）： 作者还测试了另一个算法叫 Signum（它只关心梯度的正负，不关心大小）。
- 结果发现，Signum 是个“死脑筋”。不管是一次看一个数据，还是看所有数据，它都死心塌地地走向“悬崖终点”。
- 这说明：Adam 的“变心”是因为它太聪明、太依赖数据细节了；而 Signum 因为太简单，反而保持了“初心”。

4. 这对我们意味着什么？

没有免费的午餐： 以前大家觉得 Adam 是万能的神，不管怎么调参、怎么采样，效果都差不多。这篇论文告诉我们：采样方式（是一次看全图，还是每次看一点）对最终模型的特性影响巨大。
大模型训练的启示： 现在的 AI 大模型（如 LLM）训练时，通常使用小批量（Mini-batch）。这篇论文暗示，这些大模型最终学到的“决策边界”，可能并不是我们以前以为的那种“悬崖风格”，而是由数据分布和采样方式共同塑造的**“混合风格”**。
理论的重要性： 它提醒我们，在解释 AI 为什么有效时，不能只看算法本身，还要看数据是怎么喂给算法的。

总结

想象一下，Adam 是一个聪明的向导。

如果你让他一次性看完所有地图，他会坚定地走向**“悬崖”**（ $\ell_\infty$ 方向）。
如果你让他每次只看一张小纸条，他就会变得**“随波逐流”，根据纸条上的内容，走向“缓坡”**（ $\ell_2$ 方向）或者其他奇怪的地方。
而另一个叫 Signum 的向导，不管给他看什么，他永远只认死理，只走**“悬崖”**。

这篇论文就是告诉我们：在训练 AI 时，不要只盯着算法看，还要看看你是怎么“喂”数据的，因为“喂”的方式决定了 AI 最终会长成什么样。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于深度学习优化器隐式偏差（Implicit Bias）的理论研究论文，发表于 ICLR 2026。论文主要探讨了在线性可分数据上，**增量式 Adam（Incremental Adam，即每次迭代仅使用一个样本）与全批次 Adam（Full-batch Adam）**在收敛方向上的显著差异。

以下是该论文的详细技术总结：

1. 研究问题 (Problem)

背景：Adam 是深度学习中最常用的优化器。先前的理论研究表明，在**全批次（Full-batch）**设置下，Adam 倾向于收敛到 $\ell_\infty$ -最大间隔（ $\ell_\infty$ -max-margin）解，这与 SignGD（符号梯度下降）的行为一致。
核心问题：在现代训练中，通常使用**小批量（Mini-batch）或增量（Incremental, batch size=1）**模式。在这种随机设置下，Adam 是否仍然保持其特有的 $\ell_\infty$ 几何偏好？还是说其隐式偏差会发生变化？
观察：实验发现，在 Gaussian 数据上，全批次 Adam 收敛于 $\ell_\infty$ -最大间隔方向，而批量大小为 1 的 Adam 变体（包括增量 Adam）却收敛于一个完全不同的方向，甚至更接近 $\ell_2$ -最大间隔解。

2. 方法论 (Methodology)

作者针对线性分类任务（Logistic/Exponential Loss），在数据线性可分的假设下，对增量 Adam（Inc-Adam）进行了严格的理论分析。

近似与简化：
- 由于 Adam 的动量项依赖于完整的梯度历史，直接分析渐近行为非常困难。
- 作者证明了在特定学习率调度下，Inc-Adam 的**轮次更新（epoch-wise update）**可以近似为一个仅依赖当前迭代点的函数。
- 特别地，当动量参数 $\beta_2 \to 1$ 时，作者构建了一个**均匀平均代理算法（Uniform-Averaging Proxy, AdamProxy）**来近似 Inc-Adam 的极限行为。
结构化数据集分析 (Scaled Rademacher Data)：
- 为了揭示根本差异，作者构造了一类特殊的结构化数据（SR 数据），其特点是每个样本的所有坐标绝对值相等。
- 在这种数据上，Inc-Adam 的坐标自适应（Coordinate-adaptivity）被完全消除，其更新规则退化为加权归一化梯度下降。
一般数据集分析 (Fixed-Point Formulation)：
- 对于一般数据集，作者引入了一个基于**马哈拉诺比斯范数（Mahalanobis-norm）**的优化问题。
- 收敛方向被刻画为一个数据自适应的固定点问题：寻找一个权重向量 $c$ ，使得该向量既是优化问题的参数，又是其对偶解的归一化形式。
- 具体而言，收敛方向 $\hat{w}$ 是以下参数化优化问题 $P_{Adam}(c)$ 的解，其中 $c$ 是满足固定点方程 $T(c)=c$ 的向量：
  $\min_w \frac{1}{2} \|w\|_{M(c)}^2 \quad \text{s.t.} \quad w^\top x_i \ge 1, \forall i$
  其中 $M(c)$ 是由数据 $x_i$ 和权重 $c$ 决定的对角矩阵。
对比算法 Signum：
- 作为对比，作者分析了 Signum（带动量的 SignSGD），并证明无论批量大小如何，只要动量足够接近 1，Signum 始终收敛到 $\ell_\infty$ -最大间隔解。

3. 主要贡献与结果 (Key Contributions & Results)

A. 增量 Adam 的偏差偏离全批次行为

理论证明：在 SR 数据上，证明了增量 Adam（Batch size=1）收敛于 $\ell_2$ -最大间隔解，而全批次 Adam 收敛于 $\ell_\infty$ -最大间隔解。这打破了"Adam 总是偏好 $\ell_\infty$ 几何”的旧有认知。
机制解释：全批次 Adam 的预条件器（Preconditioner）跟踪的是全梯度的平方，导致其退化为 SignGD；而增量 Adam 的预条件器跟踪的是小批量梯度的平方和，这种统计量的差异导致了其动态行为更接近加权梯度下降，从而表现出 $\ell_2$ 偏好。

B. 一般数据集的固定点刻画

对于一般数据集，作者提出了一个数据依赖的固定点框架。
收敛方向由一个自适应马哈拉诺比斯范数下的最大间隔问题决定。该范数的协方差矩阵由数据依赖的对偶固定点方程确定。
特例验证：
- 在 SR 数据上，该框架退化为标准的 $\ell_2$ -SVM。
- 在特定的“移位对角”（Shifted-diagonal）数据上，该框架退化为 $\ell_\infty$ -最大间隔解。
- 在 Gaussian 数据上，实验验证了增量 Adam 收敛于该固定点解，该解既不是纯粹的 $\ell_2$ 也不是 $\ell_\infty$ ，而是介于两者之间且依赖于数据分布。

C. Signum 的鲁棒性

证明了 Signum 算法在任意批量大小下（只要动量 $\beta$ 足够接近 1），其隐式偏差始终保持在 $\ell_\infty$ -最大间隔方向。这表明 Signum 的 $\ell_\infty$ 偏好是算法结构固有的，不依赖于全批次设置，而 Adam 的 $\ell_\infty$ 偏好在小批量下会失效。

4. 实验验证 (Experiments)

Gaussian 数据：展示了全批次 Adam 收敛于 $\ell_\infty$ 方向，而增量 Adam（Batch size=1）收敛于一个不同的方向（更接近 $\ell_2$ 或固定点解）。
SR 数据：验证了增量 Adam 收敛于 $\ell_2$ -最大间隔解。
Shifted-diagonal 数据：验证了增量 Adam 收敛于 $\ell_\infty$ -最大间隔解，证明了偏差的数据依赖性。
批量大小影响：实验显示，随着批量大小从 1 增加到全批次，Adam 的收敛方向逐渐从 $\ell_2$ 倾向过渡到 $\ell_\infty$ 倾向。

5. 意义与启示 (Significance)

理论突破：这是首次从理论上证明 Adam 的隐式偏差强烈依赖于批量大小（Batching Scheme）和数据集结构。它修正了关于 Adam 总是倾向于 $\ell_\infty$ 几何的普遍认知。
解释 Adam vs. SGD 差距：Adam 在大规模训练（通常使用较大 Batch）中表现优于 SGD，部分原因可能归因于其 $\ell_\infty$ 几何的利用。然而，在小批量训练（如某些语言模型微调场景）中，这种优势可能减弱，因为增量 Adam 失去了 $\ell_\infty$ 偏好，转而表现出更复杂的数据依赖行为。
算法选择：如果目标是利用 $\ell_\infty$ 几何特性（如某些语言模型任务），Signum 可能比 Adam 在小批量设置下更稳健；而 Adam 在小批量下的行为则更加复杂，取决于具体数据分布。
未来方向：指出了当前理论在 $\beta_2 < 1$ 和更复杂采样策略下的局限性，为后续研究提供了方向。

总结：该论文揭示了 Adam 优化器在从全批次切换到小批量（特别是增量更新）时，其隐式偏差发生了根本性的转变，从纯粹的 $\ell_\infty$ 偏好转变为一种由数据分布和动量参数共同决定的复杂几何偏好。这一发现对于理解自适应优化器在大规模深度学习训练中的行为至关重要。