Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

该论文揭示了在可分数据上,单样本(增量式)Adam 优化器的隐式偏差会显著偏离全批量模式,可能收敛至2\ell_2最大间隔分类器,其具体偏差取决于批处理策略与数据集特性,而 Signum 算法则对所有批量大小均保持\ell_\infty最大间隔偏差。

Beomhan Baek, Minhak Song, Chulhee Yun

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的现象:为什么同一个优化算法(Adam),在不同的“训练模式”下,会走向完全不同的终点?

为了让你轻松理解,我们可以把训练神经网络想象成一群登山者(优化算法)试图翻越一座山脉(损失函数),找到最低的山谷(最佳模型)

1. 核心背景:登山者的“指南针”

在机器学习里,有一个著名的算法叫 Adam。它就像是一个经验丰富的登山向导,能根据地形自动调整步伐,是目前最流行的“向导”。

  • 以前的认知(全批量模式 Full-batch):
    以前大家发现,如果所有登山者一起看整张地图(使用所有数据计算梯度),Adam 向导会特别偏爱一种特定的路线:它会沿着**“最陡峭的悬崖”**(\ell_\infty 几何结构)走。这就像它只关心哪条路能最快避开最宽的障碍,而忽略了其他细节。
  • 新的发现(小批量/增量模式 Mini-batch/Incremental):
    但在实际工作中,为了省时间,我们通常让登山者一次只看一小块地图(每次只处理一个或几个数据点,即“增量”模式)。
    这篇论文发现:一旦改成这种“盲人摸象”式的增量模式,Adam 向导就“变心”了! 它不再执着于之前的“悬崖路线”,而是开始走向完全不同的方向,甚至有时候会走向**“最平缓的缓坡”**(2\ell_2 几何结构,也就是传统的最大间隔路线)。

2. 核心比喻:登山队的“记忆”与“步调”

为了理解为什么会有这种变化,我们可以用两个比喻:

比喻一:全知全能的队长 vs. 记性不好的队员

  • 全批量 Adam(队长): 队长手里拿着完整的地图,每一步都基于所有队员的反馈来调整方向。他的“记忆”(动量)非常完美,能精准地计算出整体的趋势,所以他能坚定地走向那个特定的“悬崖终点”。
  • 增量 Adam(记性不好的队员): 队员每次只看到一个路标(一个数据点)。他虽然也有“记忆”(动量),但他的记忆是基于过去看到的一个个零散路标拼凑起来的。
    • 论文发现,这种“拼凑”的记忆会产生一种数据依赖的偏差。就像队员在迷雾中走路,他走的路线不再由“悬崖”决定,而是由他具体看到了哪些路标(数据集的结构)决定的。
    • 极端例子: 作者构造了一种特殊的“对称迷宫”(SR 数据)。在这种迷宫里,全批量队长会走向“悬崖终点”,但增量队员却会神奇地走向“缓坡终点”。这证明了**“怎么走路”(采样方式)直接决定了“走到哪”**。

比喻二:导航仪的“自适应”失灵

Adam 之所以强大,是因为它能自适应:路陡就慢走,路平就走快。

  • 在全批量模式下,这种自适应是全局的,非常稳定。
  • 在增量模式下,这种自适应变成了局部的。就像你的导航仪每走一步就重新计算一次路线,结果发现:“哎呀,刚才那个路口太窄了,我得绕路!” 这种不断的“绕路”累积起来,最终把你带到了一个和原本计划完全不同的地方。

3. 论文的主要贡献(用大白话总结)

  1. 打破了旧观念: 以前以为 Adam 无论怎么跑,都会走向那个特定的“悬崖终点”。现在证明:如果你一次只看一个数据(增量模式),它可能会走向完全不同的终点,甚至走向传统的“缓坡终点”。
  2. 找到了“替身”算法(Proxy): 因为直接分析增量 Adam 太复杂(像分析一群人在迷雾中乱跑),作者设计了一个简化的“替身”算法(AdamProxy)。
    • 这个替身算法就像是一个**“智能罗盘”。它不直接告诉你终点在哪,而是告诉你:终点取决于数据的分布算法内部的固定点**。
    • 作者发现,这个终点是由一个**“数据自适应的马氏距离”决定的。简单说,就是数据长什么样,算法就走向什么样的终点**。
  3. 对比实验(Signum): 作者还测试了另一个算法叫 Signum(它只关心梯度的正负,不关心大小)。
    • 结果发现,Signum 是个“死脑筋”。不管是一次看一个数据,还是看所有数据,它都死心塌地地走向“悬崖终点”。
    • 这说明:Adam 的“变心”是因为它太聪明、太依赖数据细节了;而 Signum 因为太简单,反而保持了“初心”。

4. 这对我们意味着什么?

  • 没有免费的午餐: 以前大家觉得 Adam 是万能的神,不管怎么调参、怎么采样,效果都差不多。这篇论文告诉我们:采样方式(是一次看全图,还是每次看一点)对最终模型的特性影响巨大。
  • 大模型训练的启示: 现在的 AI 大模型(如 LLM)训练时,通常使用小批量(Mini-batch)。这篇论文暗示,这些大模型最终学到的“决策边界”,可能并不是我们以前以为的那种“悬崖风格”,而是由数据分布和采样方式共同塑造的**“混合风格”**。
  • 理论的重要性: 它提醒我们,在解释 AI 为什么有效时,不能只看算法本身,还要看数据是怎么喂给算法的

总结

想象一下,Adam 是一个聪明的向导

  • 如果你让他一次性看完所有地图,他会坚定地走向**“悬崖”**(\ell_\infty 方向)。
  • 如果你让他每次只看一张小纸条,他就会变得**“随波逐流”,根据纸条上的内容,走向“缓坡”**(2\ell_2 方向)或者其他奇怪的地方。
  • 而另一个叫 Signum 的向导,不管给他看什么,他永远只认死理,只走**“悬崖”**。

这篇论文就是告诉我们:在训练 AI 时,不要只盯着算法看,还要看看你是怎么“喂”数据的,因为“喂”的方式决定了 AI 最终会长成什么样。