Adapt or Forget: Provable Tradeoffs Between Adam and SGD in Nonstationary Optimization

本文对非平稳目标下的 Adam 算法进行了理论分析,确立了一个可证明的噪声 - 漂移权衡关系,即自适应方法在噪声主导的区间内优于随机梯度下降(SGD),但在漂移主导的设定中,由于过时的动量和预条件器扰动,其误差会不断累积。

原作者: Sharan Sahu, Abir Sarkar, Cameron J. Hogan, Martin T. Wells

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Sharan Sahu, Abir Sarkar, Cameron J. Hogan, Martin T. Wells

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象你正试图在雾蒙蒙的田野中追踪一个移动的目标。目标(即“最优解”)的位置不断变动,而你只能通过一个模糊且充满噪声的镜头看到它。你的目标是尽可能贴近目标。

本文是对两种追踪该移动目标策略的理论研究:SGD(随机梯度下降)和Adam(自适应矩估计)。尽管 Adam 是训练现代人工智能的“首选”工具,但本文提出了一个问题:当世界发生变化时,Adam 真的有帮助,还是有时会让情况变得更糟?

以下是利用简单类比对其发现进行的拆解。

两位跑者

  1. SGD(短跑运动员): 这位跑者仅根据当下所见迈出一步。如果地面看起来是下坡,他们就朝那个方向迈步。他们不记得五秒前身在何处。

    • 优势: 因为他们没有背负包袱,所以当目标突然改变方向时,他们能瞬间做出反应。
    • 劣势: 如果视野模糊(数据充满噪声),他们可能会因为雾中的干扰而迈出错误的一步。
  2. Adam(背着背包的马拉松运动员): 这位跑者更聪明。他们背着一个装有“记忆”的“背包”。

    • 一阶矩记忆(指南针): 他们记得自己一直以来的平均行进方向。如果路径崎岖不平,他们会通过平均过去的方向来平滑步伐。
    • 二阶矩记忆(地形图): 他们记得过去地面的陡峭程度。如果某条路径以前很陡,他们在那里会迈小步;如果平坦,则会迈大步。
    • 优势: 在雾气弥漫、崎岖不平的环境中,这种记忆有助于他们保持稳健,不会被随机噪声带偏。
    • 劣势: 如果目标突然向新方向冲刺,跑者的记忆(指南针和地图)就会变得“过时”。他们仍在试图遵循旧路径,导致落后。

重大发现:“噪声”与“漂移”的权衡

本文从数学上证明,存在一种根本性的权衡。你无法用同一种策略在两种情境中都获胜。

情境 A:“漂移主导”的世界(目标正在快速奔跑)

想象目标正在田野中冲刺,迅速改变方向。

  • 发生的情况: Adam 的“背包”变成了累赘。跑者看着一张旧地图,遵循着一个旧的指南针。当他们调整记忆以适应新方向时,目标又移动了。
  • 结果: SGD 获胜。 这位忽略过去、仅对当下做出反应的短跑运动员,比背负记忆重担的跑者更能跟上快速移动的目标。
  • 论文主张: 在高漂移机制下,Adam 中“过时”的信息实际上会损害性能,拉大你与目标之间的差距。

情境 B:“噪声主导”的世界(目标静止不动,但雾气浓重)

想象目标静止不动,但风吹得碎片四处飞扬,让人难以看清地面。

  • 发生的情况: SGD(短跑运动员)被每一阵风搞得晕头转向,跌跌撞撞。而 Adam(马拉松运动员)利用其记忆表示:“好吧,那阵风只是噪声;总体趋势依然在这里。”
  • 结果: Adam 获胜。 自适应记忆平滑了混乱,使跑者比 jittery(抖动)的短跑运动员更能贴近目标。
  • 论文主张: 在高噪声机制下,Adam 平均化噪声的能力使其优于 SGD。

“预热期”与“下限”

本文还解释了为什么 Adam 有时需要很长时间才能启动(“预热期”),以及为什么它永远无法完美地贴近目标(“下限”)。

  • 预热期: 当 Adam 开始时,它的“背包”是空的。它必须先用数据填满背包,才能有效利用记忆。在此期间,它的表现可能实际上不如 SGD。
  • 下限: 即使经过很长时间,Adam 也无法完美地贴近移动目标。本文详细拆解了为什么存在这种差距。这是由四件事引起的:
    1. 起始位置: 你从哪里开始。
    2. 目标速度: 目标跑得多快(漂移)。
    3. 记忆滞后: “背包”在多大程度上紧抓着过去(由一个称为 β1\beta_1 的设置控制)。
    4. 地图不稳定性: “地形图”在多大程度上波动(由一个称为 β2\beta_2 的设置控制)。

“稳定器”旋钮(ϵ\epsilon

最具实用性的发现之一是关于 Adam 中一个特定设置 ϵ\epsilon(epsilon)的。

  • 类比:ϵ\epsilon 想象成跑者鞋子上的“减震器”或“阻尼器”。
  • 发现: 本文解释了为什么当世界发生变化(漂移)时,增加 ϵ\epsilon 有助于 Adam。
    • 较小的 ϵ\epsilon 使跑者对“地形图”非常敏感。如果地图出现故障,跑者就会绊倒。
    • 较大的 ϵ\epsilon 充当缓冲。它阻止跑者对地图中微小的噪声变化做出过度反应。这使得跑者在目标移动时更加稳定,防止他们被自适应机制本身甩得失去平衡。

总结

本文提供了一本数学“规则手册”,说明何时该使用哪位跑者:

  • 如果你的数据变化迅速(高漂移): 不要使用 Adam 沉重的记忆。使用 SGD(或记忆较少的 Adam 版本),以便你能快速反应。
  • 如果你的数据充满噪声但稳定(高噪声): 使用 Adam。它的记忆将帮助你忽略噪声并找到真正的路径。
  • 如果你必须在变化的世界中使用 Adam: 你可能需要调整“减震器”(ϵ\epsilon),以防止算法变得过于抖动。

作者得出结论:Adam 并非“糟糕”;只是它的超能力(记忆)在环境变化太快、记忆无法跟上的时候,会变成弱点。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →