Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

该论文揭示了在深度线性对角网络中,Sharpness-Aware Minimization (SAM) 会因深度增加而产生显著的隐式偏差,特别是2\ell_2-SAM 会表现出“顺序特征放大”现象,即模型在训练初期依赖次要特征并逐渐转向主要特征,从而证明了仅依靠无限时间隐式偏差分析不足以全面理解 SAM 的有限时间动态。

Chaewon Moon, Dongkuk Si, Chulhee Yun

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个深度学习中的有趣现象:为什么有时候“更聪明”的优化算法(SAM)在训练神经网络时,会做出和传统算法(梯度下降 GD)完全不同的选择?

为了让你轻松理解,我们可以把训练神经网络想象成在一个充满宝藏的迷宫里寻找最佳路径,而“特征”就是迷宫里不同价值的宝藏。

1. 核心角色介绍

  • 梯度下降 (GD):就像一个务实的寻宝者。他手里拿着地图,总是直奔价值最高的宝藏(主要特征)。如果某个地方金子最多,他就只盯着那里挖,不管旁边有没有小石头。
  • 锐度感知最小化 (SAM):就像一个谨慎的探险家。他不仅看宝藏的价值,还担心脚下的路稳不稳(是否平坦)。为了安全,他会先往四周探一探(扰动),看看哪里最稳,然后再决定往哪走。
  • 网络深度 (Depth):这就像探险家身上的装备层数
    • 1 层装备(浅层网络):探险家和务实者走的路基本一样,都直奔大宝藏。
    • 2 层及以上装备(深层网络):这就出问题了!装备多了,SAM 的“谨慎”策略开始产生奇怪的副作用。

2. 论文发现:两个奇怪的“反常”现象

论文发现,当网络变深(比如变成 2 层)时,SAM 的行为会发生剧变,出现了两个让传统算法 GD 都看不懂的现象:

现象一:SAM 会“先捡芝麻,后捡西瓜” (Sequential Feature Amplification)

  • GD 的做法:不管你怎么开始,GD 永远只盯着那个最大的宝藏(比如数据里最明显的特征)。
  • SAM 的做法
    • 起初:SAM 会先关注那些不起眼的小宝藏(次要特征,比如图片背景里的微弱纹理,或者数据里数值很小的部分)。
    • 后来:随着训练进行,或者如果你给它的初始装备(初始化参数)稍微调大一点,它才会慢慢把注意力转移到大宝藏上。
    • 比喻:想象你在整理房间。GD 是直接去收拾最乱的大桌子。而 SAM 像是先花很长时间把桌上的灰尘、小纸屑(次要特征)都擦得干干净净,觉得环境安全了,最后才去搬动那个沉重的大桌子(主要特征)。
    • 为什么? 论文解释这是因为 SAM 在计算“哪里最稳”时,有一个数学上的“归一化”步骤。这个步骤在早期会放大那些微小的信号,让 SAM 误以为这些小信号很重要,必须优先处理。

现象二:SAM 的“方向”取决于你“起步”的姿势 (Initialization Sensitivity)

  • GD 的做法:无论你怎么开始,GD 最终都会指向同一个方向(最大的宝藏)。
  • SAM 的做法
    • 如果你起步时装备很轻(初始化很小),SAM 可能会原地踏步,甚至走向一个完全错误的方向(比如只关注了那个最不起眼的特征,完全忽略了大宝藏)。
    • 如果你起步时装备稍微重一点,它才会开始“先捡芝麻,后捡西瓜”的过程。
    • 比喻:GD 像是一个有导航仪的司机,不管从哪条路出发,最终都能开到目的地。而 SAM 像是一个没有导航仪、只靠直觉的司机。如果你起步时方向盘稍微歪了一点点,他可能会开进一条死胡同,或者先绕一大圈去风景优美的路边(次要特征),最后才找到正路。

3. 这个发现意味着什么?

这篇论文告诉我们一个重要的道理:只看结果(训练结束后的状态)是不够的,要看过程(训练中间发生了什么)。

  • 传统观点:以前大家认为,只要训练时间足够长,算法最终都会收敛到同一个“最好”的解(最大间隔分类器)。
  • 新观点:SAM 在有限的时间内(也就是我们实际训练的时候),会经历一个非常独特的“先关注次要特征,再关注主要特征”的过程。
    • 这解释了为什么 SAM 有时候泛化能力(Generalization)更好:因为它在早期“强迫”模型去关注那些容易被忽略的细节(次要特征),这可能让模型学到了更鲁棒的规律,而不是死记硬背主要特征。
    • 这也解释了为什么有时候 SAM 会失败:如果初始化没调好,它可能就一直陷在“次要特征”里出不来,或者走向错误的方向。

4. 实验验证

为了证明这不是数学游戏,作者们做了很多实验:

  • 合成数据:用简单的数学题验证了理论。
  • 真实图片 (MNIST, SVHN, CIFAR-10):他们用 Grad-CAM(一种让 AI 告诉我们它在看哪里的技术)观察模型。
    • GD 模型:看数字时,只盯着白色的数字笔画(主要特征)。
    • SAM 模型:在训练初期,它竟然更关注黑色的背景(次要特征)!这就像你在认字时,先花精力去观察纸张的纹理,最后才去认字。

总结

这篇论文就像给深度学习领域讲了一个寓言故事:

GD 是一个目标明确的直线奔跑者,永远直奔终点。
SAM 是一个谨慎的探险家,装备越多(网络越深),它越喜欢先花时间去探索那些被忽视的角落(次要特征)。

这种“先捡芝麻,后捡西瓜”的策略,虽然看起来有点笨拙,甚至有时候会走错路,但它往往能让探险家发现别人看不见的风景,从而在复杂的迷宫中找到更稳健的出路。

这篇论文的核心贡献就是揭示了深度网络中 SAM 这种“先微后巨”的独特行为,并提醒我们:在理解 AI 如何学习时,不能只看终点,必须关注它起步和过程中的每一步