Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

本文揭示了 Sharpness-Aware Minimization (SAM) 利用单步上升点梯度更新当前参数能更准确地逼近邻域内最大值的直观原理,并针对现有近似误差及多步上升带来的质量退化问题,提出了计算开销极低且性能更优的显式锐度感知最小化方法(XSAM)。

Jianlong Chen, Zhiming Zhou

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要是在解决一个机器学习领域非常流行的优化算法(叫 SAM)的“小毛病”,并提出了一个更聪明、更高效的升级版(叫 XSAM)。

为了让你轻松理解,我们可以把训练一个 AI 模型想象成在一个大雾弥漫的山区寻找最低的山谷(也就是让 AI 犯错最少的地方)

1. 背景:为什么要找“平坦”的山谷?

  • 普通方法(SGD): 就像你蒙着眼下山,只盯着脚下的坡度往下走。这很容易让你掉进一个又深又窄的坑(局部最优解)。虽然这个坑底很低,但坑壁很陡。一旦稍微有点风吹草动(比如遇到没见过的数据),你很容易滚出坑外,导致 AI 表现不稳定。
  • SAM 方法(Sharpness-Aware Minimization): 它的目标是找又低又宽的大平原(平坦的最低点)。这种地方即使有点小震动,你也不会滚出去,AI 的泛化能力(适应新数据的能力)更强。

2. 旧方法(SAM)是怎么做的?有什么“误会”?

SAM 的核心思想是:“别只看脚下,先往四周探探,看看哪边最高,然后往反方向走。”

  • SAM 的操作步骤:

    1. 站在当前位置(θ\theta)。
    2. 先往上爬一小步,爬到附近的一个高点(ϑ\vartheta)。
    3. 关键一步: 站在刚才爬上去的那个高点,看看那里的坡度(梯度)指向哪里,然后把这个“指向”拿回来,用来指导你从原来的位置往下走。
  • 论文指出的“误会”:
    以前的科学家觉得,SAM 之所以有效,是因为它忽略了一些复杂的数学细节(雅可比矩阵)。但论文作者发现,其实有一个更直观、更有趣的解释:

    • 比喻: 想象你在迷雾中,脚下的坡度(当地梯度)可能骗人,因为它太局部了。但是,如果你先往上爬一步,站在高处往下看,你看到的“最高峰”的方向,往往比你在原地瞎猜的要准得多!
    • 结论: 站在高处(上升点)看下来的方向,能更好地帮你避开附近的“最高峰”(最坏的情况),从而更直接地逃向平坦区域。

3. 旧方法(SAM)的两大缺陷

虽然 SAM 比原来好,但作者发现它有两个大问题:

  1. 看得不准(近似误差): 站在高处往下看,虽然比原地看准,但毕竟不是直接测量。有时候这个“看”的方向还是会有偏差,不够精确。
  2. 走多了会晕(多步失效): 如果你为了看得更清楚,先爬好几步(多步上升),再回头看。结果发现,爬得越远,那个“高处”的方向可能已经歪了,甚至完全指错了方向。这就解释了为什么以前的“多步 SAM"效果反而不如“单步 SAM"。

4. 新方案(XSAM):更聪明的“探路者”

为了解决上述问题,作者提出了 XSAM (eXplicit Sharpness-Aware Minimization)

  • 核心创新:不再“猜”,而是“探”。

    • 旧方法: 站在高处猜一下最高峰在哪。
    • 新方法: 站在高处,向四周伸出一根“探测杆”,主动去测量哪个方向最高,然后精准地往反方向走。
  • 具体做法(简化版):

    1. 先像 SAM 一样爬几步,到达一个高点。
    2. 在这个高点,不要只盯着一个方向,而是在一个二维的平面上(由“你爬上去的路径”和“高处的坡度”决定的平面)进行主动搜索
    3. 在这个平面上,快速试几个方向,找出真正最高的那个点。
    4. 确定方向后,再回到原点,沿着这个经过验证的、最准的反方向下山。
  • 为什么快?
    作者发现,这个“最佳探测方向”在训练过程中变化很慢。所以,不需要每一步都重新探测,每个训练周期(Epoch)探测一次就够了。这就像你下山时,每隔一段路抬头确认一次方向,而不是每走一步都停下来看,所以计算成本几乎可以忽略不计。

5. 总结:XSAM 好在哪里?

特性 旧 SAM 新 XSAM 通俗比喻
找方向 站在高处“猜”方向 站在高处“测”方向 猜路 vs 拿指南针探路
准确性 偶尔会猜错,多步爬升后更不准 始终精准,适应地形变化 雾里看花 vs 清晰导航
效率 快,但效果有上限 几乎一样快,但效果更好 同样的时间,走得更稳
结果 能找到不错的平坦区 能找到更平坦、更稳固的区域 找到了更宽的平原

一句话总结:
这篇论文告诉我们,以前那个“先爬高再下山”的算法之所以有效,是因为高处视野更好;但它偶尔会看走眼。新的 XSAM 算法给这个“探路者”配了一个智能指南针,让它能主动确认最高峰的方向,从而更精准、更稳定地找到 AI 训练中最完美的“平坦山谷”,而且几乎不增加任何额外的时间成本。

实验证明,无论是在简单的图像分类任务,还是复杂的翻译任务中,XSAM 都比原来的 SAM 表现更好,让 AI 模型更聪明、更抗造。