Descend or Rewind? Stochastic Gradient Descent Unlearning

本文通过引入扰动或偏置梯度系统分析框架,为随机梯度下降中的“下降删除”(D2D)和“回退删除”(R2D)算法在强凸、凸及非凸损失函数下提供了(ε,δ)(\varepsilon, \delta) 认证遗忘的理论保证,并揭示了两者在不同函数场景下的适用性差异。

Siqiao Mu, Diego Klabjan

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且重要的问题:当用户要求“忘记”他们之前上传的数据时,人工智能模型该如何优雅地“失忆”,而不需要把整个大脑(模型)重新训练一遍?

想象一下,你教了一个超级聪明的学生(AI 模型)认字。后来,这个学生发现其中有一页书(某位用户的数据)是错的,或者用户要求删除这页书。

  • 传统做法:把整本书撕掉,重新从第一页开始教。这太慢了,太费钱了。
  • 本文的做法:研究两种“快速失忆”的魔法,看看哪种更有效。

核心概念:两种“失忆”魔法

论文比较了两种主要的“失忆”策略,我们可以用**“登山”“时光倒流”**来比喻:

1. 下山法 (Descent-to-Delete, D2D)

  • 比喻:想象学生已经爬到了山顶(模型训练完成)。现在要删除一些数据,就像要把山顶的一块石头移走。
    • 做法:学生直接从山顶出发,沿着新的路径(没有那块石头的路)往下走几步,试图找到一个新的平衡点。
    • 优点:对于非常规则、平滑的山(数学上叫“强凸函数”),这种方法很精准,能很快找到新位置。
    • 缺点:现实中的山往往坑坑洼洼、有很多小坑(数学上叫“非凸函数”,比如现在的深度学习模型)。如果从山顶直接往下走,很容易掉进旁边的小坑里(陷入局部最优解),或者根本走不动。这就好比学生从山顶往下跳,结果卡在了半山腰的一个小土坑里,根本没把那块石头的影响真正消除。

2. 时光倒流法 (Rewind-to-Delete, R2D)

  • 比喻:还是那个学生爬到了山顶。
    • 做法:学生不直接从山顶开始改,而是坐时光机回到过去,回到还没爬到山顶、还在半山腰的一个安全 checkpoint(检查点)。然后,从这个旧位置开始,重新沿着没有那块石头的路往上爬。
    • 优点:因为是从一个比较“早”且“安全”的位置重新开始,它不容易掉进小坑。无论山多崎岖(非凸函数),它都能更稳健地找到正确的新路径。
    • 缺点:需要多爬一段路(计算量比直接下山法稍大,但比重头学要快得多)。

论文发现了什么?

作者通过严密的数学证明和实验,得出了以下结论:

  1. 没有“万能钥匙”

    • 如果山非常平滑(强凸函数),“下山法”(D2D)可能更精准,因为它离目标更近。
    • 但是,现实中的 AI 模型(如大语言模型)对应的山通常非常崎岖(非凸函数)。在这种情况下,“下山法”经常失效,学生容易卡在原地不动。
    • “时光倒流法”(R2D)才是现实世界的赢家。它虽然需要多走几步,但能确保学生真正摆脱了那块石头的影响,不会卡在错误的地方。
  2. 数学上的“保险”

    • 以前大家用“下山法”做微调(Finetuning)时,其实没有数学保证说这样真的能“忘记”。
    • 这篇论文给这两种方法都穿上了“防弹衣”(数学证明)。他们证明了:只要我们在最后加一点点“噪音”(就像给学生的记忆加了一层模糊滤镜),就能从数学上保证:新模型和重新训练出来的模型,在概率上是无法区分的。 这意味着用户的数据真的被“忘记”了。
  3. 效率惊人

    • 对于“时光倒流法”,如果训练时间很长,那么“失忆”所需的时间甚至可能是一个常数(不管之前训练了多久,失忆只需要固定的一小段时间)。这就像你读了一万页书,要忘掉其中一页,只需要花几分钟重读最后几十页,而不是重新读一万页。

总结与启示

这就好比你要从一张复杂的地图中擦掉一个点:

  • 下山法就像是从地图边缘直接涂改,容易涂花或者涂不干净,特别是在地图很复杂的时候。
  • 时光倒流法就像是回到涂改前的状态,重新画一遍那一部分,虽然多花了一点时间,但画出来的地图清晰、准确,而且保证那个点真的被擦掉了。

这篇论文的核心贡献是:
它告诉开发者,在处理复杂的现代 AI 模型时,不要盲目使用“下山法”(直接微调),而应该尝试**“时光倒流法”(R2D)**。这不仅更安全、更可靠,而且从数学上保证了用户的隐私权利(即“被遗忘权”)真正得到了落实,同时还能节省大量的计算资源和能源。

简单来说:想真正“忘记”过去,有时候“回到过去”比“直接向前冲”更有效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →