Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

该论文首次系统研究了文本到图像扩散模型的持续遗忘问题,揭示了现有方法因参数累积漂移导致效用崩溃的缺陷,并提出通过引入正则化(特别是基于语义感知的梯度投影方法)来有效缓解漂移并保留保留知识,从而为安全可信的生成式 AI 奠定了重要基础。

Justin Lee, Zheda Mai, Jinsu Yoo, Chongyu Fan, Cheng Zhang, Wei-Lun Chao

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且紧迫的问题:如何教人工智能“忘记”它学过的东西,而且是在它不断学习新东西的过程中,一次一次地忘记,而不是把整个大脑清空重来。

想象一下,你是一位拥有超级大脑的全能画家(这就是现在的文生图 AI 模型,比如 Stable Diffusion)。他看过互联网上所有的画作,能画出任何风格(比如梵高、毕加索)和任何物体(比如熊、鸟、树)。

但是,问题来了:

  1. 版权和隐私:有人要求画家:“请忘掉‘梵高’的风格,别再画了,因为那是我的版权。”
  2. 现实情况:这些要求不是一次性全部来的。今天有人要求忘掉“梵高”,明天有人要求忘掉“毕加索”,后天又有人要求忘掉“熊”的形象。

这篇论文发现,如果让画家一个一个地去执行这些“遗忘”指令,他的脑子会坏掉。

1. 核心问题:为什么“连续遗忘”会让画家变傻?

现状:
目前的 AI 遗忘技术,通常假设所有要求是一次性提出的。比如,有人一次性说:“忘掉梵高、毕加索和熊。”AI 会调整大脑,虽然忘了这些,但画“猫”和“树”的能力还在。

新发现(连续遗忘的灾难):
如果要求是排队来的:

  • 第 1 次:忘掉“梵高”。画家调整了一下,还能画“猫”。
  • 第 2 次:忘掉“毕加索”。画家又调整了一下。
  • ...
  • 第 12 次:忘掉“水母”。

结果: 画家彻底崩溃了!他不仅忘了“梵高”和“毕加索”,连原本会画的“猫”和“树”也画不出来了,或者画得乱七八糟。

比喻:
这就好比你在擦黑板。

  • 一次性擦除:你拿一块大黑板擦,把“梵高”、“毕加索”、“熊”这几个字一起擦掉。黑板的其他部分(猫、树)依然清晰。
  • 连续擦除:你拿一个小橡皮,先擦掉“梵高”,再擦掉“毕加索”。每擦一次,橡皮都会把黑板上的灰尘(参数)蹭得到处都是。擦了几次后,整个黑板变得灰蒙蒙的,原本清晰的“猫”和“树”也被灰尘盖住了,看不清了。

论文把这种现象称为**“参数漂移”(Parameter Drift)**。每次遗忘,AI 的“大脑参数”都会偏离原本健康的状态一点点。连续做十几次,偏离得太远,原本的功能就全丢了。

2. 解决方案:给遗忘过程加上“安全带”

作者提出了一套“正则化”(Regularization)方法,简单说就是给遗忘过程加上限制和规则,防止画家的大脑乱跑。

方法一:限制“动作幅度” (Update Norm Regularization)

  • 比喻:每次擦黑板时,规定你只能轻轻擦,不能用力过猛。
  • 原理:限制 AI 每次修改大脑参数的幅度。不管是用 L1 还是 L2 正则化,就是告诉 AI:“你可以忘掉目标,但别把其他东西也带偏了。”

方法二:只动“关键部位” (Selective Fine-Tuning)

  • 比喻:画家的大脑有上亿个神经元。忘掉“梵高”时,不需要把整个大脑都重新训练。
  • 原理:AI 会计算哪些神经元对“梵高”最重要,只修改那一点点,其他 99% 的神经元(负责画猫、画树的)保持不动。这就好比只换掉画梵高风格的那支笔,而不是把整个画箱都换了。

方法三:模型合并 (Model Merging)

  • 比喻:与其让画家一个人连续擦黑板,不如让他分别练习“忘掉梵高”、“忘掉毕加索”、“忘掉熊”,每次练习完都回到原点。最后,把这几次练习的结果平均一下。
  • 原理:分别训练出的模型都离原点很近,把它们“融合”在一起,既能达到遗忘效果,又不会让大脑偏离太远。

3. 终极大招:语义感知与“投影” (Gradient Projection)

这是论文最精彩的部分。作者发现,“忘记”一个东西,最容易误伤的是跟它长得像的东西。

  • 比喻

    • 如果你要求画家忘掉“梵高”(一种风格),他可能会不小心把“印象派”也忘了,因为它们太像了。
    • 如果你要求忘掉“熊”,可能会误伤“猫”或“狗”。
    • 但是,忘掉“熊”通常不会误伤“梵高风格”。
  • 问题:普通的遗忘方法,在擦除“梵高”时,会像一阵大风,把旁边相似的“印象派”也吹跑了。

  • 解决方案:梯度投影 (Gradient Projection)

    • 比喻:想象你在推一个物体。你想把它推向“忘掉”的方向,但旁边有一个“相似概念”的保护区。
    • 操作:作者设计了一个数学过滤器。当 AI 准备修改大脑时,这个过滤器会把那些会误伤“相似概念”的力给抵消掉
    • 效果:就像你推物体时,只允许它往“正前方”走,不允许它往“侧面”(相似概念的方向)偏。这样,AI 能精准地忘掉“梵高”,同时完美保留“印象派”和“猫”。

4. 总结与意义

这篇论文告诉我们:

  1. 现实很骨感:AI 遗忘不能一次性搞定,必须面对“连续遗忘”的挑战。
  2. 现状很糟糕:如果不加限制,连续遗忘会让 AI 变傻(Utility Collapse)。
  3. 未来有希望:通过限制修改幅度只改关键部位,以及保护相似概念(梯度投影),我们可以让 AI 在满足用户“遗忘”要求的同时,依然保持聪明,不会把原本会画的东西也忘了。

一句话总结:
这就好比给 AI 医生做手术,以前是“切一刀忘一个”,结果把病人切晕了;现在的方法像是“微创手术”,精准切除病灶,同时用特殊的“止血钳”(正则化)和“导航仪”(梯度投影)保护周围的健康组织,让病人(AI 模型)术后依然活蹦乱跳。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →