Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且紧迫的问题：如何教人工智能“忘记”它学过的东西，而且是在它不断学习新东西的过程中，一次一次地忘记，而不是把整个大脑清空重来。

想象一下，你是一位拥有超级大脑的全能画家（这就是现在的文生图 AI 模型，比如 Stable Diffusion）。他看过互联网上所有的画作，能画出任何风格（比如梵高、毕加索）和任何物体（比如熊、鸟、树）。

但是，问题来了：

版权和隐私：有人要求画家：“请忘掉‘梵高’的风格，别再画了，因为那是我的版权。”
现实情况：这些要求不是一次性全部来的。今天有人要求忘掉“梵高”，明天有人要求忘掉“毕加索”，后天又有人要求忘掉“熊”的形象。

这篇论文发现，如果让画家一个一个地去执行这些“遗忘”指令，他的脑子会坏掉。

1. 核心问题：为什么“连续遗忘”会让画家变傻？

现状：
目前的 AI 遗忘技术，通常假设所有要求是一次性提出的。比如，有人一次性说：“忘掉梵高、毕加索和熊。”AI 会调整大脑，虽然忘了这些，但画“猫”和“树”的能力还在。

新发现（连续遗忘的灾难）：
如果要求是排队来的：

第 1 次：忘掉“梵高”。画家调整了一下，还能画“猫”。
第 2 次：忘掉“毕加索”。画家又调整了一下。
...
第 12 次：忘掉“水母”。

结果： 画家彻底崩溃了！他不仅忘了“梵高”和“毕加索”，连原本会画的“猫”和“树”也画不出来了，或者画得乱七八糟。

比喻：
这就好比你在擦黑板。

一次性擦除：你拿一块大黑板擦，把“梵高”、“毕加索”、“熊”这几个字一起擦掉。黑板的其他部分（猫、树）依然清晰。
连续擦除：你拿一个小橡皮，先擦掉“梵高”，再擦掉“毕加索”。每擦一次，橡皮都会把黑板上的灰尘（参数）蹭得到处都是。擦了几次后，整个黑板变得灰蒙蒙的，原本清晰的“猫”和“树”也被灰尘盖住了，看不清了。

论文把这种现象称为**“参数漂移”（Parameter Drift）**。每次遗忘，AI 的“大脑参数”都会偏离原本健康的状态一点点。连续做十几次，偏离得太远，原本的功能就全丢了。

2. 解决方案：给遗忘过程加上“安全带”

作者提出了一套“正则化”（Regularization）方法，简单说就是给遗忘过程加上限制和规则，防止画家的大脑乱跑。

方法一：限制“动作幅度” (Update Norm Regularization)

比喻：每次擦黑板时，规定你只能轻轻擦，不能用力过猛。
原理：限制 AI 每次修改大脑参数的幅度。不管是用 L1 还是 L2 正则化，就是告诉 AI：“你可以忘掉目标，但别把其他东西也带偏了。”

方法二：只动“关键部位” (Selective Fine-Tuning)

比喻：画家的大脑有上亿个神经元。忘掉“梵高”时，不需要把整个大脑都重新训练。
原理：AI 会计算哪些神经元对“梵高”最重要，只修改那一点点，其他 99% 的神经元（负责画猫、画树的）保持不动。这就好比只换掉画梵高风格的那支笔，而不是把整个画箱都换了。

方法三：模型合并 (Model Merging)

比喻：与其让画家一个人连续擦黑板，不如让他分别练习“忘掉梵高”、“忘掉毕加索”、“忘掉熊”，每次练习完都回到原点。最后，把这几次练习的结果平均一下。
原理：分别训练出的模型都离原点很近，把它们“融合”在一起，既能达到遗忘效果，又不会让大脑偏离太远。

3. 终极大招：语义感知与“投影” (Gradient Projection)

这是论文最精彩的部分。作者发现，“忘记”一个东西，最容易误伤的是跟它长得像的东西。

比喻：
- 如果你要求画家忘掉“梵高”（一种风格），他可能会不小心把“印象派”也忘了，因为它们太像了。
- 如果你要求忘掉“熊”，可能会误伤“猫”或“狗”。
- 但是，忘掉“熊”通常不会误伤“梵高风格”。
问题：普通的遗忘方法，在擦除“梵高”时，会像一阵大风，把旁边相似的“印象派”也吹跑了。
解决方案：梯度投影 (Gradient Projection)
- 比喻：想象你在推一个物体。你想把它推向“忘掉”的方向，但旁边有一个“相似概念”的保护区。
- 操作：作者设计了一个数学过滤器。当 AI 准备修改大脑时，这个过滤器会把那些会误伤“相似概念”的力给抵消掉。
- 效果：就像你推物体时，只允许它往“正前方”走，不允许它往“侧面”（相似概念的方向）偏。这样，AI 能精准地忘掉“梵高”，同时完美保留“印象派”和“猫”。

4. 总结与意义

这篇论文告诉我们：

现实很骨感：AI 遗忘不能一次性搞定，必须面对“连续遗忘”的挑战。
现状很糟糕：如果不加限制，连续遗忘会让 AI 变傻（Utility Collapse）。
未来有希望：通过限制修改幅度、只改关键部位，以及保护相似概念（梯度投影），我们可以让 AI 在满足用户“遗忘”要求的同时，依然保持聪明，不会把原本会画的东西也忘了。

一句话总结：
这就好比给 AI 医生做手术，以前是“切一刀忘一个”，结果把病人切晕了；现在的方法像是“微创手术”，精准切除病灶，同时用特殊的“止血钳”（正则化）和“导航仪”（梯度投影）保护周围的健康组织，让病人（AI 模型）术后依然活蹦乱跳。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective》（文本到图像扩散模型的持续遗忘：正则化视角）。

以下是对该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：文本到图像（Text-to-Image, T2I）扩散模型（如 Stable Diffusion）在大规模互联网数据上训练，虽然能力强大，但存在版权侵权、生成有害内容或偏见等风险。因此，“机器遗忘”（Machine Unlearning）技术应运而生，旨在从预训练模型中移除特定概念（如特定艺术风格、人物肖像或物体），而无需重新训练整个模型。
现有局限：现有的遗忘方法通常假设所有遗忘请求是一次性批量到达的。然而，在现实世界中，遗忘请求通常是按顺序陆续到达的（例如，今天要求移除“暴力内容”，明天要求移除“某艺术家的风格”）。
核心问题：本文首次系统性地研究了持续遗忘（Continual Unlearning, CU）在 T2I 扩散模型中的表现。研究发现，现有的流行遗忘方法（如 ConAbl）在持续遗忘场景下会迅速发生效用崩溃（Utility Collapse）：
- 模型不仅忘记了目标概念，还迅速遗忘了保留的概念（即与遗忘目标无关的概念）。
- 生成的图像质量严重下降，甚至无法生成有意义的图像。
- 根本原因：连续的遗忘步骤导致模型参数相对于预训练权重发生了累积性漂移（Cumulative Parameter Drift），使得模型逐渐偏离了原始的数据流形（Manifold）。

2. 方法论 (Methodology)

为了解决参数漂移和语义干扰问题，作者提出了一系列即插即用（Plug-and-Play）的正则化策略，这些策略可以与现有的遗忘算法（如 ConAbl, SculpMem）无缝结合。

A. 通用正则化策略 (Generic Regularizers)

旨在限制参数更新的幅度，防止模型过度偏离预训练状态：

更新范数正则化 (Update Norm Regularization)：
- 在损失函数中加入正则项，惩罚当前参数 $\theta$ 与上一轮遗忘模型 $\theta_{n-1}$ 之间的差异（ $L_1$ 或 $L_2$ 范数）。
- 作用：限制每一步的参数更新幅度，防止漂移过大。
选择性微调 (Selective Fine-Tuning, SelFT)：
- 基于梯度重要性（Gradient Saliency），仅更新对当前遗忘任务最关键的那部分参数（Top-k%）。
- 作用：限制可训练参数的数量，从而约束整体漂移。
模型合并 (Model Merging)：
- 对每个遗忘请求独立地从预训练模型开始进行遗忘，得到多个独立模型，然后使用 TIES-Merging 等技术将它们合并。
- 作用：利用独立遗忘模型仍靠近预训练权重的特性，通过合并将更新限制在原始损失盆地（Loss Basin）内。

B. 语义感知梯度投影 (Semantic-Aware Gradient Projection)

这是本文的核心创新，专门解决**域内（In-Domain）**保留困难的问题（例如：遗忘“抽象主义”风格时，容易误伤“印象派”风格）。

洞察：实验发现，保留概念的文本嵌入（Text Embedding）与遗忘概念的相似度越高，保留效果越差。这是因为扩散模型中的交叉注意力机制（Cross-Attention）将语义相似的文本映射到相近的 Key/Value 向量，更新权重抑制目标概念时，不可避免地扭曲了相似概念的表示。
方法：
1. 构建一个由与遗忘目标语义相似的辅助概念组成的子空间 $S$ （基于文本嵌入）。
2. 计算遗忘任务的梯度 $g^*$ 。
3. 将梯度投影到子空间 $S$ 的正交补空间上： $g' = (I - P_S)g^*$ 。
4. 原理：这确保了参数更新方向在数学上对语义相似概念的一阶变化为零（First-order invariance），从而在移除目标概念的同时，最大程度地保护了相似概念。

3. 实验设置与基准 (Benchmark)

数据集与模型：基于 UNLEARNCANVAS 基准，使用微调后的 Stable Diffusion。
任务设置：
- 持续风格遗忘：按顺序遗忘 12 种艺术风格，保留其他 12 种风格（域内）和 8 种物体（跨域）。
- 持续物体遗忘：按顺序遗忘 12 种物体，保留其他物体和风格。
- 扩展验证：在名人（Celebrity）遗忘和 SDXL 架构上也进行了验证。
评估指标：
- 遗忘准确率 (UA)：成功移除目标概念的比例。
- 保留准确率 (RA)：保留概念生成能力的比例。
- 细分为 RA-I（域内保留，如风格对风格）和 RA-C（跨域保留，如风格对物体）。

4. 主要结果 (Results)

效用崩溃验证：
- 现有方法（ConAbl, SculpMem）在连续处理 12 个请求后，UA 保持较高，但 RA-I 和 RA-C 急剧下降，模型几乎失效。
- 相比之下，同时遗忘所有概念（Simultaneous）能保持较好的保留能力，但计算成本随请求数量线性甚至超线性增长，不可行。
正则化策略的有效性：
- 所有提出的正则化方法（范数约束、SelFT、模型合并）都显著减少了参数漂移，大幅提升了跨域保留能力（RA-C）。
- 模型合并在整体保留能力上表现最强。
语义感知的重要性：
- 通用正则化方法在**域内保留（RA-I）**上仍有局限，因为语义相似的概念极易受到干扰。
- 梯度投影法在 RA-I 上取得了最佳效果，显著优于其他方法。
- 组合策略：将“梯度投影”与“选择性微调（SelFT）”或“模型合并”结合，能同时获得最佳的域内和跨域保留性能（Harmonic Mean 最高）。
理论验证：
- 通过泰勒展开证明，保留损失的变化与参数更新范数成正比。
- 实验证实，即使控制优化步数相同，连续遗忘的参数漂移仍远大于同时遗忘，证明漂移是顺序遗忘的固有属性。

5. 关键贡献 (Key Contributions)

首个系统性研究：首次定义了文本到图像扩散模型的持续遗忘（CU）任务，并揭示了现有方法在该场景下的失效机制（效用崩溃）。
归因分析：将失效归因于累积参数漂移和语义干扰，并提供了理论推导（损失函数的 Lipschitz 连续性）和实证支持。
提出有效解决方案：
- 提出了一套通用的正则化框架（范数约束、SelFT、模型合并）。
- 创新性地提出了语义感知梯度投影方法，利用交叉注意力机制的特性，通过正交投影消除对相似概念的干扰。
基准与开源：扩展了 UNLEARNCANVAS 基准，提供了风格、物体和名人遗忘的持续序列测试，并开源了代码和模型。

6. 意义与影响 (Significance)

理论意义：揭示了持续遗忘中“遗忘”与“保留”之间的动态平衡机制，证明了简单的正则化策略对于防止灾难性遗忘至关重要。
实践价值：为生成式 AI 的安全部署提供了切实可行的方案。在现实世界中，用户请求往往是动态和连续的，本文提出的方法使得模型能够在不重新训练的情况下，安全、持续地响应合规性请求（如 GDPR、CCPA 中的被遗忘权）。
未来方向：指出了设计原生支持持续遗忘的算法（而非仅作为后处理正则化）是未来的重要方向，并强调了在对抗性恢复攻击下的鲁棒性研究。

总结：这篇论文通过引入正则化视角，特别是语义感知的梯度投影，成功解决了文本到图像扩散模型在持续遗忘场景下的效用崩溃问题，为构建安全、可控且可持续更新的生成式 AI 系统奠定了坚实基础。