Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个非常有趣且紧迫的问题：如何让 AI 绘画模型“忘记”它画过的某些特定东西，而且不需要告诉它“忘了什么”的具体名字。

想象一下，你有一个超级聪明的画家（AI 模型），他什么都能画。但是，有一天你发现：

他画某个特定明星的脸时，总是画得有点像，但你不想让他再画这张脸了（隐私问题）。
他画“爱尔兰国旗”时，总是把颜色搞错；或者画“所罗门王”时，把人物画成了沙拉（文化误解）。

难点在于： 这些错误往往无法通过简单的“提示词”（Prompt）来精准定位。比如，你没法输入一个提示词说“请忘记那个画成沙拉的所罗门王”，因为模型根本不知道你在指哪一个具体的错误版本。

这篇论文提出了一种**“无提示词实例遗忘”**的方法。为了让你更容易理解，我们可以用几个生动的比喻来拆解它：

1. 核心挑战：如何“指鹿为马”地教 AI 忘记？

传统方法（有提示词）： 就像老师教学生：“以后看到‘苹果’这个词，就不要画红色的圆，要画香蕉。”这很有效，但前提是你要能准确说出“苹果”这个词。
现实困境（无提示词）： 现在的情况是，学生画错了一张图（比如把某人的脸画歪了，或者把国旗画错了），但你无法用语言描述“就是那张图，忘了它”。你只能指着那张图说：“这张图我不想要了。”
以前的笨办法： 如果强行让 AI 忘掉这张图，它可能会变得“失忆”，连其他正常的脸或国旗也画不好了，甚至开始乱画（这就是论文说的“破坏模型完整性”）。

2. 论文的神来之笔：替身演员（Surrogate）

作者想出了一个绝妙的办法：找一个“替身演员”来顶替那个不想被记住的“原角”。

比喻： 假设你想让 AI 忘记“张三”这张脸。
- 传统做法： 直接告诉 AI“忘掉张三”。但这太难了，AI 可能会把“李四”也忘了。
- 论文做法： 我们拿一张“张三”的照片，用修图软件稍微改一下（比如换个发型、稍微变个脸，但看起来还是像个人），变成一张“替身照片”（Surrogate）。
- 训练过程： 我们告诉 AI：“当你看到‘张三’这张原图时，不要把它画成‘张三’，而是把它画成这张‘替身照片’。”
- 结果： AI 学会了把“张三”映射到“替身”上。因为“替身”和“张三”不一样，AI 实际上就“忘记”了如何精准画出原本的“张三”。同时，因为“替身”和原图很像，AI 画其他东西的能力（比如画“李四”或画“美国国旗”）不会受到太大影响。

3. 三个关键技巧（让“遗忘”更精准）

为了让这个“替身计划”成功，作者用了三个聪明的策略：

A. 替身制造术 (Image Editing)

怎么做： 利用现有的修图工具，把不想保留的特征（比如错误的肤色、错误的国旗颜色）改掉，但保留整体结构。
比喻： 就像给那个错误的“所罗门王”换上一件新衣服，让他看起来像个普通人，而不是那个错误的“沙拉王”。

B. 时间感知的“轻重缓急” (Timestep-aware Weighting)

怎么做： AI 画画是一个从“一团模糊的噪点”慢慢变清晰的过程。
- 早期（模糊阶段）： 这时候主要决定画面的大轮廓（比如是个脸还是棵树）。这时候我们要保护模型，不要让它乱改，所以主要让它“记住”正常的画。
- 后期（清晰阶段）： 这时候决定细节（比如五官、颜色）。这时候我们要重点让它“忘记”那个错误的细节。
比喻： 就像教孩子写字。刚开始练笔顺（大轮廓）时，不能让他乱改，要稳；到了最后描红（细节）时，再专门纠正那个写错的字。

C. 梯度手术 (Gradient Surgery)

怎么做： 在训练时，AI 会收到两个指令：
1. “记住其他正常的图”（正向指令）。
2. “忘掉这张错误的图”（反向指令）。
  这两个指令有时候会打架（梯度冲突）。作者用了一种数学方法（梯度手术），像外科医生一样，把冲突的部分“切掉”或“调整方向”，让两个指令和平共处。
比喻： 就像开车时，左手想往左转（忘掉），右手想往右转（记住）。如果不处理，车会原地打转。作者的方法就是帮司机协调双手，让车既能避开障碍物（忘掉错误的），又能继续直行（保持其他能力）。

4. 为什么这很重要？

隐私保护： 如果有人在 AI 生成的图里出现了你的脸，而你又无法通过提示词控制，这个方法可以让 AI 彻底“忘记”这张脸，保护你的隐私（符合 GDPR 的“被遗忘权”）。
纠正偏见和错误： 就像论文里提到的，AI 经常把不同国家的国旗画错，或者把历史人物画成奇怪的种族。这个方法可以精准地“修正”这些特定的错误，而不需要重新训练整个庞大的模型。
不用重新训练： 这是一个“热修复”（Hotfix）。就像给软件打补丁一样，快速、低成本，不需要把整个 AI 模型推倒重来。

总结

这篇论文就像给 AI 画家配备了一位**“精明的编辑”**。
当 AI 画出了一张你不想要的图（比如画错了的国旗或某人的脸），你不需要告诉 AI“这个词代表错误”，你只需要把那张图稍微修一下（变成替身），然后告诉 AI：“以后画这个，就照着替身画，别画原来的了。”

这样，AI 就精准地忘记了那个特定的错误，同时保留了它原本高超的绘画技巧，不会变成“画啥都错”的笨蛋。这对于保护隐私和纠正 AI 的刻板印象非常有价值。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心挑战：不可提示的实例遗忘 (Unpromptable Instance Unlearning)
现有的机器学习遗忘（Machine Unlearning）研究主要集中在**基于提示（Prompt-based）**的方法上，即通过特定的文本提示（如“某位明星”或“某种风格”）来引导模型遗忘特定概念。然而，这种方法存在显著局限性：

细粒度实例无法通过提示区分：许多不需要的输出（如特定个人的面部、文化或事实错误的生成）无法通过文本提示精确指定。例如，无法用提示词区分“正确的历史人物形象”和“错误的种族/文化刻板印象”。
无条件扩散模型的困境：对于无条件扩散模型（Unconditional DMs），根本不存在“提示”这一概念，因此基于提示的遗忘方法完全失效。
现有无提示方法的缺陷：现有的无提示遗忘方法往往难以在“遗忘目标”和“保持模型完整性”之间取得平衡，容易导致模型性能严重退化或产生不必要的扭曲。

目标：
提出一种无提示（Prompt-free）的实例级遗忘方法，能够选择性地遗忘特定的、不可通过提示区分的输出实例（如特定人脸、错误的文化符号），同时最大程度地保持模型在其他任务上的生成能力和完整性。

2. 方法论 (Methodology)

作者提出了一种基于**代理（Surrogate-based）**的遗忘框架，主要包含三个核心技术组件：

A. 基于代理的遗忘目标 (Surrogate-based Forgetting Objective)

核心思想：不直接让模型“忘记”原始数据 $x_f$ ，而是通过图像编辑技术构建一个代理图像（Surrogate Image, $x_s$ ）。该代理图像保留了原始图像的整体结构，但修改了需要遗忘的属性（如改变人脸身份、修正错误的旗帜颜色）。
机制：在训练过程中，模型被引导去预测噪声，但针对遗忘数据集 $D_f$ $D_{f}$ 中的样本，其目标噪声被替换为基于代理图像 $x_s$ $x_{s}$ 计算出的噪声 $\epsilon'$ $ϵ^{'}$ 。
- 公式： $\epsilon' = \frac{x_t - \sqrt{\bar{\alpha}_t} x_s}{\sqrt{1 - \bar{\alpha}_t}}$
- 通过这种方式，模型学习到将 $x_t$ 映射到 $x_s$ 而非原始 $x_f$ ，从而在生成时“遗忘”原始特征，转而生成代理特征。
代理构建工具：使用了 TediGAN（用于人脸编辑）、SDEdit（用于 SD3 中的物体编辑）或人工绘制（用于旗帜等）。

B. 时间步感知加权 (Timestep-aware Weighting)

问题：遗忘（Forget）和记忆（Remember）两个目标在优化过程中存在冲突。
策略：利用扩散模型的特性，不同时间步（Timestep）对图像生成的影响不同。
- 早期时间步：主要影响图像的精细细节（如人脸特征），此时应强调**记忆损失（ $L_r$ ）**以保持模型完整性。
- 晚期时间步：主要影响图像的整体形状和结构，此时应强调**遗忘损失（ $L_f$ ）**以消除特定实例。
实现：引入动态权重 $\lambda(t) = 1 - \beta t$ ，随时间步 $t$ 增加，遗忘的权重逐渐增加，记忆的权重逐渐减少。

C. 梯度手术 (Gradient Surgery)

问题：记忆损失 $L_r$ 和遗忘损失 $L_f$ 的梯度方向往往冲突，直接相加会导致优化不稳定或相互抵消。
策略：采用梯度投影（Gradient Projection）技术。
- 计算记忆梯度 $g_r$ 和遗忘梯度 $g_f$ 。
- 如果 $g_r \cdot g_f < 0$ （即梯度冲突），则将 $g_f$ 投影到 $g_r$ 的正交补空间上，消除冲突分量，保留 $g_f$ 中不损害记忆目标的部分。
- 最终更新梯度为 $g = g_r + g'_f$ 。

D. 理论分析

作者通过岭回归（Ridge Regression）的数学推导证明，相比于精确遗忘（Exact Unlearning，即直接移除数据点），基于代理的遗忘在保持原始模型参数分布（ $\theta^*$ ）方面更优。精确移除可能导致参数空间发生剧烈偏移，而引入一个接近原始数据的代理，可以在实现遗忘效果的同时，使新参数 $\theta^\dagger$ 更靠近原始参数，从而更好地保持模型完整性。

3. 主要贡献 (Key Contributions)

问题定义：首次系统性地探讨了扩散模型中“不可提示（Unpromptable）”的实例级遗忘问题，填补了从概念级遗忘到细粒度实例遗忘的空白。
方法创新：提出了一种无需提示的代理基础遗忘方法，结合了图像编辑、时间步感知加权和梯度手术，有效解决了遗忘与保持模型完整性之间的权衡难题。
广泛适用性：该方法在无条件扩散模型（DDPM-CelebA）和条件扩散模型（Stable Diffusion 3）上均取得了优异效果。
理论与实验验证：提供了理论证明说明代理方法优于精确移除，并通过大量实验验证了其在单实例、多实例遗忘以及跨域（OOD）场景下的有效性。

4. 实验结果 (Results)

实验在 CelebA-HQ（无条件）和 Stable Diffusion 3（有条件）上进行，对比了 NegGrad、EraseDiff、SISS 等基线方法。

遗忘效果 (Forgetting)：
- 使用 SSCD（自监督复制检测）指标评估，所有方法（包括本文方法）均能将 SSCD 降至 0.4 以下，表明成功遗忘。
- 本文方法在遗忘特定人脸或修正文化错误（如将错误的“萨拉丁”改为正确形象，修正“爱尔兰国旗”错误）方面表现优异。
模型完整性 (Model Integrity)：
- 关键指标：LPIPS（感知相似度）、SSIM（结构相似度）、FID（分布距离）。
- 结果：基线方法（如 NegGrad）虽然能遗忘，但往往导致生成图像出现伪影或整体质量下降（LPIPS 高，SSIM 低）。
- 本文方法：在保持 SSCD 低值（成功遗忘）的同时，显著优于基线方法。生成的非目标图像与预训练模型几乎一致（SSIM > 0.87, LPIPS < 0.35），证明了极高的模型完整性。
多实例遗忘：
- 在连续遗忘多个名人（如 Robin Li, Kate del Castillo 等）的任务中，本文方法依然保持了稳定的生成质量，未出现灾难性遗忘。
消融实验：
- 证明了代理图像的质量至关重要：简单的翻转或加噪效果不如精心编辑的图像。
- 证明了时间步加权和梯度手术对平衡遗忘与记忆目标的有效性。

5. 意义与影响 (Significance)

隐私与伦理合规：该方法为生成式 AI 服务提供商提供了一种实用的“热修复（Hotfix）”方案。当用户要求删除特定人脸（符合 GDPR“被遗忘权”）或模型生成了具有文化偏见/事实错误的图像时，无需重新训练整个模型，即可通过微调快速移除这些特定实例。
突破提示词限制：解决了当前 AI 安全领域的一个痛点，即许多有害或敏感内容无法通过简单的提示词过滤来识别和移除。
技术范式转移：展示了在扩散模型中，通过“修改目标映射”（使用代理）而非“直接擦除数据”来实现遗忘，是一种更稳健、副作用更小的策略。

总结：这篇论文提出了一种高效、灵活的无提示实例遗忘框架，成功解决了扩散模型中难以通过提示词定义的特定实例（如人脸、文化错误）的移除问题，同时在保持模型整体生成能力方面达到了目前的最先进水平。

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

1. 核心挑战：如何“指鹿为马”地教 AI 忘记？

2. 论文的神来之笔：替身演员（Surrogate）

3. 三个关键技巧（让“遗忘”更精准）

A. 替身制造术 (Image Editing)

B. 时间感知的“轻重缓急” (Timestep-aware Weighting)

C. 梯度手术 (Gradient Surgery)

4. 为什么这很重要？

总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

A. 基于代理的遗忘目标 (Surrogate-based Forgetting Objective)

B. 时间步感知加权 (Timestep-aware Weighting)

C. 梯度手术 (Gradient Surgery)

D. 理论分析

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers