Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

该论文提出了一种基于代理的无提示实例遗忘方法,利用图像编辑、时间步感知加权和梯度手术技术,使扩散模型能够精准遗忘无法通过文本提示指定的特定实例(如人脸或文化误读),同时保持模型其余功能的完整性。

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个非常有趣且紧迫的问题:如何让 AI 绘画模型“忘记”它画过的某些特定东西,而且不需要告诉它“忘了什么”的具体名字。

想象一下,你有一个超级聪明的画家(AI 模型),他什么都能画。但是,有一天你发现:

  1. 他画某个特定明星的脸时,总是画得有点像,但你不想让他再画这张脸了(隐私问题)。
  2. 他画“爱尔兰国旗”时,总是把颜色搞错;或者画“所罗门王”时,把人物画成了沙拉(文化误解)。

难点在于: 这些错误往往无法通过简单的“提示词”(Prompt)来精准定位。比如,你没法输入一个提示词说“请忘记那个画成沙拉的所罗门王”,因为模型根本不知道你在指哪一个具体的错误版本。

这篇论文提出了一种**“无提示词实例遗忘”**的方法。为了让你更容易理解,我们可以用几个生动的比喻来拆解它:

1. 核心挑战:如何“指鹿为马”地教 AI 忘记?

  • 传统方法(有提示词): 就像老师教学生:“以后看到‘苹果’这个词,就不要画红色的圆,要画香蕉。”这很有效,但前提是你要能准确说出“苹果”这个词。
  • 现实困境(无提示词): 现在的情况是,学生画错了一张图(比如把某人的脸画歪了,或者把国旗画错了),但你无法用语言描述“就是那张图,忘了它”。你只能指着那张图说:“这张图我不想要了。”
  • 以前的笨办法: 如果强行让 AI 忘掉这张图,它可能会变得“失忆”,连其他正常的脸或国旗也画不好了,甚至开始乱画(这就是论文说的“破坏模型完整性”)。

2. 论文的神来之笔:替身演员(Surrogate)

作者想出了一个绝妙的办法:找一个“替身演员”来顶替那个不想被记住的“原角”。

  • 比喻: 假设你想让 AI 忘记“张三”这张脸。
    • 传统做法: 直接告诉 AI“忘掉张三”。但这太难了,AI 可能会把“李四”也忘了。
    • 论文做法: 我们拿一张“张三”的照片,用修图软件稍微改一下(比如换个发型、稍微变个脸,但看起来还是像个人),变成一张“替身照片”(Surrogate)。
    • 训练过程: 我们告诉 AI:“当你看到‘张三’这张原图时,不要把它画成‘张三’,而是把它画成这张‘替身照片’。”
    • 结果: AI 学会了把“张三”映射到“替身”上。因为“替身”和“张三”不一样,AI 实际上就“忘记”了如何精准画出原本的“张三”。同时,因为“替身”和原图很像,AI 画其他东西的能力(比如画“李四”或画“美国国旗”)不会受到太大影响。

3. 三个关键技巧(让“遗忘”更精准)

为了让这个“替身计划”成功,作者用了三个聪明的策略:

A. 替身制造术 (Image Editing)

  • 怎么做: 利用现有的修图工具,把不想保留的特征(比如错误的肤色、错误的国旗颜色)改掉,但保留整体结构。
  • 比喻: 就像给那个错误的“所罗门王”换上一件新衣服,让他看起来像个普通人,而不是那个错误的“沙拉王”。

B. 时间感知的“轻重缓急” (Timestep-aware Weighting)

  • 怎么做: AI 画画是一个从“一团模糊的噪点”慢慢变清晰的过程。
    • 早期(模糊阶段): 这时候主要决定画面的大轮廓(比如是个脸还是棵树)。这时候我们要保护模型,不要让它乱改,所以主要让它“记住”正常的画。
    • 后期(清晰阶段): 这时候决定细节(比如五官、颜色)。这时候我们要重点让它“忘记”那个错误的细节。
  • 比喻: 就像教孩子写字。刚开始练笔顺(大轮廓)时,不能让他乱改,要稳;到了最后描红(细节)时,再专门纠正那个写错的字。

C. 梯度手术 (Gradient Surgery)

  • 怎么做: 在训练时,AI 会收到两个指令:
    1. “记住其他正常的图”(正向指令)。
    2. “忘掉这张错误的图”(反向指令)。
      这两个指令有时候会打架(梯度冲突)。作者用了一种数学方法(梯度手术),像外科医生一样,把冲突的部分“切掉”或“调整方向”,让两个指令和平共处。
  • 比喻: 就像开车时,左手想往左转(忘掉),右手想往右转(记住)。如果不处理,车会原地打转。作者的方法就是帮司机协调双手,让车既能避开障碍物(忘掉错误的),又能继续直行(保持其他能力)。

4. 为什么这很重要?

  • 隐私保护: 如果有人在 AI 生成的图里出现了你的脸,而你又无法通过提示词控制,这个方法可以让 AI 彻底“忘记”这张脸,保护你的隐私(符合 GDPR 的“被遗忘权”)。
  • 纠正偏见和错误: 就像论文里提到的,AI 经常把不同国家的国旗画错,或者把历史人物画成奇怪的种族。这个方法可以精准地“修正”这些特定的错误,而不需要重新训练整个庞大的模型。
  • 不用重新训练: 这是一个“热修复”(Hotfix)。就像给软件打补丁一样,快速、低成本,不需要把整个 AI 模型推倒重来。

总结

这篇论文就像给 AI 画家配备了一位**“精明的编辑”**。
当 AI 画出了一张你不想要的图(比如画错了的国旗或某人的脸),你不需要告诉 AI“这个词代表错误”,你只需要把那张图稍微修一下(变成替身),然后告诉 AI:“以后画这个,就照着替身画,别画原来的了。”

这样,AI 就精准地忘记了那个特定的错误,同时保留了它原本高超的绘画技巧,不会变成“画啥都错”的笨蛋。这对于保护隐私和纠正 AI 的刻板印象非常有价值。