Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能（AI）绘画模型“遗忘”能力的有趣故事，以及作者如何设计了一个巧妙的“记忆唤醒”工具来测试这种遗忘是否真的有效。

我们可以把这篇论文的核心内容想象成一场**“记忆大扫除”与“记忆复苏”的博弈**。

1. 背景：AI 的“记忆大扫除”

想象一下，你有一个非常聪明的 AI 画家（比如 Stable Diffusion），它什么都能画。但是，它学会了一些不该画的东西，比如色情内容、暴力画面，或者受版权保护的艺术家风格（比如梵高的画）。

为了保护大家，研究人员给这个 AI 画家做了一次**“记忆大扫除”（这在学术上叫“机器遗忘”，Machine Unlearning）。他们试图把 AI 脑子里关于这些“坏东西”的神经元连接切断，让它彻底忘掉**怎么画这些东西。

现状是： 很多公司都用了这种“大扫除”技术，声称现在的 AI 已经安全了，再也画不出那些敏感内容了。

2. 问题：真的忘干净了吗？

作者们（来自新加坡国立大学和南洋理工大学的团队）心里打了个问号：“真的忘干净了吗？还是说只是表面上装作忘了？”

以前的测试方法主要是**“改文字”**。比如，AI 忘了怎么画“裸体”，攻击者就尝试把提示词从“裸体”改成“穿着泳衣在沙滩上”或者“人体艺术”，试图绕过大扫除的防线。

缺点： 这种方法就像是在玩“文字游戏”，改来改去，画出来的东西往往和原本想表达的意思不一样（语义不连贯），而且计算起来很慢，像老牛拉破车。

3. 主角登场：RECALL（记忆唤醒器）

作者提出了一种全新的攻击方法，叫 RECALL（意为“召回”或“唤醒”）。

它的核心创意可以用一个生动的比喻来解释：

想象你在教一个失忆的人画画。

以前的方法（只改文字）： 你拼命用不同的语言描述“裸体”，试图骗过他的记忆。但他可能听不懂，或者画出来的东西很怪。

RECALL 的方法（文字 + 图片）： 你手里拿着一张参考图（比如一张正常的裸体艺术照），然后对 AI 说：“请看着这张图，再结合‘裸体’这个词，把它画出来。”

关键在于，RECALL 并不是直接把那张参考图丢给 AI，而是把参考图“打碎”成一种特殊的、肉眼看不见的“密码”（学术上叫“对抗性图像提示”）。

这个“密码”里藏着原本被删除的记忆线索。当 AI 看到这个“密码”和原本的“文字指令”同时出现时，它就像被**“双重确认”**了一样，原本被切断的记忆回路被重新接通了，于是它又画出了那些本该被遗忘的内容。

4. RECALL 为什么这么厉害？

论文通过大量的实验（测试了 10 种不同的“大扫除”方法和 4 种不同的任务，如“去色情”、“去梵高风格”等）发现：

效果惊人（攻击力强）： 无论之前的“大扫除”做得多彻底，RECALL 都能成功让 AI 重新画出敏感内容。它的成功率远高于以前那些只改文字的方法。
速度快（效率高）： 以前的方法可能需要跑很久才能算出一个结果，RECALL 就像开了“加速器”，能在很短时间内完成攻击。
画得像（保真度高）： 因为它是利用图片来引导，所以画出来的东西不仅内容对了，而且和原本的文字描述非常契合，不会画成“四不像”。

5. 这意味着什么？（不仅仅是攻击）

虽然听起来这像是一个“黑客攻击”，但作者强调，RECALL 其实是一个“体检医生”。

对于 AI 公司： 如果你声称你的 AI 已经安全了，你可以用 RECALL 来给自己做个“压力测试”。如果 RECALL 能轻易唤醒记忆，说明你的“大扫除”做得不够彻底，需要加强。
对于社会： 它揭示了目前的 AI 安全机制存在巨大的漏洞。仅仅把概念从模型里“擦除”可能是不够的，因为多模态（文字 + 图片）的引导可以轻易绕过防线。

总结

这就好比：
以前大家以为把书里的“坏章节”撕掉（文本攻击），书就安全了。
但 RECALL 发现，只要给读者看一张**“坏章节”的插图**（图像攻击），读者就能凭直觉把撕掉的章节内容脑补出来，甚至画得更生动。

这篇论文告诉我们：在 AI 的世界里，想要彻底“遗忘”某样东西，光靠“删文字”是不够的，必须警惕“图片”带来的记忆唤醒。 未来的 AI 安全，需要更坚固的“防火墙”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，标题为 《IMAGE CAN BRING YOUR MEMORY BACK: A NOVEL MULTI-MODAL GUIDED ATTACK AGAINST IMAGE GENERATION MODEL UNLEARNING》（图像能让记忆回归：一种针对图像生成模型遗忘机制的新型多模态引导攻击）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：基于扩散模型的图像生成模型（IGMs，如 Stable Diffusion）在生成质量上取得了巨大进步，但也带来了伦理、法律和版权风险（如生成色情、暴力或侵权内容）。
机器遗忘 (Machine Unlearning, MU)：为了解决上述风险，研究者提出了机器遗忘技术，旨在从预训练模型中“擦除”特定敏感概念，同时保留模型生成良性内容的能力。
现有挑战：尽管已有多种遗忘方法（如微调、负向提示、对抗过滤等），但它们的鲁棒性尚未得到充分验证。
- 现有的攻击方法主要集中于文本模态（优化对抗性文本提示），存在以下局限：
  1. 修改文本可能破坏生成图像与原始提示的语义对齐。
  2. 许多方法依赖外部分类器或额外的扩散模型，计算开销大。
  3. 面对经过对抗增强的遗忘方法（如 AdvUnlearn），现有攻击效果急剧下降。
  4. 核心缺失：忽略了扩散模型原生的多模态条件（同时支持文本和图像输入）能力，未探索图像模态作为攻击向量的潜力。

2. 方法论 (Methodology)

作者提出了 RECALL，这是一种针对遗忘后图像生成模型的多模态对抗攻击框架。其核心思想是利用对抗性优化的图像提示配合原始文本提示，绕过遗忘机制。

核心流程 (三个阶段)：

潜在编码 (Latent Encoding)：
- 输入一个包含目标敏感概念的参考图像 ( $P_{ref}$ ) 和一个初始噪声图像。
- 利用遗忘模型自身的图像编码器，将参考图像和初始图像编码为潜在表示（Latent Representation）。
- 初始对抗潜在向量由参考图像和随机噪声混合而成，以平衡语义相似性和多样性。
迭代潜在优化 (Iterative Latent Optimization)：
- 目标：在潜在空间中迭代优化对抗性图像潜变量 ( $z_{adv}$ )，使其在相同的文本条件 ( $P_{text}$ ) 下，预测的噪声残差与参考图像 ( $z_{ref}$ ) 的预测噪声残差尽可能一致。
- 损失函数：最小化两者预测噪声之间的均方误差 (MSE)。
- 优化策略：
  - 在遗忘模型内部进行梯度下降，无需外部模型。
  - 引入动量梯度归一化 (Momentum-based gradient normalization) 以加速收敛。
  - 周期性融合：在优化过程中，定期将少量参考潜变量重新注入对抗潜变量，以维持语义一致性。
- 早停机制：一旦检测到目标敏感内容重新出现，立即停止优化。
多模态攻击 (Multi-modal Attack)：
- 将优化后的对抗潜在向量解码为对抗性图像 ( $P_{adv}^{img}$ )。
- 将 $P_{adv}^{img}$ 与原始敏感文本提示 ( $P_{text}$ ) 组合，作为多模态输入输入到遗忘模型中。
- 模型在双重引导下，成功生成被“遗忘”的敏感内容。

3. 主要贡献 (Key Contributions)

首个多模态引导攻击框架：提出了 RECALL，首次利用对抗性图像提示结合文本提示来打破图像生成模型遗忘技术的鲁棒性，能够以高语义保真度恢复被遗忘的概念。
高效且独立的优化策略：
- 仅在遗忘模型内部进行优化，利用单张参考图像引导。
- 无需外部分类器、原始扩散模型或额外的语义指导组件，显著降低了计算成本。
全面评估与漏洞揭示：
- 在 10 种 最先进的遗忘方法（如 ESD, UCE, AdvUnlearn, RECE 等）和 4 种 代表性任务（裸体、梵高风格、教堂、降落伞）上进行了实验。
- 揭示了当前遗忘管道在多模态对抗输入下的严重脆弱性。
审计工具价值：RECALL 不仅是一种攻击，更可作为模型所有者和从业者的鲁棒性审计工具，用于在部署前系统性地评估遗忘机制的有效性。

4. 实验结果 (Results)

实验在 10 种 SOTA 遗忘方法和 4 个任务（Nudity, Van Gogh-style, Object-Church, Object-Parachute）上进行，共涉及 40 个遗忘模型。

攻击成功率 (ASR)：
- RECALL 在平均攻击成功率上显著优于所有基线方法。
- 在四个任务中，RECALL 的平均 ASR 范围从 73.40% 到 97.40%。
- 相比强基线 UnlearnDiffAtk，RECALL 在四个任务上的平均 ASR 分别提升了 16.90%, 0.20%, 11.00%, 和 37.20%。
- 即使在针对 AdvUnlearn 和 RECE 等具有对抗增强防御的模型上，RECALL 依然保持极高的成功率（例如在 Nudity-MMA 任务上达到 88.20%）。
计算效率：
- RECALL 的平均攻击时间约为 64 秒。
- 相比之下，其他强基线（如 P4D-N, UnlearnDiffAtk, WACE-C）需要 230-240 秒 以上。RECALL 的效率提升了约 3-4 倍。
语义对齐 (Semantic Fidelity)：
- 使用 CLIP Score 衡量生成图像与文本提示的一致性。
- RECALL 在所有任务中均取得了最高的 CLIP Score（平均 30.28），优于 UnlearnDiffAtk (28.00) 和 P4D (25.00)。
- 这表明 RECALL 在恢复敏感内容的同时，完美保留了原始文本的语义意图，而基于文本的攻击往往会破坏语义连贯性。
泛化性：
- 参考图像无关性：攻击效果不依赖于特定的参考图像，使用不同来源的参考图均能保持高成功率。
- 模型版本无关性：在 SD 1.4, 2.0, 2.1 等不同版本的模型上均表现稳健。
- 多样性：生成的图像具有高度的多样性，并非简单复制参考图，而是恢复了概念分布。

5. 意义与影响 (Significance)

安全警示：论文有力地证明了当前的机器遗忘技术（无论是基于微调、正则化还是引导的方法）在面对多模态攻击时是不可靠的。仅靠文本层面的“遗忘”不足以防止敏感内容再生。
防御方向：未来的遗忘机制必须考虑多模态条件，设计能够抵御图像引导攻击的更鲁棒、可验证的遗忘策略。
审计标准：RECALL 为模型发布前的安全审计提供了一个高效、标准化的基准，帮助开发者在模型部署前发现并修复遗忘漏洞。
伦理声明：作者强调该研究仅用于安全审计和学术研究，生成的敏感内容在论文中进行了模糊处理，并未公开原始数据。

总结：RECALL 通过利用扩散模型原生的多模态能力，以极高的效率和语义保真度成功“唤醒”了被遗忘的模型，揭示了当前安全遗忘方案的致命弱点，并呼吁建立更强大的多模态防御机制。

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

1. 背景：AI 的“记忆大扫除”

2. 问题：真的忘干净了吗？

3. 主角登场：RECALL（记忆唤醒器）

4. RECALL 为什么这么厉害？

5. 这意味着什么？（不仅仅是攻击）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心流程 (三个阶段)：

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Robust Reasoning Benchmark

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection