Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 RADS 的新方法，旨在解决人工智能（AI）绘画模型的一个大毛病：“死记硬背”。

想象一下，你让一个画家（AI）根据描述画一幅画。如果这个画家以前见过一张非常著名的照片，当你稍微描述得有点像那张照片时，他就不去发挥创意了，而是直接把那张旧照片“复印”出来。这就是 AI 的“记忆化”问题，它可能会泄露隐私或侵犯版权。

以前的解决办法通常像是一个笨拙的橡皮擦：为了不让画家画那张旧照片，人们要么把画家的眼睛蒙上（降低画质），要么把画笔弄断（让画得不像描述的内容）。结果就是：要么画得不像了，要么画得很丑。

RADS 做了什么？
RADS 就像给这位画家配了一位经验丰富的“导航员”。这位导航员不看画本身，而是看画家“心里的构思过程”，并在画家快要画错（快要画出那张旧照片）的时候，轻轻推一下他的手腕，让他换个方向，但又不破坏画的整体美感。

以下是用通俗语言拆解的核心概念：

1. 核心问题：AI 的“肌肉记忆”

AI 绘画模型（扩散模型）在训练时看过很多图。当它听到某些特定的描述（比如“埃菲尔铁塔在红天下”），它的大脑里会有一条**“惯性轨道”**，直接把它引向那张它见过的旧图。

比喻：就像你开车回家，如果闭着眼睛开，你会下意识地开进自家车库（旧图），而不是停在朋友家（新图）。

2. 核心创新：把画画变成“开车导航”

RADS 把 AI 画画的过程看作是一个动态的驾驶过程：

起点：一团乱糟糟的噪点（就像车在迷雾中）。
终点：一张清晰的图片（到达目的地）。
危险区（记忆陷阱）：在从起点到终点的路上，有一片区域叫“记忆陷阱”。一旦车子开进这个区域，无论你怎么打方向盘，最后都会不可避免地撞进“旧照片”里。

3. RADS 的三大法宝

A. 可及性分析（Reachability Analysis）：绘制“危险地图”

这是 RADS 最聪明的地方。它利用控制理论，提前计算出一张**“不可逆危险地图”**（Backward Reachable Tube）。

比喻：就像导航员手里有一张地图，上面标出了哪些路段一旦开进去就绝对回不来，最终会撞墙。RADS 知道：“只要车子进入这个蓝色区域，就完了，必须马上避开。”

B. 强化学习（RL）：训练“导航员”

RADS 训练了一个 AI 策略（就像那个导航员），它的任务是在画画过程中，不断微调输入给画家的“提示词”（就像微调方向盘）。

目标：既要让画出来的图符合你的要求（比如“红天”、“埃菲尔铁塔”），又要绝对不能进入那个“危险区域”。
比喻：导航员会轻轻转动方向盘，避开悬崖，同时保证车还能平稳地开到你想去的地方。它做的改动非常小，就像在高速公路上微调方向，而不是急刹车。

C. 只在“推理时”工作：不伤筋动骨

以前的方法可能需要把画家（AI 模型）重新训练一遍，或者把画家的脑子（模型参数）改得乱七八糟。

RADS 的优势：它不需要动画家的脑子。它只是在画家开始画画的那一瞬间，在旁边实时指挥。
比喻：你不需要把画家送去学校重新学画画，你只需要在他动笔前，派一个助手在旁边轻声提醒：“嘿，别往左看，往右一点，那样更安全。”

4. 效果如何？

实验表明，RADS 做到了以前没人做到的平衡：

以前：要么防住了抄袭但画得很丑，要么画得好看但防不住抄袭。
RADS：画出来的图既漂亮（画质高），又听话（符合你的描述），而且彻底防住了抄袭（不再画出那些旧照片）。

总结

这就好比给 AI 画家装了一个智能防呆系统。以前为了防止它乱画，我们要么把它的笔折断，要么把它关起来。现在，RADS 就像一位高明的副驾驶，在 AI 快要“走神”去抄作业的时候，温柔而坚定地把它拉回正轨，让它既能发挥创意，又不会侵犯别人的版权。

一句话总结：RADS 用数学和导航技术，给 AI 绘画装上了“防抄袭安全带”，让它在保持高画质的同时，不再死记硬背旧照片。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：扩散模型的“记忆化” (Memorization)
文本到图像（Text-to-Image）的扩散模型（如 Stable Diffusion）存在一个根本性缺陷：它们倾向于“记忆”训练数据。当用户输入特定的提示词（Prompt）时，模型可能会直接复现训练集中的受版权保护或私有的图像，而不是生成新的内容。

现有方法的局限性：
目前的缓解策略通常需要在图像质量、提示词对齐度和记忆化抑制之间进行权衡：

有些方法虽然减少了记忆化，但生成的图像质量大幅下降。
有些方法保留了质量，但无法准确捕捉提示词中的关键语义细节（如颜色、风格等）。
有些方法（如基于启发式的注意力掩码或截断）缺乏理论保证，且往往破坏生成过程的连贯性。

研究目标：
如何在不牺牲图像质量和提示词对齐度的前提下，有效防止模型复现训练数据中的记忆化样本？

2. 方法论 (Methodology)

作者提出了 RADS (Reachability-Aware Diffusion Steering)，这是一个在推理阶段（Inference-time）运行的框架。其核心思想是将扩散去噪过程建模为受控动力系统，并利用可达性分析 (Reachability Analysis) 和 约束强化学习 (Constrained RL) 来主动引导生成轨迹。

2.1 核心概念：可达性分析 (Reachability Analysis)

控制理论视角： 将扩散模型的生成过程视为一个动力系统。
- 状态 (State)： 潜在空间中的中间噪声状态 $x_\tau$ 。
- 控制输入 (Control Input)： 对文本提示词嵌入（Caption Embedding）的扰动。
失败集 (Failure Set)： 定义为那些解码后会生成与训练集高度相似图像的状态集合。
向后可达管 (Backward Reachable Tube, BRT)： 这是 RADS 的核心创新。BRT 是指所有无论采取何种控制策略，最终都会不可避免地演化到“失败集”（即记忆化图像）的中间状态集合。
- 一旦生成轨迹进入 BRT，记忆化就不可避免。
- RADS 的目标是在轨迹进入 BRT 之前，通过微调提示词嵌入，将其“推”出 BRT 区域。

2.2 具体实现步骤

动作空间设计 (Action Space)：
- 直接在图像潜在空间操作效率低且效果差（因为记忆化在去噪的前几步就决定了）。
- RADS 选择扰动文本提示词嵌入 (Caption Embedding)。
- 为了降低维度，使用变分自编码器 (VAE) 将高维 CLIP 嵌入压缩到一个紧凑的潜在动作空间 $Z_{act}$ ，在此空间内学习扰动策略。
安全目标函数 (Safety Target Function)：
- 利用无分类器引导 (Classifier-Free Guidance, CFG) 的向量幅度作为记忆化的指标。
- 记忆化样本通常表现出异常高的引导幅度（模型过度拟合了条件）。
- 定义目标函数 $\ell(s)$ ，当引导幅度超过阈值时，判定为进入“危险区域”。
约束马尔可夫决策过程 (CMDP)：
- 状态： 当前去噪步数和潜在状态。
- 动作： 对文本嵌入的扰动。
- 奖励 (Reward)： 基于生成图像与提示词的 CLIP 相似度（确保语义对齐）和感知质量（FID）。
- 约束 (Constraint)： 必须确保生成轨迹不进入 BRT。即安全价值函数 $Q_{safe} \ge \delta$ 。
求解算法：约束软演员 - 评论家 (Constrained Soft Actor-Critic, SAC)：
- 使用拉格朗日松弛法处理约束。
- 训练三个网络：
  1. 策略网络 ( $\pi_\phi$ )： 学习如何扰动嵌入以避开记忆化。
  2. 任务评论家 ( $Q_{task}$ )： 评估语义对齐和图像质量。
  3. 安全评论家 ( $Q_{safe}$ )： 估计未来进入 BRT 的风险（基于可达性分析）。
- 通过最大化奖励并满足安全约束，学习出一个最优的引导策略。

3. 主要贡献 (Key Contributions)

理论框架创新： 首次将控制理论中的可达性分析引入扩散模型，将记忆化问题形式化为“避免进入向后可达管 (BRT)"的动力学问题。
算法设计： 提出了 RADS，一种基于约束强化学习的推理时引导框架。它不需要修改预训练模型的权重，而是通过微调提示词嵌入来 steering（引导）生成轨迹。
性能突破： 在多个开源扩散模型（Stable Diffusion v1.4, RealisticVision）和数据集上，RADS 在生成多样性 (SSCD)、图像质量 (FID) 和 提示词对齐 (CLIP) 之间实现了优于现有最先进方法（SOTA）的帕累托最优（Pareto Frontier）。
通用性与鲁棒性： 该方法不依赖于特定的语义概念（如“移除某个物体”），而是针对“记忆化”这一通用现象，且对不同的随机种子（初始噪声）表现出高度鲁棒性。

4. 实验结果 (Results)

实验在 Stable Diffusion v1.4 和 RealisticVision 模型上进行，使用了 Webster (2023) 和 MemBench 数据集。

记忆化抑制 (Diversity/SSCD)：
- RADS 显著降低了生成图像与训练集目标图像的相似度 (SSCD_target)。
- 在 Webster 数据集上，RADS 的 SSCD_target 为 0.2303，远低于未缓解基线（约 0.5+）和其他方法（如 Jain et al. 2025 为 0.178，但质量极差）。
- 在不同随机种子下，RADS 生成的图像具有高度的多样性，避免了模式坍塌。
图像质量 (Quality/FID)：
- RADS 生成的图像质量（FID 31.57）与未缓解的基线模型及其他高质量方法（如 Wen et al., Ren et al.）在统计上无显著差异。
- 相比之下，Jain et al. (2025) 等方法虽然降低了记忆化，但 FID 高达 63.98，图像质量严重受损。
提示词对齐 (Alignment/CLIP)：
- RADS 保持了极高的语义对齐度（CLIP Score 约 0.29），与基线模型相当。
- 其他方法（如 Jain et al.）在降低记忆化时往往导致 CLIP 分数大幅下降，意味着丢失了提示词的关键信息。
泛化能力 (Zero-Shot)：
- 仅在 430 个记忆化提示词上训练的策略，在 3000 个未见过的 MemBench 提示词上依然有效，证明了其学习到了通用的“避开记忆化盆地”的策略，而非死记硬背特定提示词。
消融实验：
- 如果移除可达性约束（即 $\lambda=0$ ，仅优化奖励），模型无法有效避开记忆化区域（SSCD 回升至 0.4998），证明了可达性约束是防止记忆化的关键机制。

5. 意义与影响 (Significance)

无需重训的解决方案： RADS 是一个“即插即用”的推理时框架，不需要对庞大的扩散模型进行微调或重新训练，降低了部署成本。
平衡了安全与效用： 解决了长期以来在生成式 AI 安全领域“要么牺牲质量，要么牺牲对齐”的困境，证明了可以在保持高保真度和语义准确性的同时有效抑制记忆化。
理论指导实践： 将控制理论（可达性分析）引入生成式 AI 安全，为未来处理其他类型的安全约束（如 NSFW 内容、版权内容）提供了新的理论视角和方法论。
应对版权与隐私风险： 为生成式模型在商业应用中的版权合规和隐私保护提供了强有力的技术工具。

总结

RADS 通过引入控制理论中的“向后可达管”概念，将扩散模型的记忆化问题转化为一个动态系统的避障问题。利用约束强化学习，它学会了在推理过程中微调文本嵌入，从而在生成轨迹进入“记忆化陷阱”之前将其引导至安全区域。实验表明，RADS 是目前在抑制记忆化、保持图像质量和语义对齐三者之间取得最佳平衡的方法。