arXiv👁️ cs.CV 🤖 cs.AI 🔒 cs.CR

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

本文提出了 PromptGuard，一种受大语言模型系统提示启发的新型文本到图像内容 Moderation 技术，通过优化通用及分领域的软提示（Soft Prompt）在嵌入空间中隐式引导模型，在无需代理模型或降低推理效率的前提下，显著抑制了 NSFW 内容生成并保持了高质量图像输出。

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PromptGuard 的新技术，旨在解决目前流行的“文生图”AI（比如 Stable Diffusion）容易生成色情、暴力或政治敏感等不安全图片的问题。

为了让你更容易理解，我们可以把整个故事想象成给一个才华横溢但缺乏常识的“疯狂画家”请了一位“智能艺术总监”。

1. 背景：天才画家与失控的画笔

想象一下，你雇佣了一位名叫 Stable Diffusion 的超级画家。他画技高超，只要你说“画一只猫”，他就能画出栩栩如生的猫。
但是，这位画家有个大毛病：他没有道德底线。如果你说“画一个裸体的人”或者“画一个正在打架的场面”，他会毫不犹豫地照做，甚至画得惟妙惟肖。这就好比一个没有经过安全培训的实习生，你让他画什么他就画什么，不管内容是否合适。

以前的解决办法主要有两种，但都有缺点：

方法一（重新培训画家）： 把画家关起来重新训练，教他什么是不能画的。但这就像给画家“洗脑”，可能会让他变得迟钝，连画正常的猫都画不好了，而且重新训练非常耗时耗力。
方法二（请个保安）： 在画家和画布之间请一个保安。保安先检查你的指令，如果不安全就拦下；或者等画完了，保安发现画错了，就把画涂黑或打马赛克。但这就像给画家加了个“减速带”，画画变慢了，而且保安有时候太严格，把正常的画也拦住了，或者把画涂得乱七八糟。

2. 核心创意：PromptGuard 是什么？

PromptGuard 提出了一种全新的思路。它不重新培训画家，也不请保安，而是给画家的大脑里植入一个**“隐形的安全咒语”**（Soft Prompt）。

类比：大语言模型的“系统提示”
现在的聊天机器人（如 ChatGPT）背后都有一个“系统提示”（System Prompt），比如“你是一个乐于助人的助手，不能生成有害内容”。这个提示是画家（模型）看不见的，但会时刻指引他的行为。
但是，文生图模型以前没有这种“系统提示”接口。PromptGuard 的发明者想：“既然没有现成的接口，我们就自己造一个！”
它是如何工作的？
PromptGuard 训练出了一个**“魔法后缀词”**（比如一个看不见的特殊符号 $P^*$ ）。
- 当你输入“画一个裸体的人”时，PromptGuard 会自动在后面加上这个“魔法后缀”。
- 对画家来说，他看到的指令变成了：“画一个裸体的人 + [魔法后缀]"。
- 这个“魔法后缀”就像是一个隐形的刹车片或安全过滤器。它告诉画家：“虽然你听到了‘裸体’这个词，但加上这个后缀后，你的大脑会自动把‘裸体’的概念转化为‘穿着得体的人’，或者引导你画出一个安全但依然符合意境的画面。”

3. 技术亮点：分而治之与“以毒攻毒”

为了让这个“魔法后缀”更管用，作者用了两个聪明的策略：

A. 分而治之（Divide-and-Conquer）

不安全的内容五花八门，有“色情”、“暴力”、“政治”和“令人不适”的。试图用一个咒语搞定所有类型很难。

比喻： 就像治病，治感冒的药和治骨折的药不一样。
做法： PromptGuard 分别训练了四个不同的“安全咒语”，专门对付这四类问题。最后，把这四个咒语串在一起，变成一个超级咒语。这样，无论你想画什么危险的东西，这个超级咒语都能精准拦截。

B. 以毒攻毒（SDEdit 技术）

怎么训练这个咒语呢？作者没有简单地禁止画家画，而是用了一种“引导式修改”的方法。

比喻： 假设画家画了一幅血腥的图。以前的做法是直接撕掉。PromptGuard 的做法是：拿着这幅图，用 AI 工具（SDEdit）把血腥的部分悄悄修改成安全的画面（比如把血改成红色的花，把裸体改成穿着衣服）。
训练过程： 告诉画家：“你看，这是你原本想画的（危险），但这是我们要你画的（安全）。以后你听到那个指令，就要往‘安全’的方向画。”
通过这种对比学习，画家学会了在保持画面美感的同时，自动避开危险区域。

4. 效果如何？（为什么它很牛？）

论文通过大量实验证明，PromptGuard 比以前的方法都要好：

拦截率极高： 它能把生成不安全图片的概率从原来的 70% 以上降低到 5.84% 以下。也就是说，几乎能完美拦截危险内容。
不牺牲质量： 这是最厉害的一点。以前的方法要么把画涂黑，要么让画变丑。PromptGuard 生成的图片依然清晰、美观、符合原意，只是把危险元素换成了安全元素。
- 比喻： 以前是“把画涂黑”，现在是“把画里的坏人换成了好人，但画还是那么好看”。
速度极快： 它不需要额外的保安（外部模型），也不需要重新训练画家。它只是在指令后面加了一串看不见的代码，所以画画的速度和原来一样快，甚至比那些需要保安检查的方法快 3.8 倍。
抗攻击能力强： 即使有人故意用奇怪的词（比如乱码或谐音）来绕过安全检测，PromptGuard 依然能识别并拦截。

5. 总结：这就像给 AI 装了一个“隐形护盾”

PromptGuard 就像是给那个“疯狂画家”戴上了一副隐形的护目镜。

这副护目镜不会改变画家的画技（不降低质量）。
它不会让画家变慢（不降低效率）。
它也不会让画家忘记怎么画画（不需要重新训练）。
它只是默默地告诉画家：“当你看到某些词时，请自动切换到‘安全模式’，画出既符合描述又符合道德的画作。”

这项技术让 AI 绘画变得更安全、更可靠，既保护了用户不被不良内容伤害，又保证了大家能继续享受高质量的创作乐趣。而且，因为它不需要重新训练模型，未来可以很容易地应用到各种新的 AI 绘画工具上。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 《PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models》 的详细技术总结。

1. 研究背景与问题 (Problem)

背景：文本到图像（Text-to-Image, T2I）模型（如 Stable Diffusion）在生成高质量图像方面表现卓越，但存在被滥用的风险，容易生成**不适宜工作场所（NSFW）**的内容，包括色情、暴力、政治敏感和令人不安的图像。
现有挑战：
1. 缺乏直接的系统提示接口：与大型语言模型（LLM）不同，T2I 模型没有直接的“系统提示（System Prompt）”机制来强制执行安全准则。
2. 现有方法的局限性：
  - 模型对齐（Model Alignment）：通过微调（Fine-tuning）或重新训练模型来移除不安全概念，但这往往会导致模型在良性输入上的性能下降，且计算成本高昂。
  - 内容审核（Content Moderation）：依赖外部模型过滤输入/输出，或使用 LLM 重写提示词。这些方法增加了计算开销（推理延迟），或者通过直接阻断/模糊化输出来处理，牺牲了生成图像的质量和可用性。
3. 多样性难题：NSFW 内容涵盖多个类别（色情、暴力、政治、令人不安），设计单一通用的防御机制非常困难。

2. 核心方法论 (Methodology)

论文提出了 PromptGuard，一种受 LLM 系统提示机制启发的新型内容 moderation 技术。其核心思想是在 T2I 模型的文本嵌入空间中优化一个安全软提示（Safety Soft Prompt），作为隐式的系统提示来引导模型生成安全图像。

2.1 核心机制：软提示优化

软伪词（Safety Pseudo-word）：由于文本空间的离散性难以直接优化，PromptGuard 在连续的文本嵌入空间（Token Embedding Space）中优化一个可训练的软令牌嵌入向量 $P^*$ 。
隐式系统提示：该软提示被附加到用户输入的末尾，在推理过程中充当“系统提示”，在不修改模型参数（如权重）的情况下，将模型的生成轨迹从不安全区域引导至安全区域。

2.2 训练策略：分而治之 (Divide-and-Conquer)

鉴于 NSFW 内容的多样性，单一向量难以覆盖所有类别，作者采用了分而治之的策略：

类别划分：将 NSFW 内容分为四类：色情（Sexual）、暴力（Violent）、政治（Political）、令人不安（Disturbing）。
独立优化：为每个类别单独优化一个软提示嵌入。
组合集成：在推理阶段，将所有训练好的类别特定嵌入拼接成一个统一的复合软提示，附加到所有用户输入中。

2.3 数据准备与损失函数

数据构建：
- 恶意数据：收集恶意提示，并利用 SDEdit 技术将生成的不安全图像编辑为安全图像（仅修改不安全区域，保留背景），构建“恶意提示 - 不安全图像 - 安全图像”三元组。
- 良性数据：使用 GPT-4o 生成涵盖动物、食物、风景等类别的良性提示及对应图像。
损失函数设计：
- 良性保留损失 ( $L_b$ )：确保附加软提示后，模型仍能准确生成良性图像。
- 恶意抑制损失 ( $L_m$ )：采用对比学习思路。对于恶意输入，优化软提示使得模型预测的去噪噪声更接近“安全图像”的噪声，而远离“原始不安全图像”的噪声。
- 平衡参数 ( $\lambda$ )：通过超参数 $\lambda$ 控制安全抑制与良性保留之间的平衡。

2.4 推理过程

在推理时，将训练好的复合软提示直接拼接到用户提示词末尾，无需额外的外部模型或修改扩散过程，实现了轻量级、高效的推理。

3. 主要贡献 (Key Contributions)

新技术：首次将 LLM 的“系统提示”概念引入 T2I 模型，通过软提示优化实现高效、轻量级的内容审核，无需修改模型参数。
新发现：通过大规模实验验证了 PromptGuard 在有效性、通用性、对抗鲁棒性、效率、有用性和可扩展性六个方面的优势。
分而治之策略：提出针对不同类型 NSFW 内容分别优化软提示并组合的方法，显著提升了防御的鲁棒性。
开源：代码已开源，促进 AI 伦理研究。

4. 实验结果 (Results)

实验在五个基准数据集（I2P, NSFW-200, COCO-2017, SneakyPrompt, MMA-Diffusion）上进行了评估，对比了 8 种最先进（SOTA）的防御方法。

有效性 (Effectiveness)：
- 在自然语言设置下，PromptGuard 将平均不安全率（Unsafe Ratio）降低至 5.84%，优于所有基线方法。
- 在色情、暴力、政治、令人不安四个类别中均取得了最低的不安全率（例如色情类降至 1.50%）。
良性内容保留 (Benign Preservation)：
- 在 CLIP Score（文本 - 图像对齐度）和 LPIPS Score（图像保真度）上表现优异，仅次于或优于其他方法，证明了其在抑制有害内容的同时未显著损害良性生成质量。
效率 (Efficiency)：
- 推理速度比之前的 moderation 方法快 3.8 倍。
- 由于不需要额外的外部模型或修改扩散过程，其平均推理时间与原始 Stable Diffusion v1.4 相当（约 1.39 秒/图）。
对抗鲁棒性 (Adversarial Robustness)：
- 在三种红队攻击（SneakyPrompt-N, SneakyPrompt-P, MMA-Diffusion）下，PromptGuard 的平均不安全率仅为 2.35%，显著优于所有基线。
可扩展性 (Scalability)：
- 展示了轻松添加新类别（如“自残 Self-harm”）的能力，只需训练新的嵌入并拼接，无需重新训练整个模型，且不影响原有防御效果。
跨模型迁移：
- 在 SDv1.4 上训练的嵌入可直接应用于 SDv1.5、SDXL 和 DeepFloyd IF 等模型，显示出良好的架构适应性。

5. 意义与影响 (Significance)

范式转变：PromptGuard 提供了一种模型无关（Model-agnostic）且轻量级的安全对齐方案，解决了 T2I 模型缺乏系统提示接口的痛点。
实用价值：相比微调模型或依赖外部过滤器的方法，PromptGuard 在保持生成质量的同时，极大地降低了计算成本和延迟，非常适合部署在商业 T2I 服务中。
伦理与安全：有效遏制了 AI 生成有害内容（如儿童性虐待材料、政治操纵图像）的扩散，为构建更安全的生成式 AI 生态系统提供了关键技术支撑。
未来方向：该方法不仅适用于 T2I，其“软提示引导”的思路也可扩展至文本到视频、图像到图像等其他生成模型，为应对未来可能出现的新类型不安全内容提供了灵活的框架。

总结：PromptGuard 通过巧妙的软提示优化技术，在不牺牲生成质量和效率的前提下，实现了对 T2I 模型生成内容的高效、鲁棒且可扩展的安全控制，是目前该领域的一项突破性工作。