PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

本文提出了 PromptGuard,一种受大语言模型系统提示启发的新型文本到图像内容 Moderation 技术,通过优化通用及分领域的软提示(Soft Prompt)在嵌入空间中隐式引导模型,在无需代理模型或降低推理效率的前提下,显著抑制了 NSFW 内容生成并保持了高质量图像输出。

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PromptGuard 的新技术,旨在解决目前流行的“文生图”AI(比如 Stable Diffusion)容易生成色情、暴力或政治敏感等不安全图片的问题。

为了让你更容易理解,我们可以把整个故事想象成给一个才华横溢但缺乏常识的“疯狂画家”请了一位“智能艺术总监”

1. 背景:天才画家与失控的画笔

想象一下,你雇佣了一位名叫 Stable Diffusion 的超级画家。他画技高超,只要你说“画一只猫”,他就能画出栩栩如生的猫。
但是,这位画家有个大毛病:他没有道德底线。如果你说“画一个裸体的人”或者“画一个正在打架的场面”,他会毫不犹豫地照做,甚至画得惟妙惟肖。这就好比一个没有经过安全培训的实习生,你让他画什么他就画什么,不管内容是否合适。

以前的解决办法主要有两种,但都有缺点:

  • 方法一(重新培训画家): 把画家关起来重新训练,教他什么是不能画的。但这就像给画家“洗脑”,可能会让他变得迟钝,连画正常的猫都画不好了,而且重新训练非常耗时耗力。
  • 方法二(请个保安): 在画家和画布之间请一个保安。保安先检查你的指令,如果不安全就拦下;或者等画完了,保安发现画错了,就把画涂黑或打马赛克。但这就像给画家加了个“减速带”,画画变慢了,而且保安有时候太严格,把正常的画也拦住了,或者把画涂得乱七八糟。

2. 核心创意:PromptGuard 是什么?

PromptGuard 提出了一种全新的思路。它不重新培训画家,也不请保安,而是给画家的大脑里植入一个**“隐形的安全咒语”**(Soft Prompt)。

  • 类比:大语言模型的“系统提示”
    现在的聊天机器人(如 ChatGPT)背后都有一个“系统提示”(System Prompt),比如“你是一个乐于助人的助手,不能生成有害内容”。这个提示是画家(模型)看不见的,但会时刻指引他的行为。
    但是,文生图模型以前没有这种“系统提示”接口。PromptGuard 的发明者想:“既然没有现成的接口,我们就自己造一个!”

  • 它是如何工作的?
    PromptGuard 训练出了一个**“魔法后缀词”**(比如一个看不见的特殊符号 PP^*)。

    • 当你输入“画一个裸体的人”时,PromptGuard 会自动在后面加上这个“魔法后缀”。
    • 对画家来说,他看到的指令变成了:“画一个裸体的人 + [魔法后缀]"。
    • 这个“魔法后缀”就像是一个隐形的刹车片安全过滤器。它告诉画家:“虽然你听到了‘裸体’这个词,但加上这个后缀后,你的大脑会自动把‘裸体’的概念转化为‘穿着得体的人’,或者引导你画出一个安全但依然符合意境的画面。”

3. 技术亮点:分而治之与“以毒攻毒”

为了让这个“魔法后缀”更管用,作者用了两个聪明的策略:

A. 分而治之(Divide-and-Conquer)

不安全的内容五花八门,有“色情”、“暴力”、“政治”和“令人不适”的。试图用一个咒语搞定所有类型很难。

  • 比喻: 就像治病,治感冒的药和治骨折的药不一样。
  • 做法: PromptGuard 分别训练了四个不同的“安全咒语”,专门对付这四类问题。最后,把这四个咒语串在一起,变成一个超级咒语。这样,无论你想画什么危险的东西,这个超级咒语都能精准拦截。

B. 以毒攻毒(SDEdit 技术)

怎么训练这个咒语呢?作者没有简单地禁止画家画,而是用了一种“引导式修改”的方法。

  • 比喻: 假设画家画了一幅血腥的图。以前的做法是直接撕掉。PromptGuard 的做法是:拿着这幅图,用 AI 工具(SDEdit)把血腥的部分悄悄修改成安全的画面(比如把血改成红色的花,把裸体改成穿着衣服)。
  • 训练过程: 告诉画家:“你看,这是你原本想画的(危险),但这是我们要你画的(安全)。以后你听到那个指令,就要往‘安全’的方向画。”
  • 通过这种对比学习,画家学会了在保持画面美感的同时,自动避开危险区域。

4. 效果如何?(为什么它很牛?)

论文通过大量实验证明,PromptGuard 比以前的方法都要好:

  1. 拦截率极高: 它能把生成不安全图片的概率从原来的 70% 以上降低到 5.84% 以下。也就是说,几乎能完美拦截危险内容。
  2. 不牺牲质量: 这是最厉害的一点。以前的方法要么把画涂黑,要么让画变丑。PromptGuard 生成的图片依然清晰、美观、符合原意,只是把危险元素换成了安全元素。
    • 比喻: 以前是“把画涂黑”,现在是“把画里的坏人换成了好人,但画还是那么好看”。
  3. 速度极快: 它不需要额外的保安(外部模型),也不需要重新训练画家。它只是在指令后面加了一串看不见的代码,所以画画的速度和原来一样快,甚至比那些需要保安检查的方法快 3.8 倍
  4. 抗攻击能力强: 即使有人故意用奇怪的词(比如乱码或谐音)来绕过安全检测,PromptGuard 依然能识别并拦截。

5. 总结:这就像给 AI 装了一个“隐形护盾”

PromptGuard 就像是给那个“疯狂画家”戴上了一副隐形的护目镜

  • 这副护目镜不会改变画家的画技(不降低质量)。
  • 它不会让画家变慢(不降低效率)。
  • 它也不会让画家忘记怎么画画(不需要重新训练)。
  • 它只是默默地告诉画家:“当你看到某些词时,请自动切换到‘安全模式’,画出既符合描述又符合道德的画作。”

这项技术让 AI 绘画变得更安全、更可靠,既保护了用户不被不良内容伤害,又保证了大家能继续享受高质量的创作乐趣。而且,因为它不需要重新训练模型,未来可以很容易地应用到各种新的 AI 绘画工具上。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →