When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

该论文提出了一种名为 CASG 的免训练框架,通过动态识别并仅应用与生成状态最匹配的安全引导方向,有效解决了文本到图像扩散模型中因多类别有害冲突导致的安全引导失效问题,从而显著降低了有害内容的生成率。

Yongli Xiang, Ziming Hong, Zhaoqing Wang, Xiangyu Zhao, Bo Han, Tongliang Liu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个关于 AI 画图(文生图)的有趣但棘手的问题。为了让你轻松理解,我们可以把 AI 画图的过程想象成**“在迷雾中驾驶一艘船”**。

1. 背景:AI 画图的“安全导航”

现在的 AI(比如 Stable Diffusion)非常厉害,能根据文字描述画出精美的图片。但就像一辆没有刹车的新车,它有时会画出危险或违规的内容(比如暴力、色情、仇恨言论)。

为了解决这个问题,以前的方法就像给船装了一个**“通用避障雷达”**。

  • 旧方法(SLD, SAFREE 等)的做法
    开发者列出了一张“危险清单”,上面写着:仇恨、暴力、色情、非法活动等。
    当 AI 开始画图时,雷达会同时扫描所有这些危险区域,然后告诉 AI:“快!往远离所有这些危险的地方开!”
    比喻:想象你在开车,导航同时告诉你:“前面有坑(暴力),左边有悬崖(色情),右边有地雷(仇恨)。”于是导航指令变成了:“往中间开,尽量离所有东西都远一点。”

2. 问题:当安全指令“打架”时(有害冲突)

论文发现,这种“一刀切”的通用避障方法有个大漏洞:不同的危险区域,方向往往是相反的!

  • 场景:假设用户输入了一个关于“性感人体”的提示词。
    • 针对“色情”的安全指令是:“往左开,远离色情区。”
    • 针对“仇恨”的安全指令是:“往右开,远离仇恨区。”
  • 旧方法的错误:它把这两个指令强行加在一起,结果变成了:“往中间开(或者乱开)”。
    • 结果就是:AI 既没躲开“色情区”(因为被“仇恨”指令拉偏了),也没躲开“仇恨区”。
    • 比喻:就像两个教练在指挥同一个运动员。教练 A 喊:“向左跑!”教练 B 喊:“向右跑!”运动员被扯得晕头转向,最后可能原地打转,甚至因为用力过猛摔得更惨。
    • 论文把这种现象称为**“有害冲突” (Harmful Conflicts)**。它发现,把越多危险类别加在一起,安全效果反而越差,甚至不如不加。

3. 解决方案:CASG(智能动态导航)

为了解决这个问题,作者提出了一个叫 CASG 的新方法。它不再是一个死板的“通用雷达”,而是一个**“聪明的实时导航员”**。

CASG 的核心思想是:“别管所有危险,只盯着当前最危险的那个!”

它的工作流程分为两步:

第一步:动态识别 (CaCI) —— “谁在捣乱?”

在 AI 画图的每一瞬间(去噪过程),CASG 都会快速检查:

  • “现在的画面里,到底是‘色情’成分多,还是‘暴力’成分多?”
  • 它通过计算方向,找出当前最匹配的那个危险类别。
  • 比喻:导航员看着路况说:“现在前面主要是‘色情’陷阱,‘仇恨’陷阱离我们还远。别管仇恨了,专心躲色情!”

第二步:精准打击 (CrGA) —— “只打一个点”

一旦确定了当前的主要危险,CASG 就只针对这一个类别进行修正,完全忽略其他不相关的类别。

  • 比喻:导航员现在只给运动员一个指令:“全力向左跑,避开那个坑!”不再让“向右跑”的指令干扰。
  • 结果:指令变得非常清晰、有力,AI 能精准地避开危险,而不会在中间摇摆不定。

4. 效果如何?

  • 更安全:实验表明,使用 CASG 后,AI 画出有害图片的概率降低了约 15.4%。这比以前那些“把所有危险都加在一起”的方法效果好得多。
  • 不伤画质:因为它只是微调了方向,没有破坏 AI 原本的绘画能力,所以画出来的正常图片(比如风景、动物)依然清晰、漂亮,没有变形。
  • 即插即用:这个方法不需要重新训练 AI 模型,可以直接套用在现有的各种安全工具上。

总结

这篇论文就像给 AI 的安全系统装上了**“智能过滤器”
以前的方法是:
“只要觉得有点危险,就乱打一通方向盘。”(结果越打越偏)
现在的方法是:
“看清楚现在最大的威胁是什么,然后精准地打一把方向盘。”**(结果安全又稳定)

这就解决了“安全指令打架”的问题,让 AI 既能画出好图,又能乖乖听话,不画坏东西。