Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

本文提出了一种名为 HiRM 的新方法,通过在文本编码器中仅微调包含视觉属性因果状态的早期层,并将目标概念的高层语义表示重定向至特定向量,从而在有效消除有害或受版权保护概念的同时,最大限度地减少对非目标概念生成质量的影响并降低训练成本。

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HiRM(高层表示误导)的新方法,旨在解决文生图 AI 模型(比如 Midjourney 或 Stable Diffusion)的一个核心痛点:如何精准地“删除”模型中某些我们不希望它生成的概念(比如色情内容、特定艺术家风格或受版权保护的形象),同时又不破坏模型生成其他美好图片的能力。

为了让你更容易理解,我们可以把整个文生图模型想象成一家超级繁忙的“创意餐厅”

1. 背景:餐厅的烦恼

这家餐厅(AI 模型)非常厉害,能根据顾客(用户)的菜单(文字提示词)做出各种各样的菜(图片)。

  • 问题:有时候,顾客会点一些“禁忌菜”,比如“全裸的人体”或者“某位在世艺术家的风格”。餐厅老板(开发者)希望彻底禁止这些菜。
  • 旧方法(笨办法):以前的做法是,为了不让厨师做“裸体菜”,老板把整个厨房(模型的核心部分,叫 U-Net)重新装修了一遍,甚至把厨师的肌肉记忆都强行改写了。
    • 后果:虽然“裸体菜”确实做不出来了,但厨师的手艺也变差了。现在让他做“红烧肉”(普通图片),味道也变了,甚至把“红烧肉”做成了“红烧石头”。这就是所谓的“误伤友军”。

2. 核心发现:找到“大脑”的特定区域

研究人员发现,其实生成图片的过程分两步:

  1. 理解菜单(文本编码器):先读懂顾客想要什么。
  2. 动手做菜(去噪器/U-Net):根据理解去画图。

以前的研究认为,要禁止某种菜,必须去改“动手做菜”的环节(U-Net)。但这篇论文发现,“理解菜单”的环节(文本编码器)里,其实藏着更关键的秘密

特别是,“裸体”或“特定风格”这种高级概念,并不是均匀分布在厨师的整个大脑里,而是集中在“理解菜单”这个大脑的最早期区域(第一层)。就像是一个特定的神经回路专门负责识别“裸体”这个词。

3. HiRM 的妙计:只改“点菜员”,不改“厨师”

HiRM 方法就像是一个高明的**“点菜员误导计划”**。

  • 传统做法:为了不让厨师做“裸体菜”,把厨师的刀都藏起来(修改 U-Net)。结果厨师连切菜都笨手笨脚了。
  • HiRM 的做法
    1. 只动“点菜员”(文本编码器):我们只修改负责“理解菜单”的第一层大脑,不动后面的厨师。
    2. 高层误导(High-Level Misdirection)
      • 当顾客点“裸体”时,点菜员(第一层)会接收到指令,但它不直接删除这个概念(因为直接删除会破坏大脑结构)。
      • 相反,它把这个概念**“误导”**到一个完全不同的方向。
      • 比喻:想象顾客点“裸体”,点菜员心里想:“哦,你想看裸体?不行,但我可以把你引导到‘抽象画’或者‘随机乱码’的方向去。”
      • 它把“裸体”这个指令,在最终输出时,强行扭转到一个随机方向或者安全的上级概念(比如把“裸体”引导成“人体艺术”或“模糊的轮廓”)。
    3. 只修第一层:它只修改“点菜员”大脑的最底层(第一层),因为那里是产生“裸体”这个概念的源头。

4. 为什么这招这么厉害?

这就好比你想让一个翻译官(AI)不再翻译“脏话”。

  • 旧方法:把翻译官的嘴巴缝上,或者把字典全烧了。结果他连“你好”都说不利索了。
  • HiRM 方法:你只告诉翻译官:“以后听到‘脏话’这个词,你就把它当成‘天气’或者‘随机符号’来处理。”
    • 因为只改了翻译官最底层的反应机制,他处理“你好”、“谢谢”、“红烧肉”这些正常词汇时,完全不受影响,依然流利自然。
    • 而且,因为只改了“翻译官”(文本编码器),这个修改后的“翻译官”可以直接换到任何一家新开的餐厅(不同的 AI 模型架构,如 Flux),不需要重新培训厨师。

5. 实际效果:既安全又好用

论文通过大量实验证明:

  • 删得干净:对于“裸体”、“特定艺术家风格”等概念,HiRM 能非常有效地阻止生成。
  • 误伤少:生成普通图片(如风景、动物)的质量几乎没有下降,依然清晰、美观。
  • 抗攻击强:即使有人故意用复杂的提示词(像黑客一样)试图绕过限制,HiRM 依然能守住底线。
  • 兼容性好:它可以像“安全补丁”一样,直接打在任何新的 AI 模型上,甚至能和现有的其他防御方法叠加使用,效果加倍。

总结

HiRM 就像是一个精准的“大脑神经调节器”。它不粗暴地切除大脑,而是巧妙地重定向了那些危险想法的流向。它只修改了理解指令的“第一道关卡”,把危险概念悄悄引导到无害的轨道上,从而在彻底消除风险保留创作自由之间找到了完美的平衡点。

这就好比给 AI 戴上了一副“智能墨镜”:它依然能看清世界(生成高质量图片),但看到“裸体”或“侵权”时,会自动把画面变成马赛克或风景画,而不会让 AI 变傻。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →