Z-Erase: Enabling Concept Erasure in Single-Stream Diffusion Transformers

本文提出了 Z-Erase,这是首个专为单流扩散 Transformer 模型设计的方法,通过流解耦概念擦除框架和拉格朗日引导自适应调制机制,有效解决了直接应用现有方法导致的生成崩溃问题,实现了概念擦除与图像生成质量的平衡。

Nanxiang Jiang, Zhaoxin Fan, Baisen Wang, Daiheng Gao, Junhang Cheng, Jifeng Guo, Yalan Qin, Yeying Jin, Hongwei Zheng, Faguo Wu, Wenjun Wu

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 Z-Erase 的新技术,它专门用来解决新一代 AI 绘画模型中一个非常棘手的问题:如何安全地“忘记”某些不想画的内容,同时不让模型彻底“变傻”或画不出图来。

为了让你更容易理解,我们可以把整个故事想象成在管理一个超级繁忙的“全能画室”

1. 背景:从“双轨制”到“单轨制”的画室

  • 以前的画室(U-Net/Flux 模型):
    以前的 AI 绘画模型像是一个双轨制的画室。

    • 一条轨道专门负责听指令(处理文字,比如“画一只猫”)。
    • 另一条轨道专门负责画画(处理图像像素)。
    • 这两条轨道虽然会交流,但它们是分开的。如果你想让画室“忘记”怎么画“猫”,你只需要在“听指令”的轨道上把关于“猫”的指令删掉,或者把相关的零件拆下来,通常不会影响到“画画”轨道的运作。
  • 现在的画室(单流扩散 Transformer,如 Z-Image):
    现在的最新一代模型(比如论文里提到的 Z-Image)为了追求极致的速度和画质,把两条轨道合并成了一条超级轨道

    • 文字指令和图像像素变成了同一串连续的代码,混在一起处理。
    • 所有的“大脑神经元”(参数)都是共用的。
    • 比喻: 这就像是一个全能天才画家,他的大脑里,关于“猫”的概念和“画猫”的笔法是完全纠缠在一起的。如果你试图强行抹去他脑子里“猫”的概念,就像是在他的神经网络上动手术,结果往往是整个大脑崩溃了——他不仅忘了怎么画猫,连怎么画苹果、怎么画风景都忘了,甚至画出来的东西变成了一团乱码(这就是论文里说的"Generation Collapse",生成崩溃)。

2. 问题:直接“切除”会出大事

以前的方法(直接微调)就像是用大锤去砸那个全能画家的头,试图把“猫”这个念头砸掉。

  • 结果: 画家没疯,但他失忆了,或者疯了,画出来的全是噪点。
  • 原因: 因为“猫”的概念和“画画”的能力在单轨模型里是深度纠缠的,你动了一个,另一个也会跟着坏。

3. 解决方案:Z-Erase 的“手术刀”与“安全带”

Z-Erase 提出了两个核心策略,就像给这个手术装上了精密的导航安全护栏

第一步:流解耦框架(Stream Disentangled Framework)—— 给大脑装个“隔离舱”

  • 比喻: 既然不能直接动画家的主脑(因为会崩溃),Z-Erase 给画家戴了一个特制的“思考头盔”
  • 原理: 当画家需要处理“不要画猫”这个指令时,Z-Erase 只允许他在头盔的文字处理区进行微调(学习怎么忽略“猫”这个词),而严格冻结他负责画图的图像处理区
  • 效果: 就像是在画家的脑子里建了一个隔离舱。他在隔离舱里学习“忘掉猫”,但隔离舱外面的“画画肌肉”完全不受影响。这样,他就能学会忽略“猫”的指令,而不会忘记怎么拿画笔。

第二步:拉格朗日引导自适应调节(Lagrangian-Guided Adaptive Modulation)—— 智能的“油门与刹车”

  • 问题: 即使有了隔离舱,如果不小心,画家可能还是会因为太用力“忘掉猫”,导致连“画猫毛”这种通用技巧也忘了,或者把“画狗”也误伤了。这就需要在“彻底忘掉”和“保留能力”之间找平衡。
  • 比喻: 这就像开车下山。
    • 目标: 我们要把车(模型)开到一个特定的位置(彻底忘掉猫)。
    • 限制: 但车速不能太快,否则车会翻(图像质量崩塌)。
    • Z-Erase 的做法: 它不像以前的方法那样死板地踩油门或刹车。它装了一个智能巡航系统
      • 当它发现“忘掉猫”的动作开始伤害到“画其他东西”的能力时,系统会自动踩刹车(调整权重),保护通用能力。
      • 当发现“忘掉猫”还不够彻底,且没有伤害其他能力时,系统会轻踩油门,继续加深遗忘。
  • 数学原理(简单说): 它用一种数学方法(拉格朗日乘子法)动态计算:“我现在能多忘一点吗?如果多忘一点会破坏画质吗?” 如果会,就立刻停止;如果不会,就继续。

4. 成果:既安全又聪明

通过实验,Z-Erase 证明了它的效果:

  • 彻底遗忘: 它能成功让模型不再画出“裸露”、“暴力”或特定的“明星脸”、“艺术风格”。
  • 保持高质量: 模型在忘掉这些内容后,画风景、画动物、画日常物品的能力依然完美如初,没有变成一团乱码。
  • 抗攻击: 即使有人故意把提示词改得怪怪的(比如把"Apple"改成"Applee"),Z-Erase 依然能识别并阻止生成,不像以前的方法那样容易被绕过。

总结

Z-Erase 就像是给新一代 AI 画室配备了一位“精明的图书管理员”和“安全主管”。

  • 以前的方法是想把书(概念)从图书馆里撕掉,结果把图书馆的墙(模型结构)也拆了。
  • Z-Erase 则是给图书馆装上了智能门禁(流解耦),只禁止特定的人(概念)进入,同时给管理员配了智能监控(自适应调节),确保在清理违规书籍时,不会误伤其他正常的书籍,也不会把图书馆弄塌。

这项技术让未来的 AI 绘画模型既能画得好,又能守规矩,在追求极致性能的同时,也能安全地服务于人类社会。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →