RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

本文提出了 RelaCtrl 框架,通过评估 Diffusion Transformer 各层对控制信息的相关性来优化控制层配置,并引入二维 Shuffle Mixer 替换传统模块,从而在仅使用 PixArt-delta 15% 参数和计算量的情况下实现了高效的可控生成。

Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Xuanhua He, Run Ling, Haowei Liu, Jian Lu, Wei Feng, Haozhe Wang, Hongjuan Pei, Yihua Shao, Zhanjie Zhang, Jie Zhang

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RelaCtrl 的新方法,旨在让 AI 画图(从文字生成图像)变得更聪明、更省钱、更高效。

为了让你轻松理解,我们可以把 AI 画图的过程想象成一家大型装修公司的运作流程

1. 背景:现在的“装修队”太浪费钱了

现在的 AI 画图模型(比如 PixArt)非常厉害,能根据文字描述画出精美的图片。但是,如果你想让 AI 画出的图符合特定的要求(比如“必须是一只戴着墨镜的猫”或者“必须沿着特定的线条画”),就需要给 AI 加一个“控制助手”(就像 ControlNet)。

  • 旧方法的问题
    以前的做法是,为了加这个“控制助手”,装修公司直接复制了原本装修队一半的人手(复制了模型的一半层数)来专门干活。
    • 后果:人手翻倍了,工资(计算资源)和材料费(显存)也翻倍了,效率极低。
    • 更糟糕的是:他们不管这个“控制助手”在哪个环节最重要,而是平均用力。就像让所有工人,从搬砖的到画图纸的,都去盯着同一个细节,结果很多工人都在做无用功。

2. 核心发现:并不是所有环节都同样重要

RelaCtrl 的研究人员做了一个有趣的实验:他们试着把“控制助手”里的某些环节关掉,看看对最终画出来的图有什么影响。

  • 发现:他们惊讶地发现,并不是所有环节都重要
    • 在装修的前期和中期(比如打地基、砌墙、刷底漆),控制信息非常关键。如果这时候没盯好,房子就歪了。
    • 但在后期(比如最后的软装摆放、擦玻璃),控制信息的影响其实很小。这时候就算少派几个人,房子也不会塌。
    • 比喻:这就好比写文章,开头和中间的逻辑最重要,如果开头写错了,后面写得再好也没用;但结尾稍微改改,影响不大。

3. RelaCtrl 的解决方案:精兵简政 + 智能调度

基于这个发现,RelaCtrl 提出了两个聪明的策略:

策略一:只派精兵去关键岗位(相关性引导)

既然只有“前期和中期”最重要,那我们就只在这些关键位置安排“控制助手”。

  • 做法:不再复制一半的人手,而是只挑选出最关键的 11 个位置(原本需要 13 个,现在优化后只需 11 个,甚至更少)来插入控制信号。
  • 效果:就像装修队只派了最精锐的 3 个监工去关键节点,而不是让所有人都在现场瞎转悠。这直接省下了**85%**的额外人力成本。

策略二:发明一种“超级工具”(TDSM)

即使派了人,如果工具太笨重也不行。原来的“控制助手”用的工具(自注意力机制和 FFN 层)非常庞大且重复。

  • 做法:他们设计了一种叫 TDSM(二维洗牌混合器) 的新工具。
    • 比喻:想象原来的工具是“每个人都要和所有人握手”(计算量巨大)。而 TDSM 像是把大家随机打乱分组,让每个人只和组里的几个人快速握手,然后大家再换组、再握手。
    • 原理:通过这种“随机洗牌”和“分组交流”,它既能保证大家交换了足够的信息(不丢细节),又不用每个人都和所有人握手(省算力)。
  • 效果:这个新工具既轻便又高效,让控制助手变得非常小巧。

4. 最终成果:花小钱,办大事

通过这两招(只派精兵 + 使用超级工具),RelaCtrl 取得了惊人的效果:

  • 省钱:它只需要增加原模型 15% 的参数和计算量(而旧方法需要增加 50% 甚至更多)。
  • 效果好:画出来的图,无论是符合文字描述的程度,还是符合线条/形状控制的程度,都比旧方法更好,或者至少一样好。
  • 速度快:因为计算量小了,生成图片的速度也更快了。

总结

RelaCtrl 就像是给 AI 装修队请了一位“超级项目经理”
这位经理不再盲目地增加人手,而是先分析哪些环节最关键,只在这些环节精准投入资源;同时,他给工人配备了更高效的工具,让大家用更少的力气干出更好的活。

这就让 AI 画图变得更便宜、更快速,让普通人和小公司也能用得起高质量的 AI 绘图技术。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →