Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

本文提出了 Diff-ES,一种通过进化搜索自动优化分阶段稀疏度调度并结合内存高效权重路由的扩散模型结构化剪枝框架,在 DiT 和 SDXL 上实现了显著的推理加速与高质量的生成效果。

Zongfang Liu, Shengkun Tang, Zongliang Wu, Xin Yuan, Zhiqiang Shen

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Diff-ES 的新方法,旨在让“生成式 AI 画图”(扩散模型)变得更快、更省资源,同时还能保持画得好看。

为了让你轻松理解,我们可以把AI 画图的整个过程想象成一位画家在画一幅复杂的油画

1. 背景:画家太累了,画得太慢

现在的 AI 画家(扩散模型)画一幅画,不是一笔下去就完成的,而是需要分很多步(比如 20 步、50 步)慢慢“去噪”。

  • 第一步:在满是杂点的画布上勾勒出大概的轮廓(比如先画个大概的人形)。
  • 中间步骤:慢慢填充衣服的颜色、皮肤的质感。
  • 最后几步:精细地刻画眼睛的高光、头发的丝缕。

问题在于:这位画家太“死板”了。不管是在画轮廓(简单)还是在画眼睛(复杂),他用的精力(计算资源)和画笔的精细度(模型参数)都是一样的。这就像让一个顶级大厨,在切土豆丝和给牛排调味时,都拿出同样的顶级刀工和专注度,既浪费又没必要。

2. 以前的尝试:笨拙的“分段施工”

之前的科学家(比如 MosaicDiff 方法)也发现了这个问题,他们想:“既然不同阶段需要的精力不同,那我们就分段施工吧!”

  • 他们把画画过程分成三段:开始、中间、结束。
  • 然后人工规定:开始阶段用“粗笔”(少用参数,快一点),中间用“中笔”,结束用“细笔”。
  • 缺点:这种分段和分配完全是**凭感觉(人工经验)**定的。就像让一个不懂画的人去指挥画家:“前 10 分钟你只用左手画,中间 10 分钟只用右手,最后 10 分钟双手并用。”
  • 后果:有时候分错了,比如该精细画眼睛的时候用了“粗笔”,画出来的图就糊了;或者该快的时候用了“细笔”,画得太慢。而且,为了配合这种分段,他们甚至需要把三个不同的“画家模型”拼在一起用,非常占内存。

3. Diff-ES 的解决方案:聪明的“进化搜索” + “智能换笔”

Diff-ES 提出了一套全新的策略,核心思想是:别靠猜,靠“进化”来找最佳方案,并且用一种聪明的方式切换工具。

核心比喻一:进化搜索(Evolutionary Search)—— 像“自然选择”一样找最佳配方

想象我们有一个超级实验室,里面养了一群“虚拟画家助手”。

  1. 初始种群:我们给这群助手分配了各种各样的“精力分配方案”(有的方案是“前重后轻”,有的是“中间重两头轻”)。
  2. 试画与打分:让每个助手按自己的方案画几张图。然后,我们用一个快速评分系统(比如 AI 评委)给图打分:画得像不像?细节好不好?
  3. 优胜劣汰:画得好的方案(基因)被保留下来,画得差的被淘汰。
  4. 变异与进化:保留下来的方案会互相“杂交”或“微调”(比如把中间阶段的精力稍微挪一点给最后阶段),产生新一代的方案。
  5. 循环:这个过程重复几十次,最终自动进化出一个最完美的精力分配方案。这个方案是专门针对当前这个模型“量身定制”的,完全不需要人工去猜。

核心比喻二:权重路由(Weight Routing)—— “智能换笔”而不是“换画家”

以前的方法(MosaicDiff)为了适应不同阶段,需要把三个不同的模型拼在一起,就像画家画到一半,要把整个画架拆了,换一套完全不同的画笔和颜料,非常麻烦且占地方。

Diff-ES 发明了一种**“智能换笔”机制**:

  • 我们只保留一套完整的画笔和颜料(模型主干)。
  • 但是,我们在旁边准备了一个巨大的“笔尖库”(预计算好的权重数据库)。
  • 当画家进入“画轮廓”阶段时,系统自动从库里拿出“粗笔尖”装上去;进入“画眼睛”阶段时,自动换上“细笔尖”。
  • 关键点:换笔尖的速度极快,而且不需要把整个画架(模型)都搬来搬去。这大大节省了电脑内存(显存),让运行更流畅。

4. 结果:又快又好

通过这种“进化找方案” + “智能换笔”的组合拳,Diff-ES 取得了惊人的效果:

  • 速度快:因为在不重要的阶段自动“偷懒”(减少计算),整体画图时间缩短了。
  • 画质好:因为找到了最适合该模型的“精力分配表”,在关键细节上(如眼睛、纹理)依然保留了足够的算力,图片没有变糊。
  • 通用性强:无论是像 SDXL 这样的大模型,还是像 DiT 这样的新架构,它都能自动找到最佳方案,不需要人工重新调整。

总结

简单来说,Diff-ES 就是给 AI 画家装上了一个**“智能大脑”**:

  1. 它不再死板地平均用力,而是通过自动进化,学会了“哪里该用力,哪里该省力”。
  2. 它通过智能换笔技术,在不增加负担的情况下,灵活切换工作状态。

最终,它让 AI 画画变得既快又省资源,而且画出来的东西依然精美绝伦