Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Diff-ES 的新方法，旨在让“生成式 AI 画图”（扩散模型）变得更快、更省资源，同时还能保持画得好看。

为了让你轻松理解，我们可以把AI 画图的整个过程想象成一位画家在画一幅复杂的油画。

1. 背景：画家太累了，画得太慢

现在的 AI 画家（扩散模型）画一幅画，不是一笔下去就完成的，而是需要分很多步（比如 20 步、50 步）慢慢“去噪”。

第一步：在满是杂点的画布上勾勒出大概的轮廓（比如先画个大概的人形）。
中间步骤：慢慢填充衣服的颜色、皮肤的质感。
最后几步：精细地刻画眼睛的高光、头发的丝缕。

问题在于：这位画家太“死板”了。不管是在画轮廓（简单）还是在画眼睛（复杂），他用的精力（计算资源）和画笔的精细度（模型参数）都是一样的。这就像让一个顶级大厨，在切土豆丝和给牛排调味时，都拿出同样的顶级刀工和专注度，既浪费又没必要。

2. 以前的尝试：笨拙的“分段施工”

之前的科学家（比如 MosaicDiff 方法）也发现了这个问题，他们想：“既然不同阶段需要的精力不同，那我们就分段施工吧！”

他们把画画过程分成三段：开始、中间、结束。
然后人工规定：开始阶段用“粗笔”（少用参数，快一点），中间用“中笔”，结束用“细笔”。
缺点：这种分段和分配完全是**凭感觉（人工经验）**定的。就像让一个不懂画的人去指挥画家：“前 10 分钟你只用左手画，中间 10 分钟只用右手，最后 10 分钟双手并用。”
后果：有时候分错了，比如该精细画眼睛的时候用了“粗笔”，画出来的图就糊了；或者该快的时候用了“细笔”，画得太慢。而且，为了配合这种分段，他们甚至需要把三个不同的“画家模型”拼在一起用，非常占内存。

3. Diff-ES 的解决方案：聪明的“进化搜索” + “智能换笔”

Diff-ES 提出了一套全新的策略，核心思想是：别靠猜，靠“进化”来找最佳方案，并且用一种聪明的方式切换工具。

核心比喻一：进化搜索（Evolutionary Search）—— 像“自然选择”一样找最佳配方

想象我们有一个超级实验室，里面养了一群“虚拟画家助手”。

初始种群：我们给这群助手分配了各种各样的“精力分配方案”（有的方案是“前重后轻”，有的是“中间重两头轻”）。
试画与打分：让每个助手按自己的方案画几张图。然后，我们用一个快速评分系统（比如 AI 评委）给图打分：画得像不像？细节好不好？
优胜劣汰：画得好的方案（基因）被保留下来，画得差的被淘汰。
变异与进化：保留下来的方案会互相“杂交”或“微调”（比如把中间阶段的精力稍微挪一点给最后阶段），产生新一代的方案。
循环：这个过程重复几十次，最终自动进化出一个最完美的精力分配方案。这个方案是专门针对当前这个模型“量身定制”的，完全不需要人工去猜。

核心比喻二：权重路由（Weight Routing）—— “智能换笔”而不是“换画家”

以前的方法（MosaicDiff）为了适应不同阶段，需要把三个不同的模型拼在一起，就像画家画到一半，要把整个画架拆了，换一套完全不同的画笔和颜料，非常麻烦且占地方。

Diff-ES 发明了一种**“智能换笔”机制**：

我们只保留一套完整的画笔和颜料（模型主干）。
但是，我们在旁边准备了一个巨大的“笔尖库”（预计算好的权重数据库）。
当画家进入“画轮廓”阶段时，系统自动从库里拿出“粗笔尖”装上去；进入“画眼睛”阶段时，自动换上“细笔尖”。
关键点：换笔尖的速度极快，而且不需要把整个画架（模型）都搬来搬去。这大大节省了电脑内存（显存），让运行更流畅。

4. 结果：又快又好

通过这种“进化找方案” + “智能换笔”的组合拳，Diff-ES 取得了惊人的效果：

速度快：因为在不重要的阶段自动“偷懒”（减少计算），整体画图时间缩短了。
画质好：因为找到了最适合该模型的“精力分配表”，在关键细节上（如眼睛、纹理）依然保留了足够的算力，图片没有变糊。
通用性强：无论是像 SDXL 这样的大模型，还是像 DiT 这样的新架构，它都能自动找到最佳方案，不需要人工重新调整。

总结

简单来说，Diff-ES 就是给 AI 画家装上了一个**“智能大脑”**：

它不再死板地平均用力，而是通过自动进化，学会了“哪里该用力，哪里该省力”。
它通过智能换笔技术，在不增加负担的情况下，灵活切换工作状态。

最终，它让 AI 画画变得既快又省资源，而且画出来的东西依然精美绝伦。

Each language version is independently generated for its own context, not a direct translation.

Diff-ES 技术总结：基于进化搜索的扩散模型分阶段结构剪枝

1. 研究背景与问题 (Problem)

扩散模型（Diffusion Models）在高质量图像生成领域取得了巨大成功，但其部署面临两大挑战：

计算成本高：多步去噪过程（Multi-step denoising）和庞大的模型参数量导致推理速度慢、显存占用高。
现有剪枝方法的局限性：
- 均匀剪枝的不足：传统方法通常对所有去噪步骤应用相同的剪枝策略，忽略了扩散过程中不同阶段的重要性差异（早期步骤构建全局语义，后期步骤细化纹理）。
- 启发式分阶段的缺陷：现有工作如 MosaicDiff 尝试将去噪过程分为几个阶段并手动分配稀疏度（Sparsity Schedule），但其依赖人工调优的启发式规则（如“中间重要，两头次要”），缺乏通用性，且在不同架构（如 DiT 与 SDXL）上表现不佳。
- 推理开销大：MosaicDiff 在推理时需要拼接多个独立剪枝的模型，导致显存开销（Memory Overhead）显著增加。

核心问题：如何在固定的全局剪枝预算下，自动发现并优化适应不同模型架构的分阶段稀疏度调度（Stage-wise Sparsity Schedule），同时避免推理时的显存膨胀？

2. 方法论 (Methodology)

作者提出了 Diff-ES（Stage-wise Structural Diffusion Pruning via Evolutionary Search），一个结合进化搜索与结构剪枝的框架。

2.1 核心框架

Diff-ES 将扩散轨迹划分为 $n$ 个阶段，目标是在满足全局稀疏度约束 $G(\mathbf{L}) \geq L_t$ 的前提下，寻找最优的各阶段稀疏度分配 $\mathbf{L} = \{L_1, L_2, ..., L_n\}$ ，以最大化生成质量 $f(\mathbf{L})$ 。

2.2 关键技术组件

基于进化搜索的调度优化 (Evolutionary Search)：
- 初始化：生成包含均匀、随机或启发式模式的初始种群。
- 变异操作 (Level-Switch Mutation)：在保持全局稀疏度不变的前提下，随机选择两个阶段，通过增加一个阶段的稀疏度并减少另一个阶段的稀疏度来重新分配计算资源。
- 适应度评估 (Fitness Evaluation)：使用轻量级指标（如 CLIP-IQA, TOPIQ, SSIM）评估剪枝后模型的生成质量，而非昂贵的 FID 计算，以加速搜索过程。
- 选择与迭代：保留表现优异的个体，重复变异 - 评估 - 选择过程，直至收敛。
SNR 感知的分阶段校准 (SNR-Aware Stage Calibration)：
- 针对每个阶段，根据其对应的信噪比（SNR）区间构建校准集。
- 确保每个阶段的剪枝决策基于该阶段真实的去噪噪声条件，从而更准确地估计局部曲率（Hessian）。
二阶结构剪枝 (Second-Order Structural Pruning)：
- 扩展了 OBS (Optimal Brain Surgeon) 算法，利用 Hessian 矩阵信息移除冗余参数（通道或层），同时通过权重更新补偿误差。
- 支持多种剪枝策略：Layer Dropping（深度剪枝）、Wanda（一阶幅度剪枝）和 OBS（二阶剪枝）。
轻量级权重路由机制 (Lightweight Weight Routing)：
- 痛点解决：二阶剪枝是迭代过程，若为进化搜索中的每个候选者实时计算剪枝轨迹，计算成本过高；若像 MosaicDiff 那样存储多个完整模型，显存开销过大。
- 解决方案：
  - 预计算：对每个阶段独立执行一次完整的二阶剪枝过程，将不同稀疏度层级下的更新后权重（Projection Weights）存入紧凑数据库。
  - 动态路由：在进化搜索评估候选者时，通过轻量级路由机制直接从数据库检索对应阶段的权重，动态组装模型。
  - 优势：无需重复计算二阶更新，无需在显存中同时加载多个完整模型，显著降低了显存占用和评估时间。

3. 主要贡献 (Key Contributions)

揭示了启发式分阶段剪枝的局限性：指出人工调度的稀疏度模式（如 MosaicDiff）无法泛化到不同架构（DiT vs SDXL），导致次优性能。
提出了 Diff-ES 框架：首个利用进化搜索自动优化分阶段稀疏度调度的方法，能够自适应不同模型的结构重要性。
设计了高效的权重路由机制：解决了二阶剪枝与进化搜索结合时的显存和计算瓶颈，实现了无需模型复制（Model Duplication）的高效推理。
广泛的实验验证：在 CNN 架构（SDXL）和 Transformer 架构（DiT）上均取得了 SOTA 性能，兼容多种剪枝算法。

4. 实验结果 (Results)

实验在 DiT-XL/2 和 SDXL-Base-1.0 上进行，对比了 Diff-Pruning, DeepCache, OBS-Diff, MosaicDiff 等基线方法。

生成质量 (FID/SSIM)：
- DiT：在 50% 稀疏度下，Diff-ES 的 FID 为 12.86，显著优于 MosaicDiff (22.29)。
- SDXL：在 30% 稀疏度下，Diff-ES 的 FID 为 25.87，远优于 MosaicDiff (59.09) 和 OBS-Diff (28.49)。
- 视觉质量：Diff-ES 生成的图像在物体身份、场景布局和纹理细节上更接近原始稠密模型，而 MosaicDiff 常出现严重的语义退化（如泰迪熊长出三条腿）。
稀疏度调度差异：
- DiT：Diff-ES 发现中间和后期步骤密度较高，早期稀疏，这与 MosaicDiff 的直觉相似。
- SDXL：Diff-ES 发现早期和后期步骤密度较高，中间步骤可大幅稀疏，这与 MosaicDiff 的“中间重要”假设完全相反，证明了自动搜索的必要性。
效率与显存：
- 速度：实现了显著的墙钟时间加速（Speedup），例如 SDXL 上达到 1.10x - 1.18x 加速。
- 显存：相比 MosaicDiff 的模型拼接方式，Diff-ES 的权重路由机制在 DiT 上节省了约 42.7% 的 GPU 显存。
泛化性：在未见过的提示词（Out-of-distribution prompts）上，Diff-ES 仍能保持稳定的生成质量，未出现明显的过拟合。

5. 意义与结论 (Significance)

理论意义：证明了扩散模型不同去噪阶段的重要性分布是高度非均匀且模型依赖的，简单的启发式规则无法捕捉这一特性。
技术突破：通过进化搜索与权重路由的结合，成功解决了“高精度二阶剪枝”与“大规模超参数搜索”之间的矛盾，为扩散模型的高效推理提供了新的范式。
实际应用：Diff-ES 是一个即插即用（Plug-and-play）的框架，可与现有的加速技术（如 DPM-Solver, DeepCache）结合，进一步降低推理成本，同时保持极高的图像生成质量。

总结：Diff-ES 通过自动化搜索最优的分阶段剪枝策略，并配合高效的权重管理，在大幅降低计算成本的同时，最大限度地保留了扩散模型的生成能力，是目前结构化剪枝领域的最佳实践。

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search