OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

本文提出了 OBS-Diff,一种新颖的无需训练的单次剪枝框架,通过适配现代扩散模型架构的 OBS 算法、基于误差累积视角的 timestep 感知 Hessian 构建以及高效的组级顺序剪枝策略,实现了大规模文生图扩散模型的准确压缩与推理加速。

Junhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 OBS-Diff 的新方法,它的核心任务是给庞大的“文生图”AI 模型(比如 Stable Diffusion 3)做**“瘦身”,而且是在不重新训练**的情况下,一次性完成。

为了让你轻松理解,我们可以把整个过程想象成**“给一位正在画连环画的超级画家做手术”**。

1. 背景:为什么需要“瘦身”?

现在的文生图 AI 就像一位才华横溢但极其臃肿的超级画家

  • 优点:他画得极好,能根据文字描述画出惊人的图片。
  • 缺点:他太胖了(参数量巨大,几十亿甚至上百亿),画画时需要巨大的房间(显存)和极长的时间(计算成本)。普通人根本请不起他,也跑不动他。

科学家想把他变瘦(剪枝/Pruning),去掉那些不重要的笔触(权重),让他变快、变小。但以前的方法有两个大麻烦:

  1. 太慢:以前的方法像“边剪边练”,剪一刀就要重新学半天,成本太高。
  2. 不懂行:以前的方法(比如直接剪掉数值小的)像是一个不懂画画的理发师,只敢剪头发,不敢动眉毛,结果剪完画家画歪了,或者画出来的东西全是乱码。

2. OBS-Diff 的三大绝招

OBS-Diff 就像一位精通解剖学且懂画画的顶级外科医生,它用了三个巧妙的策略来解决上述问题:

绝招一:时间感知手术刀(Timestep-Aware Hessian)

比喻:画画的“起稿”比“上色”更重要。

  • 原理:AI 画画不是一下子完成的,而是像倒放视频一样,从一团模糊的噪点开始,一步步“去噪”变成清晰的图。
    • 早期步骤(起稿):决定了画面的整体构图和骨架。如果这里剪错了,后面画得再细也是歪的。
    • 晚期步骤(上色):只是修饰细节。
  • OBS-Diff 的做法:以前的方法对所有步骤一视同仁。OBS-Diff 给早期步骤戴上了“放大镜”,认为它们最重要。它在决定剪掉哪根神经时,会问:“这根神经在起稿阶段重要吗?”如果重要,就坚决保留;如果不重要,就大胆剪掉。
  • 效果:保证了画家在起稿时手不抖,画出来的图结构依然稳固。

绝招二:分组流水线(Module Packages)

比喻:不要一个一个剪,要“打包”剪。

  • 原理:如果要把画家身上的几亿根神经(权重)一根根检查、剪掉、再检查,那得剪到猴年马月。
  • OBS-Diff 的做法:它把画家的身体分成几个**“大包裹”**(比如把画眼睛、画鼻子、画嘴巴的神经打包)。
    • 它先让画家画一张图,同时收集这一整包神经的数据。
    • 然后一次性把这包里所有不重要的神经都剪掉。
    • 再换下一包。
  • 效果:大大加快了“体检”和“手术”的速度,让整个过程在几分钟内就能完成,而不需要几天。

绝招三:全能手术刀(支持多种剪法)

比喻:既能剪碎发,也能剪掉整条胳膊。

  • 原理:以前的方法只能剪“碎发”(非结构化剪枝,随机剪几个点),或者只能剪“整条胳膊”(结构化剪枝,剪掉整个模块),很难兼顾。
  • OBS-Diff 的做法:它非常灵活。
    • 非结构化:像修剪草坪,哪里草高了剪哪里(适合通用加速)。
    • 半结构化:像剪出整齐的 2:4 发型(适合特定硬件加速)。
    • 结构化:直接剪掉整个“画眼睛的模块”或“画背景的模块”(适合大幅减小模型体积)。
  • 效果:不管你想怎么剪,它都能剪得漂亮,不会让画家“残疾”。

3. 结果如何?

实验证明,OBS-Diff 的效果惊人:

  • 剪得多:即使剪掉了 50% 甚至 70% 的参数(相当于把画家体重减半),他画出来的图依然清晰、漂亮,和没剪之前几乎没区别。
  • 剪得快:整个过程不需要重新训练,“一刀切” 完成。
  • 对比强烈:其他方法(比如直接剪掉数值小的)在剪掉 50% 后,画出来的图可能变成一团乱麻(全是噪点或扭曲的人脸),而 OBS-Diff 依然能画出“从头发里长出彩色花朵”这样复杂的画面。

总结

OBS-Diff 就像是给庞大的 AI 画家做了一次精准的“微创整形手术”
它不再盲目地乱剪,而是懂得画画的规律(时间步权重)懂得批量操作(分组策略),并且什么类型的剪法都会。最终,它让这位超级画家变得轻便、快速,却依然才华横溢,让普通人的电脑也能跑得动最顶尖的 AI 绘画模型。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →