Learnable Sparsity for Vision Generative Models

该论文提出了一种无需重训练的模型无关可学习稀疏性框架,通过设计覆盖整个扩散过程的端到端优化目标及时间步梯度检查点技术,在显著降低显存占用的同时,实现了对 SDXL 和 FLUX 等先进扩散模型高达 20% 的参数剪枝且几乎不影响生成质量。

Yang Zhang, Er Jin, Wenzhong Liang, Yanfei Dong, Ashkan Khakzar, Philip Torr, Johannes Stegmaier, Kenji Kawaguchi

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EcoDiff 的新方法,它的核心目标是:让那些巨大、昂贵的 AI 绘画模型(如 SDXL 和 FLUX)变得“瘦身”且高效,同时还能保持画得好看。

想象一下,现在的顶级 AI 绘画模型就像是一个拥有 120 亿个零件的超级工厂。虽然它能画出非常精美的画,但这个工厂太大了:

  • 太占地方:需要巨大的服务器(昂贵的显卡)才能运行。
  • 太费电:运行一次就像开了一整天的空调,碳排放很高。
  • 太慢:生成一张图需要很长时间。

以前的“瘦身”方法(剪枝)就像是粗暴地拆掉工厂的机器。拆完后,工厂确实变小了,但往往因为拆错了关键零件,导致生产出来的画变得乱七八糟。为了修好它,工程师们不得不重新培训整个工厂,这又需要花费巨大的时间和金钱(相当于重新建厂)。

EcoDiff 做了什么?它就像是一个“智能外科医生”加“时间管理大师”。

1. 智能外科医生:可学习的“剪枝面具”

以前的方法像是蒙着眼睛剪零件,或者只盯着某一个瞬间看。EcoDiff 则给模型戴上了一副可学习的“智能面具”

  • 比喻:想象你在看一部电影。以前的方法可能只盯着电影里的某一个镜头(比如主角眨眼的那一秒),觉得这个镜头不重要就剪掉。但 AI 绘画是一个连续的过程,剪掉中间一个镜头,结局可能就会变成灾难。
  • EcoDiff 的做法:它不是只看一眼,而是通读整部电影(从开始到结束的全过程)。它通过一种“可微分”的技术,像做手术一样,精准地找出哪些神经元(零件)是真正多余的,哪些是核心骨干。它给这些零件贴上“保留”或“移除”的标签,而且这个标签是可以随着训练不断调整的,直到找到最完美的“瘦身方案”。

2. 时间管理大师:解决“内存爆炸”的难题

这里有一个巨大的技术挑战:如果要通读整部电影来剪枝,计算机的内存(VRAM)会瞬间爆炸。

  • 比喻:想象你要在一条长达 100 公里的跑道上跑步,并且要记住每一步的脚印以便最后分析。如果你要把这 100 公里的所有脚印都记在脑子里,你的大脑(内存)会直接撑爆。对于像 FLUX 这样的大模型,直接计算需要相当于 15 张顶级显卡的内存,普通人根本用不起。
  • EcoDiff 的绝招(时间步梯度检查点):它发明了一种**“只记关键点,中间步骤重算”**的技巧。
    • 它不再死记硬背每一步的脚印,而是每隔一段距离(比如每 10 公里)记一个“检查点”。
    • 当需要分析中间某一段时,它利用这个检查点,快速重新跑一遍那一段路。
    • 结果:虽然多跑了一点点路(计算时间稍微增加一点点),但它需要的“大脑容量”(内存)却从 100 公里缩减到了几公里。这让普通人的显卡(比如一张 A100)也能轻松搞定以前需要超级计算机才能做的任务。

3. 效果如何?

  • 极速瘦身:EcoDiff 能在100 张图的小样本上,仅用10 个小时的显卡时间,就把模型剪掉 20% 的参数。
  • 质量不减:剪完后,模型画的图(比如“戴单片眼镜的猫头鹰”或“在夕阳下漂浮的城市”)依然栩栩如生,和没剪之前几乎一样好。
  • 后续修复:如果剪得稍微狠了一点,它还可以配合轻量级的“微调”(LoRA),像给剪完头发的人做个简单的造型打理,让画质瞬间恢复完美。

总结

这篇论文就像是在说:“我们不需要为了画好画而建造巨大的工厂。通过一种聪明的、全局视角的‘手术’,我们可以把工厂缩小 20%,省下的电费和空间足以让每个人都能在自己的电脑上运行这些顶级 AI,而且画出来的东西依然惊艳。”

这就是 EcoDiff:让 AI 绘画变得更绿色(环保)、更便宜(低成本)、更普及(易于部署)。