Scale-wise Distillation of Diffusion Models

本文提出了 SwD 框架,通过引入基于最大均值差异(MMD)的补丁级蒸馏目标实现渐进式生成,在显著减少扩散模型采样步数的同时,大幅提升了生成效率与质量。

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SwD (Scale-wise Distillation,尺度感知蒸馏) 的新方法,旨在让 AI 画图(生成图像和视频)变得更快、更聪明

想象一下,现在的 AI 画图就像是一个极其严谨但动作缓慢的画家。为了画出一张完美的 1024x1024 像素的画,他必须从一团模糊的噪点开始,一步一步地“去噪”,通常需要走 20 到 50 步才能完成。这就像是要把一杯浑水慢慢过滤成清水,虽然效果好,但太费时间了。

这篇论文提出了两个核心“魔法”,让这位画家能在 4 步甚至更少步数内,画出同样高质量的作品。

魔法一:像“先画草图,再填细节”一样画画(尺度感知蒸馏)

传统做法的痛点:
以前的加速方法,通常是强迫画家在每一步都必须在全尺寸(比如 1024x1024)的画布上工作。这就好比画家在画草图阶段,也要拿着放大镜,在每一根线条上都精雕细琢,这非常浪费精力。

SwD 的创意:
作者发现,AI 在画画的早期阶段(噪音很大时),其实根本不需要看清细节,只需要知道“大概是个什么形状”和“大致的颜色分布”。只有到了最后阶段,才需要看清“猫耳朵上的绒毛”这种细节。

于是,SwD 给画家制定了一个**“由小到大”的作画流程**:

  1. 第一步(起稿): 画家在一张很小的画布(比如 32x32 像素)上快速勾勒轮廓。这时候不需要细节,所以速度极快。
  2. 中间步(放大): 画家把刚才的小画放大,在中等画布(比如 64x64)上添加一些主要特征。
  3. 最后一步(精修): 画家在全尺寸画布(1024x1024)上,只专注于添加最后的细节和纹理。

比喻:
这就像你盖房子

  • 旧方法:从打地基开始,每一块砖都要按最终大楼的精度去烧制和打磨,哪怕是在盖地基的时候。
  • SwD 方法:先用几块大石头快速搭个房子轮廓(低分辨率),确认结构没问题后,再换中等砖块砌墙(中分辨率),最后才用精美的瓷砖贴面(高分辨率)。
  • 结果:因为大部分时间都在处理“小房子”,计算量大大减少,速度提升了 2 到 3 倍,而且因为符合人类“先整体后局部”的认知规律,画出来的质量反而更好。

魔法二:用“找不同”的游戏来教学(MMD 蒸馏目标)

传统做法的痛点:
为了让 AI 学得快,通常需要让 AI 模仿“老师”(一个已经训练好的大模型)的每一步输出。但这就像让小学生死记硬背老师的每一笔一划,如果老师画错了,学生也跟着错,而且很难学会“神韵”。

SwD 的创意:
作者引入了一个基于最大均值差异 (MMD) 的新目标。这就像是一个**“找不同”的游戏**,但不是比谁画得和原图一模一样,而是比**“感觉”像不像**。

  • 怎么做? 老师模型和学生的模型都会把画好的图“拆解”成很多小碎片(特征块)。
  • 怎么比? 算法会计算这些碎片的“平均感觉”是否一致。如果学生画的图,其整体氛围、纹理分布和老师的图在统计上很像,那就给高分。
  • 优势: 这种方法不需要额外的“裁判”模型(省资源),而且它非常擅长捕捉图像的整体质感。即使学生只画了很少的几步,只要“感觉”对了,画出来的东西就很自然。

比喻:

  • 旧方法:老师教学生画画,要求“这一笔必须和老师的笔触完全重合,差一毫米都不行”。
  • 新方法 (MMD):老师对学生说:“我不在乎你每一笔怎么画,我只看最后这幅画给人的整体感觉(比如光影、色彩分布)是不是和我画的一样生动。”
  • 结果:学生学会了“神韵”,画得更快,而且不容易出现那种“虽然像但很假”的僵硬感。

总结:为什么这很重要?

  1. 速度飞快:以前画一张图要等几十秒甚至几分钟,现在用 SwD,可能只需要几秒钟。对于视频生成,速度提升更是高达 70 倍 以上。
  2. 质量不降反升:因为顺应了“先粗后细”的自然规律,反而减少了计算错误,画出来的图更自然,缺陷更少。
  3. 通用性强:这套方法可以套用在各种现有的顶级 AI 模型上(如 SDXL, FLUX, Wan2.1 等),让它们瞬间变身“快手”。

一句话总结:
这篇论文教 AI 画画,不再是“一步一个脚印地死磕”,而是学会了**“先画草图,再放大细节”的聪明策略,配合一种“抓感觉”**的教学法,让 AI 在几秒钟内就能画出以前需要几十秒才能完成的精美大作。