Cross-Resolution Distribution Matching for Diffusion Distillation

该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架,通过利用对数信噪比映射和预测噪声重注入机制,有效弥合了跨分辨率分布差异,从而在保持高视觉保真度的同时,显著加速了扩散模型的推理过程(如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速)。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RMD(跨分辨率分布匹配蒸馏)的新方法,旨在让 AI 画图、画视频变得更快,同时画质不下降

为了让你轻松理解,我们可以把 AI 生成图像的过程想象成**“一位画家在画一幅巨幅油画”**。

1. 现在的痛点:画家太累了,而且容易“翻车”

  • 传统方法(慢): 现在的 AI 画家(扩散模型)画一幅画,需要像“剥洋葱”一样,从一团乱麻(全是噪点)开始,一步步把细节抠出来。这个过程通常需要走几百步(比如 50 步),每一步都要全神贯注地计算整张画。这就好比画家要画 1024x1024 像素的大画,他必须从第一笔开始就盯着每一个像素点,非常耗时。
  • 现有的加速方法(快但糊): 为了快,有人尝试让画家“少走几步”(比如只走 4 步)。但这就像让画家只画个大概就交卷,结果往往是一团糟,或者细节全无。
  • 另一种尝试(快但乱): 还有人尝试让画家先画个小草稿(低分辨率),再放大成大图(高分辨率)。但这有个大问题:小画和大画的气质不一样!
    • 比喻: 想象你在一张小便利贴上画了一个完美的“笑脸”,然后把它强行放大到巨幅海报上。你会发现,便利贴上的线条在海报上会变得模糊、变形,甚至原本的笑脸看起来像个哭脸。这就是论文里说的**“跨分辨率分布差距”**——小图和大图的数据分布不匹配,直接放大就会“水土不服”。

2. RMD 的解决方案:聪明的“分阶段施工”

RMD 提出了一套**“先搭骨架,再填细节”**的聪明策略,专门解决上述问题。它把画画的過程分成了两个阶段,并且让这两个阶段“无缝衔接”。

第一步:用“低分辨率”快速搭骨架(语义阶段)

  • 做法: 画家先在一个小画板(比如 512x512)上快速画出画面的整体轮廓和构图(比如:哪里是天空,哪里是人,人在做什么)。
  • 为什么快? 因为画板小,计算量小,速度飞快。
  • 关键创新: 以前直接放大小画板会失真。RMD 发明了一种**“魔法翻译器”**(分布匹配)。它不是简单地把小画放大,而是告诉 AI:“虽然你现在是在小画板上画,但你要想象自己是在大画板上画,保持那种‘大画板’的质感和逻辑。”这样,小画板上的草稿就能完美对应到大画板的逻辑上,不会出现“笑脸变哭脸”的尴尬。

第二步:用“高分辨率”精细填细节(细节阶段)

  • 做法: 当整体轮廓确定后,画家切换到大画板(1024x1024),在刚才那个完美的骨架基础上,开始刻画发丝、眼神、光影等精细细节。
  • 关键创新(噪声重注入): 在从小画板切换到大画板时,RMD 加入了一个**“稳定器”**。它会把刚才预测好的“噪声”(也就是画画的随机性)重新注入到大画板中。
    • 比喻: 就像在把小模型放大时,不仅放大了线条,还特意保留了一点“手绘的随机感”,防止画面变得死板或出现奇怪的伪影。这让放大过程非常顺滑,既保留了大图的清晰度,又没丢掉小图的快速优势。

3. 核心比喻:装修房子

为了更形象,我们可以把生成图像比作装修房子

  • 传统 AI: 从打地基开始,每一块砖、每一根电线都要在 100 平米的房子里精确测量,一步都不能错,所以特别慢。
  • 普通加速 AI: 为了快,直接跳过打地基,试图在 100 平米的房子里直接刷墙,结果墙歪了,房子塌了。
  • RMD 方法:
    1. 先在小模型(沙盘)上规划: 在一张 1 平米的沙盘上,快速规划出房子的格局(哪里是卧室,哪里是客厅)。因为沙盘小,几分钟就规划好了。
    2. 跨尺度对齐(RMD 的核心): 它不是简单地把沙盘照片放大,而是通过一种“魔法”,确保沙盘上的“卧室”概念,直接对应到大房子里的“卧室”位置,中间没有偏差。
    3. 再在大房子上施工: 拿着这个完美的规划,直接在 100 平米的大房子上开始刷墙、铺地板。因为格局已经定好了,所以只需要专注于细节,速度极快,而且房子不会歪。

4. 成果如何?

论文通过实验证明,这套方法非常厉害:

  • 速度飙升: 在 SDXL(著名的画图模型)上,速度提升了 33.4 倍;在 Wan2.1(视频生成模型)上,提升了 25.6 倍
  • 画质不降: 即使步骤很少,画出来的图依然清晰、细节丰富,甚至比以前慢速生成的图还要好(因为避免了多次迭代带来的误差累积)。
  • 通用性强: 无论是画静态图片,还是生成动态视频,这套“先粗后细、跨尺度对齐”的方法都适用。

总结

RMD 就是给 AI 画家装上了一个“智能分步施工系统”:
它不再死板地一步步从头画到尾,而是先在小屏幕上快速定大局,再通过“魔法对齐”把大局完美迁移到大屏幕,最后在大屏幕上快速补细节。

这就好比你想看一场高清电影,以前需要下载整个巨大的文件(慢),现在 RMD 让你先快速看个流畅的缩略图(定大局),然后瞬间把缩略图里的精彩部分“无损放大”成高清画面,既省时间又保质量。