Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

本文提出了首个适用于大规模文本到图像及视频任务的分数正则化连续时间一致性模型(rCM),通过开发并行兼容的 JVP 内核并引入分数蒸馏作为正则化项,在无需 GAN 微调的情况下实现了仅用 1 至 4 步即可生成高质量样本的高效蒸馏,显著提升了生成多样性并缓解了模式崩溃问题。

Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Balaji, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 rCM(正则化连续时间一致性模型)的新技术,旨在解决当前人工智能生成图像和视频时“”和“画质差”的两大痛点。

为了让你轻松理解,我们可以把生成图像的过程想象成**“从一团迷雾中雕刻出一座精美的雕像”**。

1. 背景:现在的困境

  • 传统扩散模型(慢):就像一位极其谨慎的雕刻家,他必须从一团迷雾开始,每一步都小心翼翼地凿掉一点点石头,经过几十步甚至上百步,才能慢慢显现出雕像的轮廓。虽然最终作品很精美,但太慢了
  • 现有的加速方法(快但糊):为了加快速度,科学家们发明了一些“捷径”(比如 sCM 模型)。这就像让雕刻家直接跳过中间步骤,试图一步到位。
    • 问题 A(sCM 的缺陷):虽然速度快了,但雕刻家因为跳步太多,经常看不清细节。雕像的脸可能模糊,或者文字刻得乱七八糟(就像论文里说的“模式覆盖”问题,为了覆盖所有可能性,结果什么都做不精)。
    • 问题 B(其他方法的缺陷):另一种加速方法(如 DMD2)虽然细节好,但容易**“撞车”**。就像雕刻家为了追求完美,只敢刻一种姿势的雕像,导致生成的所有雕像都长得一模一样,缺乏多样性(“模式坍塌”)。

2. 核心突破:rCM 是怎么做的?

rCM 就像是一位**“拥有双重智慧的超级雕刻家”**。它把两种看似矛盾的方法完美融合在了一起:

第一部分:保持“快”的骨架(sCM)

它保留了“一步到位”的加速能力。这就像给雕刻家装上了**“透视眼”,让他能直接看到迷雾中的大致轮廓,从而快速生成图像。这保证了速度多样性**(能生成各种姿势的雕像)。

第二部分:注入“精”的灵魂(Score Regularization)

为了解决“看不清细节”的问题,rCM 引入了一个**“细节修正器”**(Score Distillation)。

  • 比喻:想象雕刻家在快速雕刻时,旁边有一位**“严苛的质检员”**。这位质检员手里拿着原稿(老师模型),时刻盯着雕刻家:“嘿,这个手指的关节不对!”“那个文字刻歪了!”
  • 作用:这个质检员会不断修正雕刻家的错误,强迫他关注细节质量。这解决了 sCM 模糊不清的问题。

第三部分:解决“大模型”的算力难题

以前,这种“透视眼”(数学上叫雅可比 - 向量积,JVP)的计算非常消耗内存,导致在超大的模型(比如 100 亿参数)上根本跑不动。

  • 创新:作者开发了一种新的**“流水线工具”**(FlashAttention-2 JVP 内核)。
  • 比喻:以前计算这个需要把整个工厂的图纸都摊在桌子上,桌子不够大就干不了。现在,他们发明了一种**“折叠图纸”**的技术,让超大的工厂也能在有限的桌子上高效运转。这使得 rCM 能应用在目前最顶尖的 140 亿参数模型和长视频生成上。

3. 成果:它有多强?

  • 速度极快:以前生成一张图需要几十秒,现在1 到 4 步就能搞定,速度提升了 15 到 50 倍
  • 画质惊人:生成的图像不仅清晰,连微小的文字(如手表上的时间、路牌)都能准确刻出来,没有模糊。
  • 风格多样:它既不像 sCM 那样模糊,也不像其他方法那样只会生成千篇一律的图。它能生成既清晰又多样的视频和图像。
  • 视频生成:在生成 5 秒长的视频时,物体运动流畅,不会出现“鬼畜”或闪烁的现象。

4. 总结

简单来说,rCM 就是给 AI 生成模型装上了**“快腿”(加速)和“慧眼”**(保真),同时解决了以前“跑得快就看不清”和“看太细就跑不动”的矛盾。

它不需要复杂的训练技巧,不需要像训练游戏 AI 那样反复试错,就能让现在的 AI 在几秒钟内,生成以前需要几分钟才能完成的、高质量且充满创意的图像和视频。这对于未来的实时视频生成、互动世界模拟(比如游戏里的即时画面生成)具有巨大的应用潜力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →