Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

本文通过系统分析扩散模型采样设计空间,提出受 Frenet-Serret 公式启发的恒定总旋转调度(TORS)策略,在无需重新训练的情况下显著提升了 Flux.1-Dev 和 Stable Diffusion 3.5 等模型在极少采样步数下的图像生成质量与泛化能力。

Zhenyu Zhou, Defang Chen, Siwei Lyu, Chun Chen, Can Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大问题:如何让 AI 画画(文生图)变得更快,而且画得还一样好?

想象一下,现在的顶级 AI 绘画模型(比如 Flux 或 Stable Diffusion 3.5)就像一位技艺高超但动作缓慢的画家

  • 现状:为了画出一张完美的画,这位画家需要走 50 步甚至更多。每一步他都要仔细思考、修改细节。虽然画得极好,但太慢了,用户等不起。
  • 目标:我们想让他只走 10 步就能画出同样完美的画。

过去,人们尝试过各种“加速技巧”(比如让画家走捷径、或者复用之前的草稿),但这些技巧通常是各自为战,互不兼容,而且效果参差不齐。

这篇论文做了一件很酷的事:它把这位画家的所有“加速技巧”都摊开在桌面上,像做手术一样仔细分析,发现了一个被大家忽略的核心秘密,并提出了一个新的“加速秘籍”。


1. 核心发现:画家的“步伐节奏”最重要

研究人员把现有的加速方法分成了几类:

  • 更聪明的解方程器(Solver):相当于教画家用更高级的数学公式一步算出结果。
  • 特征缓存(Caching):相当于画家说:“这一步我不用重新画,直接复用上一步的草稿。”
  • 时间调度(Time Schedule):相当于决定画家每一步迈多大

惊人的发现
经过大量实验,他们发现,“时间调度”(即画家每一步迈多大)是决定画得好坏的最关键因素,比用什么解方程器或怎么缓存草稿都要重要得多!

问题出在哪?
目前的默认方法是**“匀速走”**(Uniform Schedule)。就像让画家在画布上每一步都迈同样的距离。

  • 早期(起稿阶段):画家需要快速搭建骨架、确定构图。这时候“匀速走”步子太小,效率低;或者步子太大,容易把骨架画歪。
  • 后期(细节阶段):画家需要精细修饰。这时候“匀速走”又显得太啰嗦。

这就导致画家在起稿阶段(结构形成期)总是“慢半拍”或者“晃晃悠悠”,导致画了 10 步,结构还没定下来,画出来的东西还是乱糟糟的。

2. 解决方案:TORS(恒定总旋转调度)

为了解决这个问题,作者引入了一个听起来很高深,但道理很简单的数学概念:弗莱纳 - 塞雷特公式(Frenet-Serret formulas)

通俗比喻:走山路
想象画家在画一条蜿蜒的山路(这就是生成图像的路径):

  • 直路(平坦处):画家可以大步流星地走,因为方向不会变,不容易出错。
  • 急转弯(高曲率处):画家必须放慢脚步,小心翼翼地转过去,否则就会冲出悬崖(画崩了)。
  • 螺旋上升(高扭转处):画家需要调整身体姿态,步伐也要配合。

以前的做法:不管前面是直路还是急转弯,画家都平均分配步数。结果在急转弯处(图像结构形成的关键期),步子太大,直接画歪了;在直路处,步子又太小,浪费时间。

作者的新方法(TORS)
作者提出了一种**“恒定总旋转”**的策略。

  • 核心思想:不管路是直是弯,我们要保证画家在每一段路程中“转身的总角度”是固定的
  • 具体操作
    • 急转弯(图像结构刚形成,变化剧烈)的地方,自动缩小步长,多走几步,确保转弯精准。
    • 直路(图像细节微调,变化平缓)的地方,自动放大步长,大步跨越,节省时间。

这就好比开车导航:在市区拥堵和急转弯路段,导航会提示你“慢行、多转弯”;在高速公路上,导航会提示你“保持高速、少变道”。

3. 效果如何?

  • 速度快:用新方法,画家只需要走 10 步,就能画出和以前走 50 步 一样完美的画。
  • 质量高:画出来的图结构稳定,不会出现“画到一半变形”的情况。
  • 通用性强:这个方法不需要重新训练画家(不需要花钱、花时间训练模型),直接套用在任何最新的 AI 绘画模型(如 Flux, Stable Diffusion 3.5)上都有效,甚至对微调过的模型(LoRA)也管用。

总结

这篇论文就像给 AI 画家配了一位顶级的“节奏教练”

以前,画家是**“匀速跑”,在需要精细操作的地方跑太快,在不需要精细操作的地方又太慢。
现在,通过
TORS 策略**,画家学会了**“看路下菜碟”**:在结构形成的关键路口(急转弯)慢下来精雕细琢,在细节修饰的直路上大步流星。

最终结果是:用 1/5 的时间,画出了 100% 质量的画。 这对于让 AI 绘画真正普及到日常应用(比如实时生成、视频生成)具有巨大的推动作用。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →