DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

本文提出了 DDiT,一种针对扩散 Transformer 的动态补丁调度策略,它根据内容复杂度和去噪时间步动态调整补丁大小,在保持生成质量的同时显著降低了计算成本并实现了高达 3.52 倍的加速。

Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DDiT(动态补丁调度)的新技术,旨在让现在的 AI 画图(文生图)和 AI 生成视频变得更快、更省资源,同时不牺牲画质的清晰度

为了让你轻松理解,我们可以把 AI 生成图片的过程想象成一位画家在画布上作画

1. 现在的痛点:画家太“死板”了

目前的 AI 模型(比如 FLUX 或 Wan 2.1)在画画时,就像一位极其死板的画家

  • 固定网格:无论画什么,这位画家都把画布切成了无数个同样大小的小方格(Patch)。
  • 全程精细
    • 刚开始画草图时(比如勾勒天空的大轮廓),他依然拿着放大镜,用极小的方格去描绘每一根羽毛、每一片树叶。这就像在画“蓝天”时,非要像画“精密电路板”一样去处理每一个像素,浪费了大量时间
    • 到了最后画细节时(比如给苹果加高光),他又可能还在用那种大网格,导致细节不够清晰。
  • 结果:画一张图要 30 分钟,画一个视频要更久,而且电脑显卡(GPU)累得冒烟。

2. DDiT 的核心创意:聪明的“动态变焦”

DDiT 给这位画家装上了一套智能的“变焦镜头”系统。它的核心思想是:根据画的内容,灵活调整方格的大小。

  • 画大轮廓时(早期步骤)
    • 场景:比如画一片蓝天,或者远处的山。
    • 策略:画家把方格变大(比如 4x4 的大格子)。
    • 比喻:就像用广角镜头或者大笔触快速铺色。因为天空很均匀,不需要看清每一根草,用大格子处理既快又准,省下了 80% 的力气
  • 画细节时(后期步骤)
    • 场景:比如画一只斑马的条纹,或者苹果上的虫眼。
    • 策略:画家立刻把方格变小(比如 1x1 的小格子)。
    • 比喻:就像切换到微距镜头,用精细的笔触去刻画纹理。这时候必须精细,否则斑马就变成一坨灰色了。

3. 它是如何知道何时该“变焦”的?

这是这篇论文最聪明的地方。画家不需要人告诉他什么时候该变,他有一个**“智能传感器”**(论文里叫“潜变量演化速率”)。

  • 传感器原理
    • 画家会观察上一笔和这一笔之间的变化速度
    • 如果变化很慢(比如天空颜色很均匀,上一笔和这一笔差不多):说明现在是在画“大轮廓”,传感器说:“别费劲了,用大格子吧!”
    • 如果变化很快(比如从背景突然变到了复杂的斑马纹):说明细节正在涌现,传感器说:“快!切到微距模式,用最小的格子!”

4. 实际效果:快如闪电,画质如初

论文做了很多实验,结果非常惊人:

  • 速度提升
    • 对于文生图(FLUX 模型),速度提升了 3.5 倍!以前画一张图要 12 秒,现在只要 3 秒多。
    • 对于文生视频(Wan 2.1 模型),速度提升了 3.2 倍
  • 画质无损
    • 虽然用了“大格子”偷懒,但因为只在不需要细节的时候偷懒,最终画出来的图,普通人根本看不出区别
    • 甚至对于复杂的提示词(比如“一群斑马站在栅栏后”),DDiT 能自动识别出哪里需要精细,哪里可以模糊,比那些“一刀切”的加速方法更聪明。

5. 总结:给 AI 装上了“节能模式”

你可以把 DDiT 想象成汽车的智能启停系统混合动力模式

  • 在高速公路上(画大背景),它自动切换到“经济模式”(大格子),省油(省算力)。
  • 在爬坡或超车时(画细节),它自动切换到“运动模式”(小格子),保证动力(画质)。

一句话总结
DDiT 让 AI 画画不再“死磕”每一个像素,而是该粗犷时粗犷,该精细时精细,从而在保持画得好看的同时,把生成速度提升了 3 倍以上,让 AI 生成视频和图像变得像发微信一样快。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →