DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DDiT（动态补丁调度）的新技术，旨在让现在的 AI 画图（文生图）和 AI 生成视频变得更快、更省资源，同时不牺牲画质的清晰度。

为了让你轻松理解，我们可以把 AI 生成图片的过程想象成一位画家在画布上作画。

1. 现在的痛点：画家太“死板”了

目前的 AI 模型（比如 FLUX 或 Wan 2.1）在画画时，就像一位极其死板的画家。

固定网格：无论画什么，这位画家都把画布切成了无数个同样大小的小方格（Patch）。
全程精细：
- 刚开始画草图时（比如勾勒天空的大轮廓），他依然拿着放大镜，用极小的方格去描绘每一根羽毛、每一片树叶。这就像在画“蓝天”时，非要像画“精密电路板”一样去处理每一个像素，浪费了大量时间。
- 到了最后画细节时（比如给苹果加高光），他又可能还在用那种大网格，导致细节不够清晰。
结果：画一张图要 30 分钟，画一个视频要更久，而且电脑显卡（GPU）累得冒烟。

2. DDiT 的核心创意：聪明的“动态变焦”

DDiT 给这位画家装上了一套智能的“变焦镜头”系统。它的核心思想是：根据画的内容，灵活调整方格的大小。

画大轮廓时（早期步骤）：
- 场景：比如画一片蓝天，或者远处的山。
- 策略：画家把方格变大（比如 4x4 的大格子）。
- 比喻：就像用广角镜头或者大笔触快速铺色。因为天空很均匀，不需要看清每一根草，用大格子处理既快又准，省下了 80% 的力气。
画细节时（后期步骤）：
- 场景：比如画一只斑马的条纹，或者苹果上的虫眼。
- 策略：画家立刻把方格变小（比如 1x1 的小格子）。
- 比喻：就像切换到微距镜头，用精细的笔触去刻画纹理。这时候必须精细，否则斑马就变成一坨灰色了。

3. 它是如何知道何时该“变焦”的？

这是这篇论文最聪明的地方。画家不需要人告诉他什么时候该变，他有一个**“智能传感器”**（论文里叫“潜变量演化速率”）。

传感器原理：
- 画家会观察上一笔和这一笔之间的变化速度。
- 如果变化很慢（比如天空颜色很均匀，上一笔和这一笔差不多）：说明现在是在画“大轮廓”，传感器说：“别费劲了，用大格子吧！”
- 如果变化很快（比如从背景突然变到了复杂的斑马纹）：说明细节正在涌现，传感器说：“快！切到微距模式，用最小的格子！”

4. 实际效果：快如闪电，画质如初

论文做了很多实验，结果非常惊人：

速度提升：
- 对于文生图（FLUX 模型），速度提升了 3.5 倍！以前画一张图要 12 秒，现在只要 3 秒多。
- 对于文生视频（Wan 2.1 模型），速度提升了 3.2 倍！
画质无损：
- 虽然用了“大格子”偷懒，但因为只在不需要细节的时候偷懒，最终画出来的图，普通人根本看不出区别。
- 甚至对于复杂的提示词（比如“一群斑马站在栅栏后”），DDiT 能自动识别出哪里需要精细，哪里可以模糊，比那些“一刀切”的加速方法更聪明。

5. 总结：给 AI 装上了“节能模式”

你可以把 DDiT 想象成汽车的智能启停系统或混合动力模式：

在高速公路上（画大背景），它自动切换到“经济模式”（大格子），省油（省算力）。
在爬坡或超车时（画细节），它自动切换到“运动模式”（小格子），保证动力（画质）。

一句话总结：
DDiT 让 AI 画画不再“死磕”每一个像素，而是该粗犷时粗犷，该精细时精细，从而在保持画得好看的同时，把生成速度提升了 3 倍以上，让 AI 生成视频和图像变得像发微信一样快。

Each language version is independently generated for its own context, not a direct translation.

论文标题

DDiT：用于高效扩散 Transformer 的动态 Patch 调度

1. 研究背景与问题 (Problem)

背景：扩散 Transformer (DiTs) 在图像和视频生成领域取得了最先进的性能（如 FLUX-1.Dev, Wan 2.1），但其计算成本极高。例如，使用 RTX 4090 生成一段 5 秒的 720p 视频需要 30 分钟。
现有方法的局限性：
1. 静态策略 (Static Strategy)：现有的加速方法（如特征缓存、剪枝、量化、蒸馏）通常采用硬性的、静态的减少策略（例如固定移除一定比例的权重或 Token）。这可能导致关键信息的永久丢失，从而降低生成质量。
2. 缺乏适应性 (Lack of Adaptivity)：大多数方法采用“一刀切”的策略，忽略了输入提示词（Prompt）的复杂性差异。简单的场景（如“蓝天”）不需要与复杂场景（如“一群斑马”）相同的计算资源。
3. 固定粒度 (Fixed Granularity)：传统的 DiT 在整个去噪过程中使用固定大小的 Patch（Token），无论内容复杂度如何，导致在不需要高精度的步骤上浪费了计算资源。

2. 核心洞察 (Key Insight)

去噪过程的动态性：扩散模型生成的视觉内容在不同去噪时间步（Timestep）具有不同的细节水平。
- 早期时间步：主要构建粗略的场景结构，可以使用较大的 Patch（较粗的粒度）来建模，从而节省计算。
- 后期时间步：需要细化局部细节，必须使用较小的 Patch（较细的粒度）以保持高保真度。
核心假设：潜变量（Latent）流形演变的速率与生成细节的丰富程度相关。如果潜变量在短时间内变化缓慢，说明正在生成粗略结构；如果变化剧烈，说明正在生成精细细节。

3. 方法论 (Methodology)

DDiT 提出了一种测试时（Test-time）的动态 Patch 调度策略，无需重新训练整个模型，仅需微小的架构调整。

3.1 动态 Tokenization 架构 (Dynamic Tokenization)

为了支持不同大小的 Patch，作者对标准的 DiT 架构进行了以下修改（如图 3 所示）：

多尺度 Patch 嵌入层：在原有的 Patch Embedding 层基础上，增加支持新 Patch 大小（ $p_{new}$ ，如 $2p, 4p$ ）的嵌入层。
LoRA 适配器：在每个 Transformer 块中引入低秩适应（LoRA）分支，使模型能够适应不同大小的 Patch 输入，同时保留预训练基座模型的知识。
残差连接：在 Patch 嵌入层之前和去嵌入（De-embedding）块之后添加残差连接，平衡基座流形与新学习流形之间的关系。
位置编码处理：通过双线性插值重用原始位置编码，并引入可学习的 Patch 大小标识符（Patch-size embedding），让模型知道当前使用的 Patch 大小。
蒸馏训练：使用蒸馏损失（Distillation Loss）微调 LoRA 分支，使其预测的噪声与冻结的基座模型一致。

3.2 动态 Patch 调度器 (Dynamic Patch Scheduler)

这是 DDiT 的核心，用于在推理过程中自动决定每个时间步的最佳 Patch 大小。

潜变量演变估计：利用有限差分法（Finite-difference approximations）量化潜变量在去噪过程中的演变。
- 使用三阶有限差分（ $\Delta^{(3)}z$ ）来衡量潜变量演变的“加速度”。
- 假设：加速度低 $\rightarrow$ 结构平滑 $\rightarrow$ 使用大 Patch；加速度高 $\rightarrow$ 细节丰富 $\rightarrow$ 使用小 Patch。
空间方差估计：
- 将当前潜变量 $z_{t-1}$ 划分为不同大小的 Patch ( $p_i \times p_i$ )。
- 计算每个 Patch 内加速度的标准差 ( $\sigma$ )。
- 为了捕捉空间异质性（避免平均化掩盖局部细节），计算所有 Patch 方差的 $\rho$ -百分位数（而非均值）。
调度决策：
- 设定一个方差阈值 $\tau$ 。
- 选择满足 $\sigma^{(\rho)} < \tau$ 的最大 Patch 大小。
- 如果没有 Patch 满足条件，则默认使用最小的 Patch（即原始大小）。
- 用户可通过调整 $\tau$ 来控制速度与质量的权衡。

4. 主要贡献 (Key Contributions)

简单高效的策略：提出了一种动态改变扩散模型潜在空间粒度的策略，仅需极少的架构修改（LoRA + 多尺度 Embedding）。
测试时动态调度器：设计了一个无需训练的调度器，能根据生成复杂度和输入提示词，自动在每个时间步确定最优 Patch 大小。
显著的加速效果：在 FLUX-1.Dev 和 Wan 2.1 上分别实现了高达 3.52 倍 和 3.2 倍 的加速，同时保持了感知质量、照片真实感和提示词遵循度。
理论分析：深入分析了潜变量流形演变速率与生成复杂度之间的关系，为理解扩散模型内部动力学提供了新视角。

5. 实验结果 (Results)

文本到图像 (Text-to-Image)：
- 基座模型：FLUX-1.Dev。
- 结果：相比基线，DDiT 实现了 2.18 倍 加速，FID 仅下降 0.35，CLIP 和 ImageReward 分数保持极高水准。
- 结合 TeaCache：结合缓存技术后，加速比达到 3.52 倍，且质量优于其他 SOTA 加速方法（如 TeaCache, TaylorSeer）。
- 用户研究：61% 的评估者认为 DDiT 生成的图像与基线质量相当，甚至在 17% 的情况下更偏好 DDiT。
文本到视频 (Text-to-Video)：
- 基座模型：Wan 2.1。
- 结果：实现了 3.2 倍 加速，VBench 分数仅轻微下降（81.24 $\rightarrow$ 80.53），保持了运动一致性和细节。
消融实验：
- 差分阶数：三阶差分（n=3）效果最好，能更准确地捕捉时间动态。
- 阈值 $\tau$ ：较高的 $\tau$ 带来更快的速度但质量略有下降，证明了策略的鲁棒性。
- 适应性：对于复杂提示词（如斑马），调度器自动分配更多小 Patch 步骤；对于简单提示词（如苹果），自动使用大 Patch。

6. 意义与影响 (Significance)

打破“一刀切”限制：DDiT 证明了并非所有去噪步骤都需要相同的计算粒度，实现了计算资源的内容感知（Content-aware）动态分配。
即插即用 (Plug-and-Play)：该方法对现有预训练 DiT 模型侵入性极小，易于部署，无需从头训练。
实际价值：显著降低了生成高质量图像和视频的推理成本和时间，使得在消费级硬件上运行大型生成模型变得更加可行，同时也为长视频生成提供了扩展可能性（用相同的算力生成更长的视频）。

总结：DDiT 通过动态调整 Patch 大小，巧妙地平衡了扩散 Transformer 的推理效率与生成质量，为高效生成式 AI 提供了一个强有力的新范式。