Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PrediT 的新方法，它的目标是让现在的 AI 画图（生成图像）和生成视频变得更快，同时不牺牲画质。

为了让你轻松理解，我们可以把 AI 生成图片的过程想象成**“画家在画布上一步步修改画作”**。

1. 背景：为什么现在的 AI 画画这么慢？

想象一下，你请了一位超级画家（AI 模型）来画一幅画。

传统做法：画家从一张全是噪点的白纸开始，每画一笔（每一步去噪），都要停下来仔细思考，计算下一笔该怎么画。这个过程要重复几十次甚至上百次，才能从一团乱麻变成清晰的图像。
问题：因为画家太“谨慎”了，每一步都要重新计算，所以画完一张图需要很长时间，消耗大量电力和算力。

2. 现有的“偷懒”方法及其缺点

为了加速，以前的科学家想出了两种“偷懒”办法：

办法 A：直接复制粘贴（特征复用）
- 原理：既然画家刚才画的那一笔和下一笔看起来差不多，那我们就直接把刚才的笔迹“复制”过来用，跳过计算。
- 比喻：就像你写文章时，觉得上一段写得挺好，下一段直接复制粘贴，只改几个字。
- 缺点：如果剧情突然需要大转折（比如从晴天突然变暴雨），直接复制粘贴就会很尴尬，导致画面出现奇怪的扭曲或模糊（论文里叫“潜在漂移”）。为了安全，这种方法不敢跳过太多步，加速效果有限。
办法 B：固定间隔跳过
- 原理：不管画家在画什么，我都强制每 3 步跳过 1 步。
- 缺点：有时候画家正在画复杂的细节（高动态区域），这时候跳过一步就会出错；有时候画家在画平滑的天空（低动态区域），这时候跳过一步完全没问题。固定跳过就像“不管路况好坏，都保持同一个速度”，要么太慢，要么容易翻车。

3. PrediT 的聪明做法：像“老司机”一样预测

PrediT 的核心思想是：不要盲目复制，也不要死板跳过，而是要学会“预测”！

作者发现，AI 画画的轨迹其实是非常平滑的（就像开车在高速公路上，大部分时间方向是稳定的）。基于这个发现，他们设计了一套**“预测 + 修正”**的机制：

核心比喻：老司机开车（线性多步预测）

想象 PrediT 是一位经验丰富的老司机，他手里拿着过去的行车记录（历史特征）：

阿达姆斯 - 巴什福斯预测器 (AB Predictor) —— “看路预判”
- 原理：老司机看着过去几秒的行车轨迹（比如车是直行还是微弯），利用数学公式（线性多步法）直接预测下一秒车会在哪里。
- 好处：他不需要每次都重新计算引擎怎么转，直接根据惯性“猜”出位置。这比直接复制粘贴（零阶近似）要准得多，误差更小。
- 日常类比：就像你扔出一个球，你不需要盯着球每一毫秒，根据它刚才的轨迹，你就能大概猜出它下一秒在哪。
阿达姆斯 - 莫尔顿修正器 (ABM Corrector) —— “紧急刹车修正”
- 原理：如果路况突然变得很复杂（比如遇到急转弯或障碍物，即“高动态区域”），老司机的预测可能会不准。这时候，他会立刻踩刹车，重新看一眼真实的路况，修正刚才的预测。
- 好处：确保在关键、复杂的步骤上不出错，防止错误越积越多。
动态步长调节 (Dynamic Step Modulation) —— “看路况变速”
- 原理：这是 PrediT 最聪明的地方。它有一个“路况监测仪”。
  - 如果监测到路面很平（特征变化慢），它就大胆地跳过很多步（比如一次跳过 5 步），疯狂加速。
  - 如果监测到路面崎岖（特征变化快），它就少跳过几步，甚至一步都不跳过，老老实实计算。
- 日常类比：就像开车，在笔直的高速公路上你可以定速巡航（加速），但在进城的拥堵路段或急转弯处，你必须减速慢行（保证质量）。

4. 效果如何？

通过这种“该快则快，该慢则慢”的策略，PrediT 取得了惊人的效果：

速度提升：在 FLUX（一个很火的画图模型）上，速度提升了 4.28 倍；在 HunyuanVideo（视频生成模型）上，提升了 3.28 倍。
画质无损：虽然跳过了很多步骤，但因为预测很准，且关键地方有修正，生成的图片依然清晰、细节丰富，和原原本本慢慢画出来的几乎没区别。
省资源：不需要重新训练模型，也不需要巨大的额外内存，直接就能用在现有的 AI 上。

总结

PrediT 就像给 AI 画家装上了一个“智能导航系统”：
它不再让画家每一步都停下来重新思考，而是根据过去的经验预测下一步，在平坦的路上大步流星，在复杂的地方小心修正。

最终结果是：画得更快了，但画得一样好。 这让未来的 AI 生成视频和图像变得更加实时、高效，甚至可以在普通的电脑上流畅运行。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
扩散变换器（Diffusion Transformers, DiT）已成为高质量图像和视频生成的主流骨干网络。然而，DiT 的推理过程涉及迭代去噪，且由于 Transformer 的二次方注意力机制，计算成本极高，导致推理延迟大，难以满足实时生成的需求。

现有方法的局限性：
为了加速推理，现有的无训练（Training-free）方法主要采用**特征缓存与复用（Feature Caching and Reuse）**策略。

直接复用（Naive Reuse）： 如 DeepCache, FORA 等方法，假设相邻时间步的特征是稳定的，直接复用之前的输出。
- 缺陷： 这种“零阶近似”假设在去噪轨迹的高动态区域（如初始和结束阶段）失效，导致**潜在漂移（Latent Drift）**和视觉伪影。为了保持质量，这些方法不得不限制加速比。
固定间隔预测： 如 TaylorSeer, AB-Cache 等方法，利用历史信息进行外推预测。
- 缺陷： 它们通常采用固定的跳过间隔。由于扩散过程中的特征动态变化不均匀（初期和末期变化快，中间平滑），固定间隔会导致在剧烈变化区误差累积，或在平滑区加速不足。

核心挑战：

如何在不引入显著误差的情况下，比简单的特征复用更准确、稳定地预测未来模型输出？
如何根据扩散轨迹的动态变化，自适应地调整跳过步数（Prediction Horizon），以平衡速度与质量？

2. 方法论 (Methodology)

作者提出了 PrediT (Predictive DiT)，一个无需训练的加速框架。其核心思想是将特征预测建模为**线性多步（Linear Multistep）**问题，利用经典数值微分方程求解技术。

2.1 核心洞察

作者观察到，DiT 模型在扩散轨迹的大部分路径上，其输出特征是**局部平滑（Locally Smooth）**的。这意味着可以通过历史信息进行高阶多项式预测，而不是简单的零阶复用。

2.2 预测 - 校正架构 (Predictor-Corrector Scheme)

PrediT 结合了两种经典的数值方法：

Adams-Bashforth (AB) 预测器：
- 一种显式线性多步法。
- 直接利用历史函数值（ $f_n, f_{n-1}, \dots$ ）进行外推，无需显式计算导数（避免了有限差分法的数值不稳定性）。
- 在特征变化平滑的区域使用，以最大化加速比。
Adams-Moulton (AM) 校正器：
- 一种隐式方法，引入了未来时刻的值（ $f_{n+1}$ ）进行校正。
- 在高动态区域（特征变化剧烈时）激活，用于修正预测误差，防止误差累积。
- 虽然需要额外的模型调用，但能显著提高精度。

2.3 动态步长调制 (Dynamic Step Modulation, DSM)

这是 PrediT 的关键创新，用于自适应控制跳过步数：

动态指标 ( $\delta_n$ )： 计算当前特征相对于前一步的相对变化率：
$\delta_n = \frac{\|f_n - f_{n-1}\|_1}{\|f_n\|_1 + \epsilon}$
自适应决策逻辑：
- 若 $\delta_n \ge \tau$ （高动态）：使用 ABM（预测 + 校正），不跳过或仅微调，确保精度。
- 若 $\tau \cdot r \le \delta_n < \tau$ （中等动态）：使用 ABM 进行预测，并允许有限的跳过。
- 若 $\delta_n < \tau \cdot r$ （低动态/平滑）：仅使用 AB 预测，并允许大幅跳过（Skip multiple steps）。
通过这种机制，模型在平滑区域大幅减少计算，在剧烈变化区域保持精确。

2.4 误差控制

框架通过高阶多项式减少离散化误差，通过自适应跳过限制预测误差，并通过 ABM 校正重置累积漂移，从而在理论上保证了误差的可控性。

3. 主要贡献 (Key Contributions)

理论分析： 揭示了直接特征复用导致潜在漂移的原因，并论证了扩散轨迹的局部平滑性，为高阶多项式预测提供了理论依据。
PrediT 框架： 提出了首个结合 Adams-Bashforth 预测器和 Adams-Moulton 校正器的无训练加速框架，并引入了动态步长调制机制，实现了基于特征变化率的自适应加速。
性能突破： 在多个 DiT 模型（图像和视频）上实现了显著加速，同时保持了与原始模型相当甚至更优的生成质量。

4. 实验结果 (Results)

实验在 FLUX.1 (文生图), HunyuanVideo (文生视频), 和 DiT-XL/2 (类生图) 等多个模型上进行。

文生图 (FLUX.1):
- 在保持 ImageReward 和 CLIP Score 不降反升的情况下，实现了 4.28x 的加速。
- 在更激进的设置下，实现了 5.54x 的加速，仅带来微小的质量下降。
- 相比 DeepCache, FORA, TaylorSeer 等 SOTA 方法，在同等加速比下质量更优，或在同等质量下速度更快。
文生视频 (HunyuanVideo):
- 在 544p×860p (17 帧) 设置下，实现 3.28x 加速，VBench 评分最高。
- 在 480p×640p (45 帧) 的高显存挑战下，其他预测方法（如 TaylorSeer, ProfilingDiT）出现 OOM（显存溢出），而 PrediT 运行稳定，加速比达 3.24x。
- 视觉质量上，有效避免了模糊和细节丢失，保持了时空一致性。
类生图 (DiT-XL/2):
- 在 50 步 DDIM 采样下，实现 2.12x 加速，且 FID 从 2.28 提升至 2.24（质量提升）。
- 在 70 步采样下，TaylorSeer 出现严重的质量崩溃（FID 升至 10.12），而 PrediT 保持稳定（FID 2.24）。

消融实验： 验证了预测 - 校正机制和动态步长调制的必要性。单独使用 AB 或 ABM 均不如组合策略效果好。

5. 意义与影响 (Significance)

高效推理的新范式： 将数值微分方程求解中的“多步法”引入扩散模型加速，超越了传统的“缓存复用”或“固定步长外推”，提供了一种更数学化、更稳健的加速思路。
实际部署价值：
- 无需训练： 即插即用，适用于各种预训练的 DiT 模型。
- 显存友好： 相比其他预测方法，PrediT 几乎不增加显存开销，解决了长视频生成中的 OOM 问题。
- 环境效益： 显著降低推理延迟和能耗，有助于减少大规模生成模型的碳足迹。
** democratization (普及化)：** 使得在消费级 GPU 上进行高分辨率视频生成成为可能，降低了高级生成工具的使用门槛。

总结： PrediT 通过“预测以跳过”（Predict to Skip）的策略，巧妙平衡了扩散模型推理中的速度与精度，是目前 DiT 加速领域的一项突破性工作。