Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

本文提出了无需训练的 PrediT 框架,通过线性多步特征预测与动态步长调制机制,在显著降低扩散 Transformer 推理延迟的同时有效避免了特征复用导致的生成质量下降。

Hanshuai Cui, Zhiqing Tang, Qianli Ma, Zhi Yao, Weijia Jia

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PrediT 的新方法,它的目标是让现在的 AI 画图(生成图像)和生成视频变得更快,同时不牺牲画质

为了让你轻松理解,我们可以把 AI 生成图片的过程想象成**“画家在画布上一步步修改画作”**。

1. 背景:为什么现在的 AI 画画这么慢?

想象一下,你请了一位超级画家(AI 模型)来画一幅画。

  • 传统做法:画家从一张全是噪点的白纸开始,每画一笔(每一步去噪),都要停下来仔细思考,计算下一笔该怎么画。这个过程要重复几十次甚至上百次,才能从一团乱麻变成清晰的图像。
  • 问题:因为画家太“谨慎”了,每一步都要重新计算,所以画完一张图需要很长时间,消耗大量电力和算力。

2. 现有的“偷懒”方法及其缺点

为了加速,以前的科学家想出了两种“偷懒”办法:

  • 办法 A:直接复制粘贴(特征复用)

    • 原理:既然画家刚才画的那一笔和下一笔看起来差不多,那我们就直接把刚才的笔迹“复制”过来用,跳过计算。
    • 比喻:就像你写文章时,觉得上一段写得挺好,下一段直接复制粘贴,只改几个字。
    • 缺点:如果剧情突然需要大转折(比如从晴天突然变暴雨),直接复制粘贴就会很尴尬,导致画面出现奇怪的扭曲或模糊(论文里叫“潜在漂移”)。为了安全,这种方法不敢跳过太多步,加速效果有限。
  • 办法 B:固定间隔跳过

    • 原理:不管画家在画什么,我都强制每 3 步跳过 1 步。
    • 缺点:有时候画家正在画复杂的细节(高动态区域),这时候跳过一步就会出错;有时候画家在画平滑的天空(低动态区域),这时候跳过一步完全没问题。固定跳过就像“不管路况好坏,都保持同一个速度”,要么太慢,要么容易翻车。

3. PrediT 的聪明做法:像“老司机”一样预测

PrediT 的核心思想是:不要盲目复制,也不要死板跳过,而是要学会“预测”!

作者发现,AI 画画的轨迹其实是非常平滑的(就像开车在高速公路上,大部分时间方向是稳定的)。基于这个发现,他们设计了一套**“预测 + 修正”**的机制:

核心比喻:老司机开车(线性多步预测)

想象 PrediT 是一位经验丰富的老司机,他手里拿着过去的行车记录(历史特征):

  1. 阿达姆斯 - 巴什福斯预测器 (AB Predictor) —— “看路预判”

    • 原理:老司机看着过去几秒的行车轨迹(比如车是直行还是微弯),利用数学公式(线性多步法)直接预测下一秒车会在哪里。
    • 好处:他不需要每次都重新计算引擎怎么转,直接根据惯性“猜”出位置。这比直接复制粘贴(零阶近似)要准得多,误差更小。
    • 日常类比:就像你扔出一个球,你不需要盯着球每一毫秒,根据它刚才的轨迹,你就能大概猜出它下一秒在哪。
  2. 阿达姆斯 - 莫尔顿修正器 (ABM Corrector) —— “紧急刹车修正”

    • 原理:如果路况突然变得很复杂(比如遇到急转弯或障碍物,即“高动态区域”),老司机的预测可能会不准。这时候,他会立刻踩刹车,重新看一眼真实的路况,修正刚才的预测。
    • 好处:确保在关键、复杂的步骤上不出错,防止错误越积越多。
  3. 动态步长调节 (Dynamic Step Modulation) —— “看路况变速”

    • 原理:这是 PrediT 最聪明的地方。它有一个“路况监测仪”。
      • 如果监测到路面很平(特征变化慢),它就大胆地跳过很多步(比如一次跳过 5 步),疯狂加速。
      • 如果监测到路面崎岖(特征变化快),它就少跳过几步,甚至一步都不跳过,老老实实计算。
    • 日常类比:就像开车,在笔直的高速公路上你可以定速巡航(加速),但在进城的拥堵路段或急转弯处,你必须减速慢行(保证质量)。

4. 效果如何?

通过这种“该快则快,该慢则慢”的策略,PrediT 取得了惊人的效果:

  • 速度提升:在 FLUX(一个很火的画图模型)上,速度提升了 4.28 倍;在 HunyuanVideo(视频生成模型)上,提升了 3.28 倍
  • 画质无损:虽然跳过了很多步骤,但因为预测很准,且关键地方有修正,生成的图片依然清晰、细节丰富,和原原本本慢慢画出来的几乎没区别。
  • 省资源:不需要重新训练模型,也不需要巨大的额外内存,直接就能用在现有的 AI 上。

总结

PrediT 就像给 AI 画家装上了一个“智能导航系统”:
它不再让画家每一步都停下来重新思考,而是根据过去的经验预测下一步,在平坦的路上大步流星,在复杂的地方小心修正

最终结果是:画得更快了,但画得一样好。 这让未来的 AI 生成视频和图像变得更加实时、高效,甚至可以在普通的电脑上流畅运行。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →