Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

本文提出了一种名为 Just-in-Time (JiT) 的无需训练的框架,通过利用生成过程中的空间冗余性,基于稀疏锚点令牌动态加速扩散 Transformer 的推理,在 FLUX.1-dev 模型上实现了高达 7 倍的加速且几乎无损生成质量。

Wenhao Sun, Ji Li, Zhaoqiang Liu

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 JiT (Just-in-Time,即时) 的新方法,专门用来让现在的顶级 AI 画图模型(比如 FLUX.1)画得更快,而且画质几乎不下降

为了让你轻松理解,我们可以把 AI 画图的过程想象成一位画家在一张巨大的画布上作画

1. 现在的痛点:画家太“勤奋”了

目前的 AI 画图模型(Diffusion Transformers)非常强大,但它们有一个大毛病:太费时间,太费算力

  • 传统做法:想象这位画家在画一幅 1000x1000 像素的画。不管画的是天空、大海还是远处的山,画家在每一笔、每一个像素点上花的力气都是一样的。
  • 问题所在:其实,画画是有顺序的。画家通常是先画大轮廓(比如先画个大概的蓝天和地平线),再慢慢加细节(比如树叶的纹理、云朵的层次)。
  • 浪费:在刚开始画大轮廓的时候,画家却还在拼命计算每一片树叶的纹理,这就像是在盖房子时,地基还没打好,工人就开始精细地雕刻每一块砖的花纹。这完全是资源浪费

2. JiT 的核心思想:按需分配,有的放矢

JiT 方法的核心就是**“好钢用在刀刃上”**。它不再让画家在所有地方平均用力,而是根据画作的进展,动态地决定哪里该用力,哪里可以偷懒

这就好比一个聪明的施工队

  • 初期(打地基/画大轮廓):只关注画布上最重要的几个关键点(比如中心点、四个角)。这时候,画布上大部分区域是“空白”的,施工队只派几个工人去处理关键点,其他区域暂时不管。
  • 中期(加结构):随着大轮廓出来,施工队发现哪里需要加细节了,就即时(Just-in-Time) 派更多的工人去填补那些区域。
  • 后期(精修):最后,当大结构都好了,再把所有工人召集起来,对全画布进行精细打磨。

3. JiT 是怎么做到的?(两大黑科技)

为了让这种“偷懒”不导致画崩了,JiT 用了两个巧妙的 tricks:

A. 空间近似生成 ODE (SAG-ODE) —— “聪明的猜题高手”

  • 原理:当画家只画了少数几个关键点(锚点)时,JiT 会利用数学公式,“猜” 出其他没画区域的线条大概是什么样。
  • 比喻:就像你只看到了一个人的左半边脸,JiT 就能根据对称性和规律,完美地推测出右半边脸长什么样,而不需要真的去画右半边。
  • 效果:这样,AI 只需要计算很少一部分像素,就能推导出整张图的走向,速度瞬间提升。

B. 确定性微流 (DMF) —— “无缝拼接的魔术”

  • 原理:当从“只画关键点”切换到“开始画更多细节”时,新加入的区域如果直接硬插进去,画面可能会断裂或出现噪点(就像拼图拼不上)。
  • 比喻:JiT 设计了一个**“平滑过渡器”。当新工人(新像素)加入时,它会像魔术师一样,瞬间把新工人的动作调整得和老工人完美同步,确保画面严丝合缝**,没有任何生硬的接缝或奇怪的噪点。

4. 成果如何?

  • 速度快得惊人:在 FLUX.1 这个顶级模型上,JiT 实现了 4 倍到 7 倍 的加速!
    • 以前画一张图要 25 秒,现在只要 3-6 秒。
  • 画质几乎无损:这是最厉害的地方。通常加速都会让图变糊或变怪,但 JiT 画出来的图,连文字、复杂的纹理都清晰可见,肉眼几乎看不出和原版有什么区别。
  • 无需重新训练:这个方法不需要重新训练庞大的 AI 模型,就像给现有的汽车换了一个更聪明的导航系统,直接就能跑得快。

总结

JiT 就像给 AI 画家装上了一个“智能指挥家”
指挥家告诉画家:“现在先别管那些树叶,先把天空画好;等天空画好了,再赶紧去画树叶。”
通过这种**“按需计算”**的策略,JiT 让 AI 画图变得既快又稳,让普通用户也能在几秒钟内享受到以前需要昂贵显卡才能生成的顶级画质。