Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 JiT (Just-in-Time，即时) 的新方法，专门用来让现在的顶级 AI 画图模型（比如 FLUX.1）画得更快，而且画质几乎不下降。

为了让你轻松理解，我们可以把 AI 画图的过程想象成一位画家在一张巨大的画布上作画。

1. 现在的痛点：画家太“勤奋”了

目前的 AI 画图模型（Diffusion Transformers）非常强大，但它们有一个大毛病：太费时间，太费算力。

传统做法：想象这位画家在画一幅 1000x1000 像素的画。不管画的是天空、大海还是远处的山，画家在每一笔、每一个像素点上花的力气都是一样的。
问题所在：其实，画画是有顺序的。画家通常是先画大轮廓（比如先画个大概的蓝天和地平线），再慢慢加细节（比如树叶的纹理、云朵的层次）。
浪费：在刚开始画大轮廓的时候，画家却还在拼命计算每一片树叶的纹理，这就像是在盖房子时，地基还没打好，工人就开始精细地雕刻每一块砖的花纹。这完全是资源浪费！

2. JiT 的核心思想：按需分配，有的放矢

JiT 方法的核心就是**“好钢用在刀刃上”**。它不再让画家在所有地方平均用力，而是根据画作的进展，动态地决定哪里该用力，哪里可以偷懒。

这就好比一个聪明的施工队：

初期（打地基/画大轮廓）：只关注画布上最重要的几个关键点（比如中心点、四个角）。这时候，画布上大部分区域是“空白”的，施工队只派几个工人去处理关键点，其他区域暂时不管。
中期（加结构）：随着大轮廓出来，施工队发现哪里需要加细节了，就即时（Just-in-Time） 派更多的工人去填补那些区域。
后期（精修）：最后，当大结构都好了，再把所有工人召集起来，对全画布进行精细打磨。

3. JiT 是怎么做到的？（两大黑科技）

为了让这种“偷懒”不导致画崩了，JiT 用了两个巧妙的 tricks：

A. 空间近似生成 ODE (SAG-ODE) —— “聪明的猜题高手”

原理：当画家只画了少数几个关键点（锚点）时，JiT 会利用数学公式，“猜” 出其他没画区域的线条大概是什么样。
比喻：就像你只看到了一个人的左半边脸，JiT 就能根据对称性和规律，完美地推测出右半边脸长什么样，而不需要真的去画右半边。
效果：这样，AI 只需要计算很少一部分像素，就能推导出整张图的走向，速度瞬间提升。

B. 确定性微流 (DMF) —— “无缝拼接的魔术”

原理：当从“只画关键点”切换到“开始画更多细节”时，新加入的区域如果直接硬插进去，画面可能会断裂或出现噪点（就像拼图拼不上）。
比喻：JiT 设计了一个**“平滑过渡器”。当新工人（新像素）加入时，它会像魔术师一样，瞬间把新工人的动作调整得和老工人完美同步，确保画面严丝合缝**，没有任何生硬的接缝或奇怪的噪点。

4. 成果如何？

速度快得惊人：在 FLUX.1 这个顶级模型上，JiT 实现了 4 倍到 7 倍 的加速！
- 以前画一张图要 25 秒，现在只要 3-6 秒。
画质几乎无损：这是最厉害的地方。通常加速都会让图变糊或变怪，但 JiT 画出来的图，连文字、复杂的纹理都清晰可见，肉眼几乎看不出和原版有什么区别。
无需重新训练：这个方法不需要重新训练庞大的 AI 模型，就像给现有的汽车换了一个更聪明的导航系统，直接就能跑得快。

总结

JiT 就像给 AI 画家装上了一个“智能指挥家”。
指挥家告诉画家：“现在先别管那些树叶，先把天空画好；等天空画好了，再赶紧去画树叶。”
通过这种**“按需计算”**的策略，JiT 让 AI 画图变得既快又稳，让普通用户也能在几秒钟内享受到以前需要昂贵显卡才能生成的顶级画质。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 Just-in-Time (JiT) 的新型框架，旨在解决扩散 Transformer (DiT) 在图像生成过程中计算成本高昂的问题。该方法无需重新训练模型，即可在空间域实现显著的加速，同时保持极高的生成质量。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现状：扩散 Transformer (DiT) 已成为图像和视频生成的 SOTA 架构，但其基于自注意力机制的迭代采样过程计算量巨大（复杂度随 Token 数量呈二次方增长），导致推理延迟高，难以在实时系统或消费级设备上部署。
现有方法的局限：
- 时间域加速：现有的加速方法主要集中在减少采样步数（如高阶求解器、蒸馏），但这往往以牺牲生成质量为代价，或者需要昂贵的重新训练。
- 空间冗余被忽视：现有的加速方法通常对所有空间区域进行均匀计算。然而，扩散模型具有由粗到细的生成特性：全局低频结构在早期形成，而高频细节（纹理、边缘）在后期才逐渐显现。
核心挑战：如何在生成早期动态地减少非关键区域（如背景或平滑区域）的计算，同时确保在引入新细节时不产生伪影或统计偏差？

2. 方法论 (Methodology)

JiT 框架的核心思想是空间域加速，通过动态选择稀疏的“锚点 Token"进行计算，并推导其余 Token 的状态。主要包含两个核心组件：

A. 空间近似生成常微分方程 (SAG-ODE)

机制：在采样过程的每个阶段，仅选取一个动态变化的稀疏子集（锚点 Token， $\Omega_k$ ）输入到 Transformer 中进行计算。
增强提升算子 (Augmented Lifter Operator, $\Pi_k$ )：
- 将稀疏锚点 Token 计算出的速度场 $u_\theta$ 扩展回全空间。
- 精确部分：锚点 Token 的速度场直接保留。
- 近似部分：对于非激活的 Token，利用平滑的空间插值算子 $I_k$ 从锚点 Token 的速度场中推断其速度。
一致性保证：该设计确保了锚点 Token 的动力学完全由 Transformer 精确计算，而插值部分不影响锚点子空间，从而保证了加速过程中的核心信息无损。

B. 确定性微流 (Deterministic Micro-flow, DMF)

问题：当采样阶段推进，需要激活新的 Token 以扩展潜在空间维度时，直接注入会导致空间不连续和统计分布不匹配，产生伪影。
解决方案：提出了一种短时间的有限时间 ODE。
- 目标状态构建：利用 Tweedie 公式预测干净数据，结合当前时间步的噪声水平，构建新 Token 的目标状态 $y^*_k$ ，确保其结构连贯且统计正确。
- 平滑过渡：在极短的时间间隔 $[T_k-\delta, T_k]$ 内，通过 DMF 将新 Token 的状态从插值状态确定性演化到目标状态。
- 隔离机制：在过渡期间，现有锚点 Token 的速度设为零，仅更新新激活的 Token，确保过渡平滑无伪影。

C. 重要性引导的 Token 激活 (Importance-guided Token Activation, ITA)

动态选择策略：摒弃静态的网格选择，根据生成过程的动态活动度选择 Token。
指标：计算 DiT 预测速度场的局部方差作为重要性分数。
逻辑：在生成早期，优先激活全局结构区域；随着生成进行，高方差区域（对应边缘、纹理等高频细节）被优先激活，确保计算资源集中在信息密度最高的区域。

3. 主要贡献 (Key Contributions)

提出 JiT 框架：首个针对流匹配 (Flow Matching) 基 DiT 模型的无需训练的空间加速框架。
双重协同机制：
- SAG-ODE：利用稀疏锚点计算驱动全空间状态演化，大幅降低计算量。
- DMF：解决了子空间维度扩展时的状态过渡问题，保证了结构连贯性和统计正确性，消除了传统上采样方法带来的伪影。
动态资源分配：通过 ITA 策略，实现了从全局结构到局部细节的自适应计算资源分配。

4. 实验结果 (Results)

实验设置：在 SOTA 模型 FLUX.1-dev 上进行评估，对比了 RALU、Bottleneck Sampling、TeaCache 等现有加速方法。
加速性能：
- 实现了 4× 和 7× 的推理加速。
- 在 7× 加速下，推理时间从 25.25 秒降至 3.67 秒，FLOPs 减少约 7 倍。
生成质量：
- 几乎无损：在 CLIP-IQA、ImageReward、HPSv2.1 等指标上，JiT 的表现与原始 50 步采样（50-NFE）的基线模型几乎持平，显著优于其他加速方法。
- 细节保留：在生成复杂文本、精细纹理和语义一致性方面表现优异，避免了其他方法常见的模糊、结构错误或语义混淆。
用户研究：在盲测中，JiT 生成的图像在视觉质量和提示词遵循度上，获得了 70% - 93% 的用户偏好率，远超所有基线方法。
消融实验：验证了 SAG-ODE 的近似项、ITA 动态策略和 DMF 目标状态构建对最终质量的必要性。

5. 意义与影响 (Significance)

突破计算瓶颈：JiT 证明了利用扩散模型内在的“由粗到细”生成特性，可以在不牺牲质量的前提下实现数量级的加速。
无需训练：作为一种即插即用（Plug-and-play）的方法，它不需要重新训练庞大的 DiT 模型，极大地降低了部署成本。
通用性：论文展示了该方法不仅适用于 FLUX.1-dev，还成功迁移到了 Qwen-Image 和 HunyuanVideo-1.5（视频生成）模型，证明了其在不同模态和架构下的泛化能力。
新范式：将加速重心从“时间域”转向“空间域”，为未来高效、高保真的生成式 AI 应用（如实时交互、移动端部署）提供了新的技术路径。

总结：JiT 通过巧妙地结合稀疏计算、空间插值近似和确定性状态过渡，成功解决了 DiT 推理慢的痛点，在保持 SOTA 生成质量的同时实现了高达 7 倍的加速，是扩散模型高效推理领域的一项重要突破。