Relational Feature Caching for Accelerating Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 RFC (Relational Feature Caching，关系特征缓存) 的新方法，旨在让现在的 AI 画图和视频生成模型（特别是基于 Transformer 的扩散模型）跑得更快，同时画得更好。

为了让你轻松理解，我们可以把 AI 生成图像的过程想象成一位画家在画一幅复杂的油画。

1. 背景：画家为什么累？（扩散模型的痛点）

现在的 AI 画图（比如 Midjourney 或 Stable Diffusion 的升级版），不是一笔就画完的。它需要像“去噪”一样，从一团模糊的噪点开始，一步步（比如 50 步或 100 步）慢慢把图像变清晰。

问题：每一步，画家都要重新计算整幅画的细节，这非常耗时耗力（就像画家每画一笔都要重新把整幅画从头到尾思考一遍）。
现有的加速方法（特征缓存）：聪明的画家发现，相邻的两步之间，画面变化其实很小。于是，以前的方法（如 FORA, TaylorSeer）想出了一个招数：“偷懒”。
- 他们每隔几步就认真画一次（全计算），然后把结果存下来（缓存）。
- 在中间那些步数，他们直接把存好的画拿来用，或者根据上一步的样子简单猜一下（线性外推），不再重新计算。

2. 现有方法的缺陷：猜错了怎么办？

虽然“猜”能省时间，但有个大问题：猜不准。

比喻：想象你在预测明天的天气。如果昨天是晴天，今天也是晴天，你猜明天也是晴天，这很准。但如果昨天突然下暴雨，你再用“昨天是晴天”的规律去猜，就完全错了。
论文发现：AI 画图时，画面的变化并不是平滑的直线。有时候变化很小，有时候突然变化很大（比如从模糊的轮廓突然变成清晰的纹理）。
后果：现有的“猜”法（只靠时间上的推测）经常猜错，导致画出来的图模糊、变形，或者细节丢失。为了修正这些错误，画家不得不频繁地停下来重新认真画，反而抵消了加速的效果。

3. 核心创新：RFC 的“关系学”智慧

这篇论文的作者发现了一个关键规律：“输入”和“输出”是强相关的。

比喻：
- 输入：画家看到的参考图（或者上一轮画好的草稿）。
- 输出：画家这一轮画出来的新细节。
- 规律：如果参考图（输入）变化很大，那么新画出来的细节（输出）通常也会变化很大；如果参考图几乎没变，新画出来的细节也几乎没变。输入的变化幅度，直接决定了输出的变化幅度。

基于这个发现，作者提出了 RFC，包含两个聪明的策略：

A. 关系特征估计 (RFE) —— 聪明的“翻译官”

以前的做法：直接猜“下一步会画什么”。
RFC 的做法：先看“参考图变了多少”，然后告诉画家：“参考图变了这么多，所以你的新笔触也应该变这么多。”
效果：这就像给画家配了一个翻译官。翻译官不需要重新画画，只需要根据参考图的变化，精准地告诉画家“这一笔该用多大的力气”。这样，即使画面变化剧烈，也能猜得非常准，大大减少了猜错的情况。

B. 关系缓存调度 (RCS) —— 灵活的“监工”

以前的做法：不管画得准不准，固定每 5 步就停下来重新画一次（死板的计划）。
RFC 的做法：监工（RCS）会实时盯着“参考图的变化误差”。
- 如果参考图很稳定，误差很小，监工就说：“继续猜，不用停！”（省时间）。
- 如果参考图突然剧烈变化，误差变大，监工立刻喊停：“别猜了，赶紧重新认真画！”（保质量）。
效果：这是一种动态的、按需分配的策略。在简单的时候疯狂加速，在复杂的时候及时止损，既快又好。

4. 实验结果：又快又好

作者在多个顶级模型（如 DiT-XL/2, FLUX.1, HunyuanVideo）上做了测试：

画质：生成的图片比之前的加速方法更清晰，细节更丰富，几乎和“不偷懒”（全计算）的效果一样好。
速度：在保持同样画质的前提下，RFC 比之前的加速方法（如 TaylorSeer）节省了大量的计算资源（FLOPs），画得更快。
视频：在生成视频时，画面更连贯，不会出现奇怪的闪烁或变形。

总结

简单来说，以前的加速方法是**“盲目地猜”，猜错了就翻车。
这篇论文的 RFC 方法是“看着参考图来猜”**。它利用了输入和输出之间紧密的“亲戚关系”，让 AI 在偷懒（缓存）的时候也能猜得准，在需要认真的时候（调度）能及时补位。

一句话总结：RFC 就像给 AI 画家装了一个智能导航仪，让它知道什么时候可以闭着眼睛开（缓存），什么时候必须睁大眼睛看路（全计算），从而实现了既快又稳的生成效果。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《Relational Feature Caching for Accelerating Diffusion Transformers》（用于加速扩散变换器的关系特征缓存）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：扩散变换器（Diffusion Transformers, DiTs）在图像和视频生成任务中展现了卓越的性能，但其推理过程涉及大量的去噪步数，导致计算成本极高，限制了实际应用。
现有方案：为了加速，特征缓存（Feature Caching） 方法应运而生。其核心思想是在某些时间步计算昂贵的模块（如 Attention 和 MLP）的输出特征并缓存，在后续时间步直接复用这些特征，从而减少冗余计算。
现有痛点：
- 直接复用：早期的缓存方法直接复用旧特征，随着时间步推移，累积误差会导致生成质量严重下降。
- 基于预测的缓存：近期工作（如 TaylorSeer, FasterCache）尝试利用**时间外推（Temporal Extrapolation）**技术（如泰勒展开、线性外推）来预测后续特征。
- 核心缺陷：作者通过详细分析发现，DiT 中输出特征的变化幅度（Magnitude of changes）在不同时间步上是不规则的（Irregular）。单纯依赖时间维度的外推（假设特征平滑演变）会导致显著的预测误差，进而损害生成质量，尤其是在大步长缓存间隔下。

2. 核心洞察 (Key Insights)

通过对 DiT 内部特征变化的深入分析，作者发现了两个关键现象：

输出特征变化的不规则性：输出特征的变化幅度在不同时间步波动很大，难以仅凭时间序列外推准确预测。
输入 - 输出的强相关性：模块的输入特征变化与输出特征变化之间存在极强的相关性。即，输入特征的变化趋势和幅度可以很好地作为输出特征变化的预测器。

3. 方法论：关系特征缓存 (Methodology: RFC)

基于上述洞察，作者提出了 关系特征缓存（Relational Feature Caching, RFC） 框架，包含两个核心组件：

A. 关系特征估计 (Relational Feature Estimation, RFE)

目标：利用输入特征的变化来更准确地估计输出特征的变化幅度。
原理：
- 定义输出特征变化量与输入特征变化量的比率 $s_k$ 。
- 理论证明（命题 1）：在局部线性映射假设下，且输入特征变化方向保持一致时，该比率 $s_k$ 在时间步上是近似**不变（Invariant）**的。
- 实验验证表明，该比率在不同时间步和不同模块间保持高度一致（相对标准差 RSD 极低）。
实现：
- 不再单纯依赖泰勒展开预测输出，而是先计算输入特征的差异 $\Delta I$ 。
- 利用最近两次全计算步之间计算出的比率 $s_N$ ，结合当前的输入特征差异，修正输出特征的预测幅度。
- 公式核心： $\|\Delta O\| \approx s_N \cdot \|\Delta I\|$ 。
- 优势：能够捕捉输出特征变化的不规则动态，显著降低预测误差。

B. 关系缓存调度 (Relational Cache Scheduling, RCS)

目标：动态决定何时进行全量计算，以平衡效率与质量。
挑战：直接测量输出预测误差需要执行昂贵的全量计算，这违背了加速的初衷。
策略：
- 利用输入特征预测误差作为输出特征预测误差的高效代理（Proxy）。
- 由于输入和输出误差趋势高度对齐，RCS 通过监控第一个模块的输入特征预测误差的累积值来判断是否触发全量计算。
- 当累积误差超过预设阈值 $\tau$ 时，执行全量计算并更新缓存。
优势：实现了自适应的缓存间隔，在特征变化剧烈（误差积累快）的时间步增加计算频率，在稳定阶段减少计算，从而优化效率 - 质量权衡。

4. 主要贡献 (Key Contributions)

提出了 RFE：一种利用输入 - 输出特征关系来估计输出特征变化幅度的预测方法，解决了传统时间外推无法处理不规则变化的问题。
提出了 RCS：一种基于输入预测误差动态调度全量计算的策略，无需额外昂贵的误差测量即可实现自适应缓存。
广泛的实验验证：在多种 DiT 模型（DiT-XL/2, FLUX.1, HunyuanVideo）和任务（分类条件生成、文生图、文生视频）上，RFC 均显著优于现有的最先进方法（如 FORA, TaylorSeer, ToCa 等）。

5. 实验结果 (Results)

定量性能：
- 图像生成 (ImageNet)：在相同的 FLOPs 下，RFC 的 sFID 显著低于 TaylorSeer。例如，在 3.37 TFLOPs 下，RFC 的 sFID 为 3.40，而 TaylorSeer 为 6.47（N=6 设置）。
- 文生图 (FLUX.1)：在 DrawBench 基准测试中，RFC 在 PSNR、SSIM 和 LPIPS 等指标上全面超越对比方法，生成的图像细节更丰富，结构更准确。
- 文生视频 (HunyuanVideo)：在 VBench 评分上，RFC 取得了最佳性能，视频连贯性和质量更接近全量计算。
- 极端加速比：在极低的全计算步数（如 NFC=4, 5, 6）下，传统方法性能崩塌，而 RFC 仍能保持高质量的生成。
定性分析：
- 生成的图像在纹理（如砖块结构）、物体形状和提示词对齐度上更接近全量计算的结果，减少了伪影和结构错误。
消融实验：
- RFE 和 RCS 单独使用均能提升性能，两者结合效果最佳。
- 证明了输入 - 输出比率的一致性假设是有效的。
- 证明了仅使用第一个模块的输入误差进行调度已足够，无需计算所有模块，降低了开销。

6. 意义与影响 (Significance)

理论突破：打破了以往仅依赖“时间平滑性”假设来加速扩散模型的传统范式，引入了“输入 - 输出关系”这一新视角，揭示了 DiT 内部特征演化的内在规律。
实用价值：RFC 是一个即插即用（Plug-and-play）的框架，无需重新训练模型，即可在现有的 DiT 架构上实现显著的加速（降低 FLOPs 和延迟），同时保持甚至提升生成质量。
通用性：不仅适用于 DiT，实验表明该方法同样适用于 U-Net 架构的扩散模型，具有广泛的适用性。

总结：这篇论文通过发现并利用扩散变换器中“输入特征变化”与“输出特征变化”之间的强相关性，提出了一种新颖的缓存机制。它通过更精准的预测（RFE）和更智能的调度（RCS），有效解决了现有缓存方法在长间隔下误差累积的问题，为扩散模型的高效推理提供了新的 SOTA 解决方案。