Relational Feature Caching for Accelerating Diffusion Transformers

本文针对现有扩散 Transformer 特征缓存方法因单纯依赖时间外推而导致预测误差较大的问题,提出了一种利用输入输出强相关性来估计特征变化幅度并动态调度计算的新框架——关系特征缓存(RFC),从而显著提升了加速效果与生成质量。

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi, Bumsub Ham

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 RFC (Relational Feature Caching,关系特征缓存) 的新方法,旨在让现在的 AI 画图和视频生成模型(特别是基于 Transformer 的扩散模型)跑得更快,同时画得更好。

为了让你轻松理解,我们可以把 AI 生成图像的过程想象成一位画家在画一幅复杂的油画

1. 背景:画家为什么累?(扩散模型的痛点)

现在的 AI 画图(比如 Midjourney 或 Stable Diffusion 的升级版),不是一笔就画完的。它需要像“去噪”一样,从一团模糊的噪点开始,一步步(比如 50 步或 100 步)慢慢把图像变清晰。

  • 问题:每一步,画家都要重新计算整幅画的细节,这非常耗时耗力(就像画家每画一笔都要重新把整幅画从头到尾思考一遍)。
  • 现有的加速方法(特征缓存):聪明的画家发现,相邻的两步之间,画面变化其实很小。于是,以前的方法(如 FORA, TaylorSeer)想出了一个招数:“偷懒”
    • 他们每隔几步就认真画一次(全计算),然后把结果存下来(缓存)
    • 在中间那些步数,他们直接把存好的画拿来用,或者根据上一步的样子简单猜一下(线性外推),不再重新计算。

2. 现有方法的缺陷:猜错了怎么办?

虽然“猜”能省时间,但有个大问题:猜不准

  • 比喻:想象你在预测明天的天气。如果昨天是晴天,今天也是晴天,你猜明天也是晴天,这很准。但如果昨天突然下暴雨,你再用“昨天是晴天”的规律去猜,就完全错了。
  • 论文发现:AI 画图时,画面的变化并不是平滑的直线。有时候变化很小,有时候突然变化很大(比如从模糊的轮廓突然变成清晰的纹理)。
  • 后果:现有的“猜”法(只靠时间上的推测)经常猜错,导致画出来的图模糊、变形,或者细节丢失。为了修正这些错误,画家不得不频繁地停下来重新认真画,反而抵消了加速的效果。

3. 核心创新:RFC 的“关系学”智慧

这篇论文的作者发现了一个关键规律:“输入”和“输出”是强相关的。

  • 比喻
    • 输入:画家看到的参考图(或者上一轮画好的草稿)。
    • 输出:画家这一轮画出来的新细节。
    • 规律:如果参考图(输入)变化很大,那么新画出来的细节(输出)通常也会变化很大;如果参考图几乎没变,新画出来的细节也几乎没变。输入的变化幅度,直接决定了输出的变化幅度。

基于这个发现,作者提出了 RFC,包含两个聪明的策略:

A. 关系特征估计 (RFE) —— 聪明的“翻译官”

  • 以前的做法:直接猜“下一步会画什么”。
  • RFC 的做法:先看“参考图变了多少”,然后告诉画家:“参考图变了这么多,所以你的新笔触也应该变这么多。”
  • 效果:这就像给画家配了一个翻译官。翻译官不需要重新画画,只需要根据参考图的变化,精准地告诉画家“这一笔该用多大的力气”。这样,即使画面变化剧烈,也能猜得非常准,大大减少了猜错的情况。

B. 关系缓存调度 (RCS) —— 灵活的“监工”

  • 以前的做法:不管画得准不准,固定每 5 步就停下来重新画一次(死板的计划)。
  • RFC 的做法:监工(RCS)会实时盯着“参考图的变化误差”。
    • 如果参考图很稳定,误差很小,监工就说:“继续猜,不用停!”(省时间)。
    • 如果参考图突然剧烈变化,误差变大,监工立刻喊停:“别猜了,赶紧重新认真画!”(保质量)。
  • 效果:这是一种动态的、按需分配的策略。在简单的时候疯狂加速,在复杂的时候及时止损,既快又好。

4. 实验结果:又快又好

作者在多个顶级模型(如 DiT-XL/2, FLUX.1, HunyuanVideo)上做了测试:

  • 画质:生成的图片比之前的加速方法更清晰,细节更丰富,几乎和“不偷懒”(全计算)的效果一样好。
  • 速度:在保持同样画质的前提下,RFC 比之前的加速方法(如 TaylorSeer)节省了大量的计算资源(FLOPs),画得更快。
  • 视频:在生成视频时,画面更连贯,不会出现奇怪的闪烁或变形。

总结

简单来说,以前的加速方法是**“盲目地猜”,猜错了就翻车。
这篇论文的 RFC 方法是
“看着参考图来猜”**。它利用了输入和输出之间紧密的“亲戚关系”,让 AI 在偷懒(缓存)的时候也能猜得准,在需要认真的时候(调度)能及时补位。

一句话总结:RFC 就像给 AI 画家装了一个智能导航仪,让它知道什么时候可以闭着眼睛开(缓存),什么时候必须睁大眼睛看路(全计算),从而实现了既快又稳的生成效果。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →