MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

本文提出了名为 MeanCache 的训练无关缓存框架,通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度,并配合轨迹稳定性调度策略,在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速(最高达 4.56 倍)的同时保持了优于现有基线的生成质量。

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MeanCache 的新方法,它的目标是让现在的 AI 画图、画视频(比如 FLUX.1、Qwen-Image 等模型)变得更快,同时不牺牲画质

为了让你轻松理解,我们可以把 AI 生成图片的过程想象成**“盲人摸象”式的长途旅行**。

1. 核心问题:为什么现在的 AI 画图这么慢?

想象一下,AI 要从一张全是噪点的“白纸”(起点)走到一张清晰的“风景画”(终点)。

  • 传统做法:AI 必须一步一步走,每一步都要停下来,仔细计算“下一步该往哪个方向走”(这叫瞬时速度)。
  • 痛点:如果路途遥远(步骤多),AI 就要走几千步,非常慢。
  • 现有的加速方法(旧缓存技术):为了快,以前的方法想:“既然刚才那一步的方向是对的,那我接下来的几步就直接复制刚才的方向吧!”
    • 比喻:就像你在开车,看到前面路直,就猛打方向盘然后一直踩着油门不松手,以为能一直直着开。
    • 后果:因为路况(AI 的生成过程)是不断变化的,这种“死板复制”会导致车子很快偏离轨道,最后开进沟里(画面崩坏、模糊、出现奇怪的东西)。这就是论文里说的“误差累积”。

2. MeanCache 的绝招:从“瞬时速度”到“平均速度”

MeanCache 提出了一种全新的视角:不要只看脚下的路,要看一段路的“平均趋势”。

  • 旧视角(瞬时速度):只看这一秒车子往哪偏。这很容易受颠簸影响,忽左忽右,很不稳定。
  • 新视角(平均速度):不看这一秒,而是看“过去 5 秒”车子整体往哪个方向移动了。
    • 比喻:想象你在走迷宫。
      • 旧方法:每走一步都问:“我现在该往哪转?”(容易因为一步走错,后面全错)。
      • MeanCache:它说:“别管刚才那一步抖了一下,我们看过去这一小段路,整体是往‘北’走的。那接下来的几步,我们就按‘向北’这个平均趋势走。”
    • 效果:即使中间偶尔有点小颠簸,只要大方向(平均速度)是对的,路线就不会跑偏太远。

3. 它是如何做到的?(两个关键魔法)

MeanCache 用了两个聪明的策略来实现这个“平均速度”:

魔法一:利用“数学捷径”(JVP 缓存)

AI 计算“平均速度”通常需要重新算很多遍,太慢了。MeanCache 发现了一个数学技巧(叫 Jacobian-Vector Product,简称 JVP),就像**“利用之前的脚印来推算未来的路”**。

  • 比喻:你不需要重新测量整段路,你只需要记住刚才走过的“脚印”和“步幅”,就能推算出接下来的平均走向。这样既省了力气(不用重算),又比直接复制方向更准。

魔法二:智能“跳步”调度(轨迹稳定性调度)

并不是每一步都适合“偷懒”(跳过计算)。

  • 比喻:就像开车,起步和转弯时必须小心翼翼,不能跳步;但到了笔直的高速公路上,就可以加速滑行。
  • MeanCache 的做法:它画了一张“路况地图”,把每一步的“风险”标出来。
    • 风险高的地方(比如画面刚开始生成时):老老实实一步步走。
    • 风险低的地方(比如画面快成型时):大胆地利用缓存,一次跳过好几步。
    • 它用一种叫“最短路径”的算法,在“省时间”和“不翻车”之间找到完美的平衡点。

4. 效果有多好?

论文在几个最火的 AI 模型(FLUX.1 画图、Qwen-Image 画图、HunyuanVideo 画视频)上做了测试:

  • 速度提升
    • 画图快了 4 倍多(比如原来要 10 秒,现在只要 2 秒多)。
    • 画视频快了 3.5 倍多
  • 画质保持
    • 其他加速方法在加速 4 倍时,画出来的人脸可能都变形了,或者背景全是乱码。
    • MeanCache 在加速 4 倍时,画出来的图依然清晰、细节丰富,几乎和原图一样好。

总结

MeanCache 就像是给 AI 装了一个**“智能导航 + 惯性导航”**系统:

  1. 它不再死盯着每一秒的微小变化(瞬时速度),而是看一段路的整体趋势(平均速度),这样更稳。
  2. 它知道什么时候该“偷懒”(跳过计算),什么时候该“认真”(重新计算),从而在极速高质量之间找到了完美的平衡。

这对于我们普通用户来说,意味着以后用 AI 生成高清图片或视频,等待时间将大幅缩短,而且不用担心画面变丑。这是一个让 AI 生成技术真正走向“实时化”的重要一步。