MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MeanCache 的新方法，它的目标是让现在的 AI 画图、画视频（比如 FLUX.1、Qwen-Image 等模型）变得更快，同时不牺牲画质。

为了让你轻松理解，我们可以把 AI 生成图片的过程想象成**“盲人摸象”式的长途旅行**。

1. 核心问题：为什么现在的 AI 画图这么慢？

想象一下，AI 要从一张全是噪点的“白纸”（起点）走到一张清晰的“风景画”（终点）。

传统做法：AI 必须一步一步走，每一步都要停下来，仔细计算“下一步该往哪个方向走”（这叫瞬时速度）。
痛点：如果路途遥远（步骤多），AI 就要走几千步，非常慢。
现有的加速方法（旧缓存技术）：为了快，以前的方法想：“既然刚才那一步的方向是对的，那我接下来的几步就直接复制刚才的方向吧！”
- 比喻：就像你在开车，看到前面路直，就猛打方向盘然后一直踩着油门不松手，以为能一直直着开。
- 后果：因为路况（AI 的生成过程）是不断变化的，这种“死板复制”会导致车子很快偏离轨道，最后开进沟里（画面崩坏、模糊、出现奇怪的东西）。这就是论文里说的“误差累积”。

2. MeanCache 的绝招：从“瞬时速度”到“平均速度”

MeanCache 提出了一种全新的视角：不要只看脚下的路，要看一段路的“平均趋势”。

旧视角（瞬时速度）：只看这一秒车子往哪偏。这很容易受颠簸影响，忽左忽右，很不稳定。
新视角（平均速度）：不看这一秒，而是看“过去 5 秒”车子整体往哪个方向移动了。
- 比喻：想象你在走迷宫。
  - 旧方法：每走一步都问：“我现在该往哪转？”（容易因为一步走错，后面全错）。
  - MeanCache：它说：“别管刚才那一步抖了一下，我们看过去这一小段路，整体是往‘北’走的。那接下来的几步，我们就按‘向北’这个平均趋势走。”
- 效果：即使中间偶尔有点小颠簸，只要大方向（平均速度）是对的，路线就不会跑偏太远。

3. 它是如何做到的？（两个关键魔法）

MeanCache 用了两个聪明的策略来实现这个“平均速度”：

魔法一：利用“数学捷径”（JVP 缓存）

AI 计算“平均速度”通常需要重新算很多遍，太慢了。MeanCache 发现了一个数学技巧（叫 Jacobian-Vector Product，简称 JVP），就像**“利用之前的脚印来推算未来的路”**。

比喻：你不需要重新测量整段路，你只需要记住刚才走过的“脚印”和“步幅”，就能推算出接下来的平均走向。这样既省了力气（不用重算），又比直接复制方向更准。

魔法二：智能“跳步”调度（轨迹稳定性调度）

并不是每一步都适合“偷懒”（跳过计算）。

比喻：就像开车，起步和转弯时必须小心翼翼，不能跳步；但到了笔直的高速公路上，就可以加速滑行。
MeanCache 的做法：它画了一张“路况地图”，把每一步的“风险”标出来。
- 风险高的地方（比如画面刚开始生成时）：老老实实一步步走。
- 风险低的地方（比如画面快成型时）：大胆地利用缓存，一次跳过好几步。
- 它用一种叫“最短路径”的算法，在“省时间”和“不翻车”之间找到完美的平衡点。

4. 效果有多好？

论文在几个最火的 AI 模型（FLUX.1 画图、Qwen-Image 画图、HunyuanVideo 画视频）上做了测试：

速度提升：
- 画图快了 4 倍多（比如原来要 10 秒，现在只要 2 秒多）。
- 画视频快了 3.5 倍多。
画质保持：
- 其他加速方法在加速 4 倍时，画出来的人脸可能都变形了，或者背景全是乱码。
- MeanCache 在加速 4 倍时，画出来的图依然清晰、细节丰富，几乎和原图一样好。

总结

MeanCache 就像是给 AI 装了一个**“智能导航 + 惯性导航”**系统：

它不再死盯着每一秒的微小变化（瞬时速度），而是看一段路的整体趋势（平均速度），这样更稳。
它知道什么时候该“偷懒”（跳过计算），什么时候该“认真”（重新计算），从而在极速和高质量之间找到了完美的平衡。

这对于我们普通用户来说，意味着以后用 AI 生成高清图片或视频，等待时间将大幅缩短，而且不用担心画面变丑。这是一个让 AI 生成技术真正走向“实时化”的重要一步。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《MEANCACHE: FROM INSTANTANEOUS TO AVERAGE VELOCITY FOR ACCELERATING FLOW MATCHING INFERENCE》的技术总结。

1. 研究背景与问题 (Problem)

背景：
Flow Matching (流匹配) 作为一种生成式建模的新范式，在图像、视频及多模态生成任务中取得了显著进展。然而，在商业级大规模模型（如 FLUX.1, Qwen-Image, HunyuanVideo）中，其推理过程涉及大量的计算步骤和显存占用，导致推理延迟高，难以在交互式或资源受限的场景中应用。

现有挑战：
现有的加速方法主要分为两类：

重训练类方法（如蒸馏、剪枝、量化）：通常需要修改架构并进行大规模重训练，成本高昂。
免训练缓存类方法（Caching-based）：通过复用中间特征来减少冗余计算。然而，这类方法通常基于**瞬时速度（Instantaneous Velocity）**或特征缓存。
- 核心痛点：在去噪轨迹上，瞬时速度波动剧烈且不稳定。在高加速比（即大幅减少采样步数）下，仅依赖瞬时速度或特征进行区间状态重建，会导致严重的轨迹偏差（Trajectory Deviation）和误差累积（Error Accumulation），从而造成生成质量急剧下降（如模糊、结构失真）。

2. 方法论 (Methodology)

作者提出了 MeanCache，一种无需训练的缓存框架，其核心思想是将缓存视角从“瞬时速度”转变为**“平均速度（Average Velocity）”**。

2.1 核心视角转换：从瞬时到平均速度

理论基础：基于 MeanFlow 的恒等式，瞬时速度 $v$ 与区间平均速度 $u$ 之间存在数学联系。平均速度在去噪轨迹上比瞬时速度更平滑、更稳定，更适合用于轨迹重建。
JVP 缓存构建：
- 为了在推理过程中估算平均速度，MeanCache 利用**雅可比 - 向量积（JVP, Jacobian-Vector Products）**作为计算桥梁。
- 通过引入一个参考点 $r$ （早于当前步 $t$ 的缓存状态），利用 $r \to t$ 的位移和速度信息来近似 $t \to s$ 区间的 JVP。
- 公式推导表明，利用缓存的 JVP 可以修正轨迹，有效缓解局部误差累积。

2.2 轨迹稳定性调度策略 (Trajectory-Stability Scheduling)

由于缓存的时机（何时缓存）和跨度（ $K$ 值，即利用多远的历史缓存）对性能影响巨大，且固定规则无法适应所有情况，作者提出了一种基于图论的调度策略：

多图建模：将去噪过程中的时间步视为节点，将不同缓存跨度下的平均速度预测误差视为边权重，构建一个带权重的多图（Multigraph）。
峰值抑制最短路径 (Peak-Suppressed Shortest Path)：
- 目标是在给定的计算预算（Budget $B$ ，即允许的总步数）约束下，寻找一条从起点到终点的路径。
- 引入峰值抑制参数 $\gamma$ ，对高误差边进行惩罚，防止误差集中在少数几步导致生成质量崩塌。
- 通过动态规划求解该约束最短路径问题，自动确定最优的缓存放置位置和跨度 $K$ ，无需重新训练模型。

3. 主要贡献 (Key Contributions)

平均速度视角的缓存范式：重新定义了 Flow Matching 的缓存问题，从依赖不稳定的瞬时速度转向更稳定的平均速度域，为高加速比生成提供了更简单的理论视角。
基于轨迹稳定性的调度工具：提出了一种无需重训练的调度策略，利用 JVP 误差构建稳定性图，并通过峰值抑制的最短路径搜索确定最优缓存方案，显著提升了缓存时机和复用的稳定性。
卓越的性能表现：在多个商业级模型上实现了显著的加速，同时保持了高质量的生成效果，证明了该方法在大规模生成模型中的实用性。

4. 实验结果 (Results)

论文在 FLUX.1 (图像), Qwen-Image (图像), 和 HunyuanVideo (视频) 三个主流模型上进行了广泛实验，对比了 TeaCache, DiCache, TaylorSeer 等 SOTA 基线方法。

加速比与质量：
- FLUX.1：实现了 4.12× 的加速，ImageReward 得分为 0.993（接近原始 50 步的 1.033），显著优于基线。
- Qwen-Image：实现了 4.56× 的加速，ImageReward 为 1.142，LPIPS 极低（0.236），表明几乎无损。
- HunyuanVideo：实现了 3.59× 的加速，VBench 得分为 80.08%，SSIM 和 PSNR 均大幅领先基线。
鲁棒性：
- 在极高加速比（>3.5×）下，基线方法（如 TeaCache, TaylorSeer）出现严重的模糊、伪影和结构失真，而 MeanCache 仍能保持清晰的纹理和结构。
- 在稀有词汇提示词（Rare-word prompts）测试中，MeanCache 在 4×加速下仍能保持语义一致性，而基线方法出现严重的语义漂移。
效率与成本：
- 无需额外训练，仅通过推理时的缓存和调度策略即可实现加速。
- 在低延迟场景（<3 秒）下，MeanCache 仍能维持稳定的重建保真度，而基线方法性能崩溃。

5. 意义与影响 (Significance)

理论创新：将平均速度（Average Velocity）的概念从理论模型（MeanFlow）成功迁移到实际的推理加速框架中，揭示了平均速度域在减少误差累积方面的潜力。
工程价值：提供了一种轻量级、即插即用的加速方案，特别适用于对延迟敏感的商业级生成式 AI 应用（如实时图像/视频生成）。
未来方向：该工作为基于稳定性的加速（Stability-driven acceleration）开辟了新路径，表明通过优化轨迹稳定性而非单纯减少步数，可以在不牺牲质量的前提下大幅提升生成模型的效率。

总结：MeanCache 通过引入平均速度视角和智能的轨迹调度策略，成功解决了现有缓存方法在高加速比下误差累积严重的问题，为 Flow Matching 模型的实用化部署提供了强有力的技术支持。