TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

本文提出了无需训练的 TAP 框架,通过利用单层模型探测为每个 token 自适应选择最优预测器,在几乎不增加开销的前提下显著加速了扩散模型的推理过程,同时保持了生成质量。

Haowei Zhu, Tingxuan Huang, Xing Wang, Tianyu Zhao, Jiexi Wang, Weifeng Chen, Xurui Peng, Fangmin Chen, Junhai Yong, Bin Wang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TAP (Token-Adaptive Predictor) 的新方法,它的核心目标是让 AI 画图(生成图像)或生成视频的速度快得多,同时画质几乎不下降,而且不需要重新训练模型。

为了让你轻松理解,我们可以把 AI 生成图像的过程想象成一位画家在画一幅复杂的画

1. 现在的痛点:画家太累了

目前的 AI 绘画模型(扩散模型)就像一位极其严谨但动作很慢的画家

  • 传统画法:为了画好一张图,画家需要走 50 步(50 个去噪步骤)。每一步,他都要重新审视整张画布,计算每一笔该怎么画,哪怕画布上有些部分(比如蓝天)已经画得很完美了,他也要重新计算一遍。
  • 结果:画得很慢,电脑显卡(GPU)累得冒烟,用户等得着急。

2. 以前的加速方法:要么“偷懒”,要么“猜错”

为了加速,以前的方法主要有两种,但都有缺点:

  • 方法 A(直接复用/缓存):就像画家说:“这块蓝天刚才画好了,后面几步我直接照抄刚才的笔触吧。”
    • 缺点:如果画到后面,蓝天里突然要加一只鸟,直接照抄就会出错,画面会模糊或变形。
  • 方法 B(全局预测/泰勒展开):就像画家说:“我根据刚才的笔触,用数学公式一下后面几步该怎么画。”
    • 缺点:以前是对所有地方都用同一个公式猜。比如,画“平滑的蓝天”用简单的公式就够了,但画“复杂的毛发”用简单公式就会猜错。如果强行用同一个公式,要么猜不准,要么为了猜准而算得很慢。

3. TAP 的绝招:给每个像素派一个“专属预测员”

TAP 的核心思想是:不要一刀切,要“看人下菜碟”

它把一张图看作由成千上万个**小像素点(Token)**组成的。TAP 认为:

  • 平滑的像素(如蓝天、墙壁):变化很慢,用简单的预测(低阶公式)就能猜得很准。
  • 复杂的像素(如人脸、毛发、文字):变化剧烈,需要复杂的预测(高阶公式)才能猜准。

TAP 是怎么工作的?(三步走)

第一步:快速“体检” (The Probe)
在每一步画画时,TAP 不会立刻让画家(大模型)算完整个画面。它先让画家只算第一层(就像只看了一眼画布的轮廓),这是一个非常便宜、非常快的操作。

  • 比喻:就像你还没开始做整桌菜,先尝一口汤底,就能大概猜出这道菜是咸是淡,需要加多少盐。

第二步:智能“选将” (The Selection)
TAP 手里有一群不同能力的预测员(有的擅长猜简单的,有的擅长猜复杂的)。

  • 它利用刚才那个“快速体检”的结果,给每个像素点(Token)算一下:如果用“简单预测员”猜,误差大不大?如果用“复杂预测员”猜,误差大不大?
  • 决策:哪个预测员猜得最准,就派谁去负责这个像素点。
    • 蓝天像素 -> 派“简单预测员”(省力气)。
    • 头发像素 -> 派“复杂预测员”(保质量)。

第三步:并行“干活” (The Execution)
一旦选好了,TAP 就直接用预测员的计算结果来代替画家重新计算。因为预测员的计算非常快(只是简单的数学公式),所以整体速度瞬间提升。

4. 为什么 TAP 这么厉害?

  1. 不用重新训练 (Training-Free)
    • 以前的加速方法往往需要让 AI 重新学习很久。TAP 就像给现有的画家配了一个智能助手,不需要画家重新上学,直接就能用。
  2. 没有“门槛” (Threshold-Free)
    • 以前的方法需要人工设定规则(比如“误差超过 0.5 就重新算”)。TAP 不需要人工定规则,它自己比较谁猜得准,自动做决定。
  3. 几乎不占内存
    • 它只记住了很少的信息(第一层的输入和残差),就像只记了个“大概轮廓”,而不是把整张画都存下来。

5. 实际效果如何?

论文里的实验显示:

  • 速度:在 FLUX.1 模型上,TAP 能让生成速度提升 6.24 倍(比如原来要 1 分钟,现在只要 10 秒)。
  • 画质:在这么快的速度下,画出来的图肉眼几乎看不出区别,甚至有时候因为预测更准,细节反而更好。
  • 通用性:无论是画图片还是生成视频,这个方法都管用。

总结

TAP 就像是一个聪明的“画室经理”
它不再让画家笨拙地重复劳动,也不再让画家用同一种方法去猜所有事情。它通过快速检查,给画布上的每一块区域分配最合适的“猜图助手”

  • 简单的地方,用简单的助手(快)。
  • 复杂的地方,用厉害的助手(准)。

最终结果是:画得飞快,而且画得依然漂亮。