Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

本文提出了无需训练的 Jano 框架,通过识别生成内容在去噪初期的区域收敛异质性并实施自适应 Token 调度,在保持生成质量的同时显著加速了扩散 Transformer 模型(平均提速 2.0 倍)。

Yuyang Chen, Linqian Zeng, Yijin ZHou, Hengjie Li, Jidong Zhai

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于让 AI 画图和生成视频变得更快、更聪明的论文。

想象一下,现在的 AI 画师(比如生成视频或图片的模型)虽然画得极好,但有个大毛病:太慢了。就像让一个超级大厨做一桌满汉全席,他不管你是做一道简单的炒青菜,还是做一道复杂的佛跳墙,都严格按照“每道菜都要切 1000 刀、炒 1000 下”的固定流程来,哪怕青菜只需要切两刀。这就造成了巨大的时间浪费。

这篇论文提出的 JANO,就是给这位大厨装上了一个"智能预判系统",让他知道哪些地方需要精细打磨,哪些地方可以“偷个懒”。

下面我用几个生活中的比喻来拆解它的核心思想:

1. 核心发现:并不是所有地方都一样难

作者发现,AI 在生成内容时,画面的不同区域“稳定下来”的速度是不一样的。

  • 简单区域(如蓝天、草地):就像画背景,AI 只需要画几笔,颜色就均匀了,很快就能“定型”。
  • 复杂区域(如人脸、猫的眼睛):就像画精细的肖像,AI 需要反复修改、调整细节,画很多步才能画好。

以前的加速方法(比如“特征缓存”)是**“一刀切”**:要么全画,要么全偷懒。这导致要么画得慢,要么把人脸画糊了。

2. JANO 的三大绝招

第一招:未卜先知的“试吃”(早期复杂度识别)

AI 刚开始画画时,画面全是噪点(像电视雪花屏)。通常要画很久才能看出画的是什么。
但 JANO 发明了一种算法,能在刚开始的几步(比如前 10% 的时间)就通过观察噪点的变化规律,预判出哪些区域是“简单背景”,哪些是“复杂人脸”。

  • 比喻:就像大厨刚把菜下锅,闻一下味道、看一眼火候,就能判断出:“这盘青菜熟了,那盘红烧肉还得炖半小时。”

第二招:分级管理的“流水线”(自适应生成)

一旦预判完成,JANO 就把画面里的像素块(Token)分成三类:

  1. 静态区(Static):背景、天空。这些区域画得少,甚至中间步骤直接跳过,用缓存代替。
  2. 中等区(Moderate):稍微有点细节的地方。
  3. 活跃区(Active):人脸、动物等核心细节。这些区域全程参与,一步不落。
  • 比喻:这就好比装修房子。
    • 刷墙(背景):工人刷一遍就完事,不用天天盯着。
    • 铺地板(中等):偶尔检查一下。
    • 雕花门窗(人脸):大师傅全程盯着,精雕细琢。
    • 结果:以前是所有人一起干所有活,现在是根据难度分配人力,效率自然翻倍。

第三招:聪明的“记忆本”(KV Cache 优化)

这是技术上的关键。因为 AI 在画的时候,需要记住之前画过的所有信息(全注意力机制)。如果只画一部分,怎么保证它记得住没画的部分?
JANO 设计了一个**“智能记忆本”**。

  • 对于“偷懒”没画的区域,它把之前算好的结果存起来(缓存)。
  • 当需要计算时,它直接把存好的结果拿出来拼上,而不是重新算一遍。
  • 比喻:就像你写文章,中间有些段落是套话(背景),你直接复制粘贴以前的版本;只有写核心观点(人脸)时,才动笔重写。这样既快,又不会让文章逻辑断裂。

3. 效果如何?

  • 速度快:平均速度提升了 2 倍,最快能提升 2.4 倍。以前生成一段 5 秒的 720p 视频要 1 个多小时,现在可能只要 30 分钟。
  • 画质好:最重要的是,画质几乎没有损失。因为“偷懒”只发生在背景等不重要的地方,核心的人脸和物体依然画得很精细。
  • 无需训练:这个方法不需要重新训练 AI 模型,就像给现有的汽车换了个更聪明的导航系统,直接就能用。

总结

JANO 就像给 AI 画师装上了一双**“火眼金睛”和一套“灵活调度系统”。它不再盲目地平均用力,而是把精力集中在最该花时间的地方**,在背景上“省力气”,在细节上“下苦功”。

这就解释了为什么它能既快又好:因为它不再做无用功

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →