Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

该论文提出了“局部感知并行解码”(LPD)方法,通过引入灵活的并行自回归建模架构与局部感知生成排序策略,在保持生成质量的同时显著减少了图像生成步数并降低了延迟,从而实现了高效的自回归图像生成。

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LPD (Locality-aware Parallel Decoding,即“感知局部性的并行解码”) 的新方法,旨在让 AI 生成图片的速度变得飞快,同时保持图片质量不下降。

为了让你轻松理解,我们可以把 AI 画一幅画的过程想象成**“在一张巨大的网格纸上填色”**。

1. 以前的痛点:像“蜗牛”一样画画

传统的 AI 画图(自回归模型)就像是一个极其守规矩的蜗牛

  • 工作方式:它必须按照严格的顺序,从左上角开始,一格一格地填色。填完第 1 格,才能填第 2 格;填完第 2 格,才能填第 3 格……直到填满整个画面。
  • 问题:如果一张图有 256 个小格子,它就得跑 256 步。这就像让一个人走 256 步才能画完一幅画,速度非常慢,而且电脑内存(显存)一直要等着它慢慢走,效率极低。

2. 别人的尝试:像“笨拙的搬运工”

为了解决慢的问题,以前的研究者尝试过“并行化”,也就是让 AI 一次填好几个格子。

  • 做法:比如一次填 4 个格子。
  • 问题:但这就像让几个工人同时在一个小房间里干活,如果没规划好,他们容易互相撞车(生成的格子之间逻辑不通,导致画面崩坏),或者因为缺乏参考(不知道隔壁填了什么),导致填出来的颜色很奇怪。所以,以前的方法要么提速有限,要么画出来的图质量变差。

3. LPD 的绝招:像“聪明的装修队”

这篇论文提出的 LPD 方法,就像雇佣了一支训练有素、配合默契的装修队。它有两个核心绝招:

绝招一:灵活的“指挥棒” (Flexible Parallelized Autoregressive Modeling)

  • 以前的限制:以前的 AI 只能按顺序填色,因为它的“大脑”(模型架构)被设计成只能看前一个格子,预测下一个。
  • LPD 的创新:他们给 AI 加了一根**“魔法指挥棒”(可学习的位置查询 Token)**。
    • 比喻:想象装修队长手里拿着一个遥控器,他不需要按顺序走,而是直接指着墙上任意几个还没填色的格子说:“你们几个,现在一起填这里!”
    • 关键点:这些被选中的格子虽然同时填色,但通过特殊的“视线机制”,它们能互相看到对方,也能看到之前填好的部分。这样既实现了同时开工(并行),又保证了大家步调一致,不会画歪。

绝招二:聪明的“填色顺序” (Locality-aware Generation Ordering)

这是 LPD 最聪明的地方。它发现了一个人类画画时的直觉:离得越近的地方,越需要互相参考。

  • 观察:如果你画一只猫,画完猫头,接下来画猫耳朵是很自然的(因为离得近,耳朵长在头上);但如果你刚画完猫头,突然跳到画远处的背景树,这就很别扭,因为缺乏上下文。
  • 策略:LPD 制定了一个**“由近及远,且互不干扰”**的填色计划:
    1. 靠近原则:新填的格子要尽量靠近已经填好的区域(这样有参考,画得准)。
    2. 远离原则:在同一时间同时填的几个格子,要尽量离得远一点(这样它们之间不会互相打架,不会互相干扰)。
  • 比喻:就像装修队,队长会安排工人先填补好墙面周围的空缺(利用已知的墙做参考),但同时安排几个工人去填补彼此距离很远的地方(避免大家挤在一起吵架)。

4. 效果如何?

这套组合拳打下来,效果惊人:

  • 步数大减:以前画一张 256x256 的图要跑 256 步,现在只要 20 步
  • 速度起飞:生成速度提升了 3.4 倍 以上。
  • 质量不变:虽然步子少了,但画出来的图依然清晰、逼真,没有因为“赶工”而变丑。
  • 功能强大:因为不再受死板的顺序限制,它还能轻松实现**“局部修改”**(比如把图里的猫变成狗,或者把背景擦掉重画),就像在 Photoshop 里操作一样灵活。

总结

简单来说,LPD 就是给 AI 画家装上了**“多线程并行处理”的大脑,并教它学会了“哪里该一起画,哪里该分开画”**的智慧。它不再像蜗牛一样一步一步挪,而是像一支高效的特种部队,瞬间就能完成一幅精美的画作。

这项技术不仅让 AI 画图更快,也为未来统一的多模态模型(既能看图又能写字的超级 AI)打下了坚实的基础,因为它们都使用同一种“扁平化”的 Token 语言,兼容性更好。