Autoregressive Image Generation with Randomized Parallel Decoding

本文提出了 ARPG 模型,通过解耦位置引导与内容表示并引入随机并行解码机制,在保持因果注意力结构的同时实现了高效的零样本泛化与并行推理,显著提升了图像生成的速度与内存效率。

Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ARPG 的新图像生成技术。为了让你轻松理解,我们可以把传统的图像生成模型想象成一位**“按部就班的画家”,而 ARPG 则像是一位“拥有超能力的自由派大师”**。

1. 传统画家遇到的麻烦(旧方法的局限)

想象一下,传统的 AI 画师(比如以前的自回归模型)在画一幅画时,必须严格遵守一个死板的规则:从左到右,从上到下,像扫雷一样,一个像素一个像素地画。

  • 慢: 画一幅大图需要画几千笔,非常耗时。
  • 死板: 如果画到一半,你想修改中间的一朵花,或者想从画布边缘向外延伸(画外画),这位画师就懵了。因为他只能按顺序画,无法“回头”或者“跳跃”去填补空白。这就像你写文章只能从第一个字写到最后一个字,不能直接跳到中间改句子一样。

2. ARPG 的超能力:随机并行解码

ARPG 的核心创新在于它打破了“从左到右”的规矩。它允许画家随机地、同时地处理画布上的多个位置。

  • 创意比喻:点菜与上菜
    • 旧方法:就像去一家老式餐厅,你必须按菜单顺序,等前一道菜吃完,服务员才端下一道。
    • ARPG:就像你走进一家高科技餐厅,你直接告诉厨师:“我要中间的牛排、左边的沙拉、右边的汤,同时做出来!”厨师不再按顺序,而是根据你点的菜,一次性把几道菜同时端上来。

3. 它是如何做到的?(核心机制:双通道解码)

为了让这种“乱序”画画变得可行,ARPG 设计了一个巧妙的**“双通道”工作流程**,就像一位**“总指挥”和一位“执行画家”**的配合:

  1. 第一通道(总指挥/内容库):

    • 这位“总指挥”先把画布上已经画好的部分(已知的信息)全部看一遍,整理成一份详细的“记忆库”(Key-Value 缓存)。
    • 关键点:它只负责理解已有的内容,不负责预测新内容。这就像把画好的部分拍下来,存进大脑里。
  2. 第二通道(执行画家/位置向导):

    • 这位“执行画家”手里拿着一张**“任务清单”**。清单上写着:“现在我要画第 5 行第 3 列的花”、“现在我要画第 2 行第 8 列的鸟”。
    • 这些“任务清单”就是论文里说的**[MASK] 令牌**(带位置信息的占位符)。
    • 画家看着“任务清单”,直接去“总指挥”的“记忆库”里找灵感,然后同时把清单上要求的几个地方画出来。

为什么这样厉害?

  • :因为可以一次画好几个地方(并行),速度比旧方法快了30 倍
  • 省内存:它不需要把整个画布的所有信息都反复计算,只保留必要的“记忆库”,内存占用减少了75%
  • 灵活(零样本泛化):这是最酷的一点。因为画家是看“位置清单”来画的,而不是死记硬背顺序。
    • 修图(Inpainting):如果你把画中间挖个洞,给画家一张“补全中间”的清单,他就能补上。
    • 扩图(Outpainting):如果你把画布变大,给画家一张“画右边空白”的清单,他就能画出来。
    • 以前这些任务需要专门训练,现在 ARPG 不需要额外训练,直接就能做!

4. 实际效果怎么样?

论文里的实验数据非常漂亮:

  • 质量高:画出来的图非常逼真,清晰度(FID 分数)超过了之前的很多顶尖模型。
  • 速度快:以前画一张图可能要等很久,现在几秒钟就能搞定。
  • 功能多:不仅能画图,还能根据文字描述画图(文生图),还能根据草图、深度图控制画面风格。

总结

简单来说,ARPG 就像给 AI 画家装上了**“多线程处理”的大脑和“位置导航”系统。它不再死板地按顺序画画,而是能同时**处理画布上的多个任务。

  • 以前:像蜗牛爬,只能一步一步走,走错了很难回头。
  • 现在:像蜘蛛侠,可以在画布的任意位置跳跃,同时处理多个任务,既快又准,还能随时修补或扩展画面。

这项技术让 AI 生成图像变得更高效、更灵活,未来我们可能能瞬间生成超高清的复杂图像,或者像玩拼图一样随意修改和扩展任何图片。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →