Autoregressive Image Generation with Randomized Parallel Decoding

本論文は、従来の走査順序の制約を打破し、位置情報の明示的なガイダンスとコンテンツ表現を分離する新規なデカップリング復号フレームワーク「ARPG」を提案することで、画像生成の推論効率とゼロショット汎化性能を大幅に向上させることを示しています。

Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ARPG(オートレグレッシブ・パラレル・デコーディング)」**という新しい画像生成の仕組みを紹介しています。

従来の画像生成 AI は、まるで**「一列に並んだレトロな工場のベルトコンベア」**のように、画像の左上から右下へ、ピクセル(画素)を一つずつ順番に作っていました。これは「次の単語を予測する」という言語モデルの考え方を画像にそのまま当てはめたものです。

しかし、この「順番に一つずつ作る」方法には大きな欠点がありました。

  1. 遅い: 画像が大きいほど、作るのに時間がかかる。
  2. 柔軟性がない: 「ここだけ塗り直して(インペインティング)」や「ここだけ外に広げて(アウトペインティング)」といった、順序を無視した作業が苦手。

ARPG は、この問題を**「ランダムな順序で、同時に複数の場所を並行して作る」**という発想で解決しました。

以下に、この仕組みをわかりやすく解説します。


🎨 従来の方法 vs ARPG の仕組み

1. 従来の方法:「一人の職人が順番に描く」

従来の AI は、**「左端から右へ、上から下へ」**という決まったルール(ラスタースキャン)で、一筆書きのように画像を描いていました。

  • デメリット: 1 回に 1 箇所しか描けないので、高画質な画像を作るには何百回も繰り返す必要があり、非常に時間がかかります。また、「描き途中の右側を消して、左側から描き直したい」といった自由な作業ができません。

2. ARPG の方法:「大勢の職人が同時に描く」

ARPG は、**「どこから描いてもいいし、同時に何箇所も描いていい」というルールに変えました。まるで、巨大なキャンバスを複数の職人が分担して、「ここは空、ここは木、ここは山」**と、必要な場所を同時に塗りつぶしていくようなイメージです。


🔑 3 つの重要な工夫(魔法の仕組み)

この「同時進行」を実現するために、ARPG は 3 つの工夫をしています。

① 「場所の指示」と「中身」を分ける(デカップリング)

  • 従来の悩み: 「どこを描くか(位置)」と「何を描くか(内容)」を混ぜて考えると、AI が混乱して計算が重くなります。
  • ARPG の工夫:
    • Pass 1(下準備): まず、すでに描かれている部分の「中身(色や形の情報)」だけをまとめて、**「知識のデータベース(KV キャッシュ)」**を作ります。
    • Pass 2(描画): 次に、「ここを描いて」という**「場所の指示(クエリ)」**だけを AI に渡します。AI は、データベースから必要な情報を読み取り、指示された場所を同時に描き出します。
    • 例え話: 料理で言えば、まず「具材(野菜、肉)」をすべて洗って切っておく(Pass 1)。そして、「炒める場所」と「煮込む場所」を同時に指示して、複数の鍋で同時に調理する(Pass 2)ような感じです。

② 「マスク」を指示役にする

  • 描くべき場所を AI に教えるために、**「[MASK](マスク)」という特別なトークンを使います。これは「ここは空白です、埋めてください」という「注文書」**のような役割を果たします。
  • この注文書には「どの場所(座標)」の情報が入っています。AI はこの注文書を見て、データベースから必要な情報を持ってきて、一瞬で答えを返します。

③ 並列処理で爆速化

  • 一度に「ここ」「そこ」「あそこ」と複数の注文書を出せば、AI はそれらを同時に処理できます。
  • 従来の方法が「1 回で 1 個」だったのが、ARPG は「1 回で 32 個」や「64 個」を同時に作れます。これにより、処理速度が最大 30 倍になり、メモリ(作業スペース)も 75% 節約できました。

🌟 ARPG がすごい点(メリット)

  1. 圧倒的な速さ:

    • 高画質な画像を生成するまでの時間が、従来の方法に比べて30 倍短縮されました。
    • 従来の「並列生成」モデルよりも、メモリ使用量が少なく、効率的です。
  2. 自由自在な編集(ゼロショット一般化):

    • 特別な学習をしなくても、「画像の一部を消して埋める(インペインティング)」「画像の端から外側を広げる(アウトペインティング)」、**「解像度を上げる」**といった作業が、最初から得意です。
    • 例え話: 従来の AI は「本を 1 行ずつ読む」ので、途中の行を消すのが苦手ですが、ARPG は「本の内容を頭の中で自由に組み立てられる」ので、好きなページを消したり、新しいページを追加したりするのが得意です。
  3. 高品質:

    • 速いだけでなく、画像の質(FID スコア)も業界最高水準を記録しました。

💡 まとめ

この論文は、**「画像生成 AI を、一列に並んだベルトコンベアから、自由な発想で同時に作業できる大工集団へと進化させた」**と言えます。

  • 位置情報内容を分けて考えることで、AI が混乱せずに高速に作業できるようになりました。
  • これにより、**「速さ」「高画質」「自由な編集」**をすべて兼ね備えた、次世代の画像生成技術が実現しました。

まるで、一人の職人が何時間もかけて描いていた絵を、大勢の職人が協力して数秒で完成させ、さらに途中の修正も自由自在に行えるようになったような、画期的な技術なのです。