Next Visual Granularity Generation

画像を空間解像度は同じだがトークン数が異なる構造列に分解し、空の画像からグローバルなレイアウトへと細部を段階的に生成する「Next Visual Granularity (NVG)」フレームワークを提案し、ImageNet における FID スコアの向上と明確なスケーリング挙動を実証した。

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

絵を描くように画像を作る:新しい AI 技術「NVG」の解説

この論文は、AI が画像を生成する(描く)新しい方法を提案しています。従来の AI は、画像を「1 つの大きな塊」として扱ったり、文字の羅列のように「左から右へ順番に」作ったりしていましたが、この新しい方法(NVG:Next Visual Granularity Generation)は、「絵画の制作プロセス」に非常に近い、より自然で制御しやすいアプローチを採用しています。

わかりやすくするために、**「巨大なモザイク画」「スケッチから完成図へ」**という例えを使って説明します。


1. 従来の AI との違い:なぜ新しい方法が必要なのか?

  • 従来の方法(文字のように読む):
    多くの AI は、画像を「左端から右端へ、上から下へ」と、まるで文章を読むように 1 つずつピクセル(画素)を決めていきます。

    • 問題点: 最初の段階で少し間違えると、その誤りが後々まで積み重なって、最終的な画像が崩れてしまうことがあります(「 exposure bias」と呼ばれる問題)。また、全体像を把握せずに細部だけを描き進めるため、構図がバラバラになりがちです。
  • NVG の方法(絵を描くように):
    この新しい AI は、画家が絵を描くように、**「全体像(スケッチ)→ 大まかな形 → 細部」**という順序で描いていきます。

    • メリット: 最初に全体の構図を決めてから、徐々に詳細を追加していくため、誤りが蓄積されにくく、意図した通りの構図で美しい画像が作れます。

2. NVG の仕組み:3 つのステップで描く「モザイク画」

この AI は、画像を「解像度」ではなく、**「情報の粒さ(Granularity)」**で段階的に作っていきます。

ステップ 1:下書き(構造マップの生成)

まず、AI はキャンバスに**「どこに何があるか」の簡易な地図(構造マップ)**を描きます。

  • 例え: 画家がキャンバスに「ここに犬、そこに木」と、ただの丸や四角でざっくりと配置を決めるようなものです。
  • この段階では、色や形は決まっていませんが、「犬が左、木が右」という骨組みが決まります。AI はこの「骨組み」を最初に生成し、その後の作業をガイドします。

ステップ 2:大まかな色付け(粗い粒の追加)

次に、その骨組みに合わせて、**「大きな色塊」**を埋めていきます。

  • 例え: 犬の部分は茶色、空の部分は青、というように、大きなパレットで色を塗っていきます。
  • このとき、AI は「犬の形」や「空の広がり」といった中程度の詳細を表現します。

ステップ 3:細部の描き込み(細かい粒の追加)

最後に、**「極細の粒」**を追加して、画像を完成させます。

  • 例え: 犬の毛並みの一本一本、木の葉の脈、光の反射など、微細なディテールを丁寧に描き足していきます。
  • これにより、画像は鮮明で高品質なものになります。

3. この技術のすごいところ(メリット)

🎨 自由自在な「構図コントロール」

従来の AI は「犬を描いて」と言うと、犬の位置やポーズを AI が勝手に決めてしまいます。
しかし、NVG は**「構造マップ」を人間が指定できる**ため、以下のようなことが可能です。

  • 「犬を左に、木を右に配置して」という図面を与えれば、AI はその図面に忠実に犬と木を描きます。
  • 別の画像の「構図(骨組み)」をそのまま使いながら、中身(犬を猫に変えるなど)だけを変更することもできます。まるで**「型(金型)」**を使って、中身だけ変えて新しい製品を作るような感覚です。

📈 規模を大きくすればするほど上手くなる

この技術は、モデル(AI の頭脳)を大きくすればするほど、性能が劇的に向上することが実験で確認されました。

  • 従来の方法では、モデルを大きくしても性能が頭打ちになることがありましたが、NVG は**「スケールアップ(規模拡大)」に非常に強い**という特徴があります。

⚡ 高速で高品質

画像生成のステップ数が従来の方法より少なく、かつ、より少ない計算資源(メモリ)で、高品質な画像を生成できます。


4. まとめ:AI 画像生成の「次の進化」

この論文が提案する**NVG(Next Visual Granularity Generation)は、AI に「画像を文字列として処理する」のではなく、「絵を描くように、全体から細部へ、構図から詳細へ」**という人間の直感的なプロセスを学習させた画期的な技術です。

  • 従来の AI: 文字を並べて文章を作るように、一歩ずつ進んでいく(失敗が蓄積しやすい)。
  • NVG の AI: 画家のように、まず下書きを描き、次に大まかな色を塗り、最後に細部を仕上げていく(失敗が少なく、意図を反映しやすい)。

この技術は、デザイン、科学的可視化、あるいは単に「思い通りの画像を簡単に作りたい」というすべての人にとって、AI 画像生成の未来を大きく変える可能性を秘めています。