Each language version is independently generated for its own context, not a direct translation.

絵を描くように画像を作る：新しい AI 技術「NVG」の解説

この論文は、AI が画像を生成する（描く）新しい方法を提案しています。従来の AI は、画像を「1 つの大きな塊」として扱ったり、文字の羅列のように「左から右へ順番に」作ったりしていましたが、この新しい方法（NVG：Next Visual Granularity Generation）は、「絵画の制作プロセス」に非常に近い、より自然で制御しやすいアプローチを採用しています。

わかりやすくするために、**「巨大なモザイク画」や「スケッチから完成図へ」**という例えを使って説明します。

1. 従来の AI との違い：なぜ新しい方法が必要なのか？

従来の方法（文字のように読む）：
多くの AI は、画像を「左端から右端へ、上から下へ」と、まるで文章を読むように 1 つずつピクセル（画素）を決めていきます。
- 問題点: 最初の段階で少し間違えると、その誤りが後々まで積み重なって、最終的な画像が崩れてしまうことがあります（「 exposure bias」と呼ばれる問題）。また、全体像を把握せずに細部だけを描き進めるため、構図がバラバラになりがちです。
NVG の方法（絵を描くように）：
この新しい AI は、画家が絵を描くように、**「全体像（スケッチ）→ 大まかな形 → 細部」**という順序で描いていきます。
- メリット: 最初に全体の構図を決めてから、徐々に詳細を追加していくため、誤りが蓄積されにくく、意図した通りの構図で美しい画像が作れます。

2. NVG の仕組み：3 つのステップで描く「モザイク画」

この AI は、画像を「解像度」ではなく、**「情報の粒さ（Granularity）」**で段階的に作っていきます。

ステップ 1：下書き（構造マップの生成）

まず、AI はキャンバスに**「どこに何があるか」の簡易な地図（構造マップ）**を描きます。

例え: 画家がキャンバスに「ここに犬、そこに木」と、ただの丸や四角でざっくりと配置を決めるようなものです。
この段階では、色や形は決まっていませんが、「犬が左、木が右」という骨組みが決まります。AI はこの「骨組み」を最初に生成し、その後の作業をガイドします。

ステップ 2：大まかな色付け（粗い粒の追加）

次に、その骨組みに合わせて、**「大きな色塊」**を埋めていきます。

例え: 犬の部分は茶色、空の部分は青、というように、大きなパレットで色を塗っていきます。
このとき、AI は「犬の形」や「空の広がり」といった中程度の詳細を表現します。

ステップ 3：細部の描き込み（細かい粒の追加）

最後に、**「極細の粒」**を追加して、画像を完成させます。

例え: 犬の毛並みの一本一本、木の葉の脈、光の反射など、微細なディテールを丁寧に描き足していきます。
これにより、画像は鮮明で高品質なものになります。

3. この技術のすごいところ（メリット）

🎨 自由自在な「構図コントロール」

従来の AI は「犬を描いて」と言うと、犬の位置やポーズを AI が勝手に決めてしまいます。
しかし、NVG は**「構造マップ」を人間が指定できる**ため、以下のようなことが可能です。

「犬を左に、木を右に配置して」という図面を与えれば、AI はその図面に忠実に犬と木を描きます。
別の画像の「構図（骨組み）」をそのまま使いながら、中身（犬を猫に変えるなど）だけを変更することもできます。まるで**「型（金型）」**を使って、中身だけ変えて新しい製品を作るような感覚です。

📈 規模を大きくすればするほど上手くなる

この技術は、モデル（AI の頭脳）を大きくすればするほど、性能が劇的に向上することが実験で確認されました。

従来の方法では、モデルを大きくしても性能が頭打ちになることがありましたが、NVG は**「スケールアップ（規模拡大）」に非常に強い**という特徴があります。

⚡ 高速で高品質

画像生成のステップ数が従来の方法より少なく、かつ、より少ない計算資源（メモリ）で、高品質な画像を生成できます。

4. まとめ：AI 画像生成の「次の進化」

この論文が提案する**NVG（Next Visual Granularity Generation）は、AI に「画像を文字列として処理する」のではなく、「絵を描くように、全体から細部へ、構図から詳細へ」**という人間の直感的なプロセスを学習させた画期的な技術です。

従来の AI: 文字を並べて文章を作るように、一歩ずつ進んでいく（失敗が蓄積しやすい）。
NVG の AI: 画家のように、まず下書きを描き、次に大まかな色を塗り、最後に細部を仕上げていく（失敗が少なく、意図を反映しやすい）。

この技術は、デザイン、科学的可視化、あるいは単に「思い通りの画像を簡単に作りたい」というすべての人にとって、AI 画像生成の未来を大きく変える可能性を秘めています。

Each language version is independently generated for its own context, not a direct translation.

論文「NEXT VISUAL GRANULARITY GENERATION」の技術的サマリー

本論文は、ICLR 2026 にて発表された「Next Visual Granularity (NVG) Generation」と呼ばれる新しい画像生成フレームワークを提案するものです。従来の画像生成モデルが抱える課題を解決し、構造化された視覚的粒度（granularity）のシーケンスを用いて、粗い構造から細かい詳細へと段階的に画像を生成する手法を確立しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

既存の画像生成モデルには、それぞれ異なるアプローチと限界が存在します。

トークンベースのモデル（自己回帰型など）: 画像を「文」として扱い、1 次元のシーケンスとして処理します。これにより、画像本来の 2 次元空間構造が無視されやすく、初期トークンの生成時に誤差が蓄積する（Exposure Bias）問題や、異なる意味を持つ近隣視覚情報の混同が発生する可能性があります。
拡散モデルやフローモデル: 高次元の確率分布をモデル化しますが、生成プロセスの制御には追加モジュールや微調整が必要であり、構造制御がプロセスに統合されていない場合が多いです。
既存の視覚的自己回帰モデル（VAR など）: 解像度のピラミッド構造を用いますが、初期段階で単一のトークンが広範で意味的に多様な領域を表すため、表現の曖昧さが残ります。

これらの課題に対し、**「画像を構造化されたシーケンスとして分解し、各段階で異なる粒度（ユニークトークンの数）を持つことで、粗い構造から細かい詳細へと自然に生成する」**という新たなアプローチが求められていました。

2. 提案手法：Next Visual Granularity (NVG)

NVG は、画像を「構造マップ（Structure Map）」と「コンテンツトークン（Content Tokens）」のペアからなる階層的なシーケンスとして表現・生成します。

2.1 視覚的粒度シーケンスの構築 (Visual Granularity Sequence Construction)

多粒度量子化オートエンコーダ: 画像を潜在空間 $Z$ にエンコードし、それを複数の段階（Stage）に分解します。
階層的クラスタリング: 最微細な粒度（各ピクセル/トークンが一意）から始まり、類似したトークンをクラスタリングして統合していく「ボトムアップ」戦略を採用します。
- 各段階 $i$ において、潜在空間は $n_i$ 個のユニークトークン（コンテンツ $c_i$ ）で表現され、それらの配置は構造マップ $s_i$ （各位置のトークンインデックス）によって定義されます。
- 例：$256^2 $の画像の場合、段階 0 では 1 つのクラスタ（全体）、段階 1 では 2 つ、...、最終段階では多数のクラスタというように、ユニークトークンの数が$ 2^i$ 倍に増加します。
残差学習: 各段階のコンテンツは、前の段階までの累積画像と真の画像との「誤差（量子化誤差）」を予測する形で構築されます。これにより、各段階が特定の粒度レベルの詳細を追加する役割を担います。

2.2 生成パイプライン

NVG は、構造マップの生成とコンテンツの生成を分離して行う 2 段階のプロセスを採用します。

構造生成 (Structure Generation):
- 入力：クラス条件、現在のキャンバス、構造埋め込み。
- 手法：軽量な Rectified Flow モデルを使用。
- 特徴：段階 0 から最終段階までの階層的構造を一度に予測するのではなく、既知の前の段階の構造を固定し、次の段階の構造を「インペインティング（埋め込み）」タスクとして生成します。これにより、コールドスタート問題を回避し、構造の多様性を保ちつつ安定した生成を実現します。
- 構造埋め込みは、親・子関係を保存し、段階を区別するための階層的ビットベクトル（0, 1, 2 を使用）として設計されています。
コンテンツ生成 (Content Generation):
- 入力：構造マップ、テキスト条件、現在のキャンバス。
- 手法：Transformer ベースのモデル。
- 特徴：次のトークンを予測するのではなく、**「最終的な完成画像」**を直接予測します。その後、予測された完成画像と現在のキャンバスの差分（残差）を計算し、現在の段階のコンテンツトークンを導出します。
- 構造認識 RoPE (Rotary Position Embedding): トークンの階層的構造（どのクラスタに属するか）を位置エンコーディングに組み込み、モデルが画像の空間的・構造的関係性を理解できるようにしています。

3. 主要な貢献

構造化された粗から細への生成: 画像生成を、前景・背景の分離、物体の形状、物体の部分、そして微細な詳細へと進む自然なプロセスとしてモデル化しました。
明示的な構造制御: 生成プロセス自体に構造マップを統合し、追加の条件モジュールなしで、生成中の粒度レベルを制御可能にしました。
表現の曖昧性の解消: 従来の VAR などの初期段階での「広範なトークン」の曖昧さを、粒度に基づいた分解により解消し、各トークンの意味を明確化しました。
スケーラビリティの証明: 異なるサイズのモデル（NVG-d16, d20, d24）を ImageNet で訓練し、モデルサイズが大きくなるにつれて性能が向上する明確なスケーリング則を確認しました。

4. 実験結果

ImageNet 256x256 のクラス条件付き画像生成タスクにおいて、最先端モデルと比較評価を行いました。

定量的評価:
- FID (Fréchet Inception Distance): NVG は VAR シリーズをすべてのモデルサイズで上回りました。
  - NVG-d16: 3.03 (VAR-d16: 3.30)
  - NVG-d20: 2.44 (VAR-d20: 2.57)
  - NVG-d24: 2.06 (VAR-d24: 2.09)
- IS (Inception Score) と Recall: これらの指標でも VAR よりも優れた、あるいは同等の性能を達成しました。
- 効率性: 学習ステップ数やパラメータ数を抑えつつ、高い性能を達成しています。推論コストも拡散モデル（SiT-X など）や大規模な自己回帰モデル（IBQ-XXL など）と比較して低く抑えられています。
定量的・定性的分析:
- 構造制御: 単純な幾何学的形状や参照画像の構造マップを入力として与えることで、その構造に従った多様な画像を生成できることを確認しました。
- 極端なケースへの頑健性: 構造マップが不明瞭な場合や、複数の物体が混在する場合でも、モデルは全体像を捉え、段階的に詳細を修正して高品質な画像を生成できました。
- 再構成性能: 使用したトークナイザは、少ないユニークトークン数で VAR よりも高い再構成品質（rFID）を達成しました。

5. 意義と将来展望

NVG は、画像生成において「構造」と「内容」を階層的かつ反復的に精化する新しいパラダイムを提供します。

制御性の向上: 生成プロセスの各段階で粒度を制御できるため、デザイン、科学可視化、物理法則に基づく動画生成など、構造や階層性が重要な分野での応用が期待されます。
将来の課題: 構造生成ステップの高速化（フローマッチングモデルの改善）、より解釈可能な領域分割のための高度なクラスタリング手法の導入、および領域ごとの生成制御（Region-Aware Generation）への展開が今後の課題として挙げられています。

総じて、NVG は画像を「平らなデータ」としてではなく、「構造化された視覚的粒度のシーケンス」として扱うことで、生成の品質と制御性を同時に向上させた画期的なアプローチです。

Next Visual Granularity Generation