NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

この論文は、解像度に応じた段階的な生成プロセスと BridgeFlow モジュールを導入することで、画像生成の推論時間を 64% 削減しつつ高品質な結果を達成する「NAMI」と呼ばれる新しい Rectified Flow トランスフォーマーアーキテクチャを提案しています。

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

NAMI:画像生成を「時短・高品質」にする新技術の解説

この論文は、AI が絵を描くスピードを劇的に速めつつ、画質も落とさない新しい仕組み「NAMI(ナミ)」を紹介しています。

従来の AI 画像生成は、まるで**「巨大な重機で、最初から最後まで一貫して丁寧に彫刻を彫る」**ようなものでした。高画質にするには時間がかかり、計算コストも莫大でした。

NAMI は、このプロセスを**「下書き→線画→着色」**と段階的に分け、それぞれの工程に「最適な大きさの道具」を使い分けることで、64% もの時間短縮を実現しました。


🎨 3 つの魔法のステップ:NAMI の仕組み

NAMI のアイデアは、絵を描くときの人間の直感にとても近いです。

1. 低解像度ステージ:「ラフな下書き」

まず、AI は小さなキャンバス(低解像度)で、「何を描くか」の全体像だけを素早く描きます。

  • 仕組み: ここでは、巨大な脳(Transformer レイヤー)を使わず、小さな脳だけで「犬の輪郭」や「空の位置」を決めます。
  • 例え: 大きな絵を描く前に、スケッチブックに「犬がここにいて、空が上にある」というラフな下書きをするようなものです。ここは瞬時です。

2. 中解像度ステージ:「線画の整理」

次に、キャンバスを少し大きくします。

  • 仕組み: 前の段階で描いたラフな下書きを元に、少し大きな脳を追加して、輪郭をくっきりさせ、細かな配置を調整します。
  • 例え: 下書きを元に、ペン入れをして線画を完成させる段階です。

3. 高解像度ステージ:「細部の着色と仕上げ」

最後に、フルサイズのキャンバス(高解像度)に拡大します。

  • 仕組み: ここになって初めて、フルサイズの巨大な脳をフル稼働させて、毛並みの質感や光の反射など、極細のディテールを描き足します。
  • 例え: 線画が完成した後に、本格的な色塗りやハイライトを入れて、作品を完成させる段階です。

🌉 重要な橋渡し:「BridgeFlow(ブリッジフロー)」

この「下書き→線画→着色」の工程をスムーズにつなぐために、NAMI は**「BridgeFlow」**という特別な橋を架けました。

  • 問題: 通常、解像度を変えて工程をまたぐと、絵が歪んだり、色が飛んだりして、前の工程の成果が活かせないことがあります(まるで、下書きを拡大するときに線がボヤけてしまうようなもの)。
  • 解決: BridgeFlow は、**「前の工程の成果を、次の工程に完璧に引き継ぐ」**ための調整役です。
  • 例え: 下書きを拡大する際、**「拡大鏡を通しても線がブレないように、自動的に補正する魔法の枠」**のようなものです。これにより、低解像度で描いたラフなアイデアが、高解像度の完成品でも鮮明に残ります。

🚀 なぜこれほど速いのか?

従来の方法(FLUX など)は、**「最初から最後まで、巨大な脳で 100% の力を使って描く」**必要がありました。

NAMI は、**「必要な時に必要な力だけを使う」**という賢い戦略です。

  • 全体の構成を決める(下書き)には、小さな力で十分。
  • 細部を詰める(着色)時にだけ、大きな力を使う。

これにより、「無駄な計算」を大幅にカットし、1024×1024 ピクセルの高画質画像を生成する時間を64% 削減することに成功しました。


📊 評価:本当に上手いのか?

論文では、新しい評価基準「NAMI-1K」というテストも作られました。
これまでのテストは「短い指示文」ばかりでしたが、NAMI-1K は**「人間が実際に使いそうな、複雑で長い指示」**も含まれています。

  • 結果: NAMI は、パラメータ数(脳の大きさ)が同じ他の AI と比べても、**「指示に従う力」「美しさ」「現実味」**においてトップクラスの結果を出しました。
  • 特に: 12B(120 億パラメータ)という巨大なモデルに匹敵する性能を、2B(20 億パラメータ)という小型モデルで実現しています。

💡 まとめ

NAMI は、**「絵を描く工程を、下書き・線画・着色と分けて、それぞれの工程に最適なサイズの AI を使い、橋でつなぐ」**という画期的なアイデアです。

  • メリット: 圧倒的に速い(64% 短縮)、高画質、小型モデルでも高性能。
  • イメージ: 「巨大な重機で 1 日かけて彫刻をする」のではなく、「職人が下書き、彫り、磨きを分業で行い、魔法の橋でつなぐ」ことで、短時間で名作を生み出すようなもの。

この技術は、今後の AI 画像生成が「もっと手軽に、もっと速く」使えるようになるための重要な一歩となるでしょう。