DiffusionNFT: Online Diffusion Reinforcement with Forward Process

本論文は、拡散モデルのオンライン強化学習において、従来のサンプリング軌道や尤度推定に依存せず、フローマッチングを用いた前向きプロセス上で正負生成を比較する「DiffusionNFT」を提案し、これにより計算効率の大幅な向上と Classifier-Free Guidance 不要での高性能化を実現したことを述べています。

Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu

公開日 2026-02-17
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

絵を描く AI が「上手くなる」新しい方法:DiffusionNFT の解説

この論文は、AI が絵を描く技術(拡散モデル)を、より上手に、より効率的に教えるための新しい方法「DiffusionNFT」を紹介しています。

従来の方法にはいくつかの「面倒な問題」がありましたが、この新しい方法はそれらをすべて解決し、**「正解と不正解を比べるだけで、AI が劇的に成長する」**というシンプルで強力なアプローチを採用しています。

以下に、専門用語を排して、日常の例え話を使って解説します。


1. 従来の方法の「悩み」:なぜ難しいのか?

AI が絵を描くとき、従来の「強化学習(RL)」という教え方は、**「逆さまの迷路」**を解くようなものでした。

  • 従来のやり方(FlowGRPO など):
    AI は「ノイズだらけの絵」から「きれいな絵」を作る過程(逆プロセス)を、一歩ずつ細かく計算しながら学習します。
    • 問題点 1(計算が重すぎる): 一歩一歩の確率を正確に計算しようとするため、非常に時間がかかります。
    • 問題点 2(解き方の制限): 特定の計算方法(SDE という解き方)しか使えないため、もっと速い解き方(ODE など)が使えません。
    • 問題点 3(二重の作業): 絵を上手に描くために「条件付きモデル」と「条件なしモデル」の 2 つを同時に訓練する必要があり、複雑で非効率でした。

まるで、**「ゴールにたどり着くまで、一歩一歩の足跡をすべて記録して、その確率を計算しながら歩く」**ような、非常に疲れる学習方法でした。


2. 新手法「DiffusionNFT」のアイデア:「正解と不正解」の比較

この論文が提案する「DiffusionNFT」は、**「逆さまの迷路」ではなく、「最初から見た景色」**に注目します。

比喩:料理の味見

AI が絵を描くプロセスを「料理」に例えてみましょう。

  • 従来の方法:
    料理が完成するまで、鍋の中の具材がどう変化するかを、化学反応式を使って厳密に計算しながら味見を繰り返す。「この瞬間の塩分濃度が A なら、次の瞬間は B になる確率は C%...」と計算しすぎて、料理が冷めてしまいます。

  • DiffusionNFT の方法:
    「美味しい料理(正解)」と「まずい料理(不正解)」を並べて比べるだけです。

    1. AI に同じ材料(プロンプト)で 10 枚の絵を描かせます。
    2. 評価者が「これは美味しい(高評価)」「これはまずい(低評価)」と判断します。
    3. 「美味しい方」と「まずい方」の違いを見て、「次は美味しい方に近づけ、まずい方から離れよう」という方向性を AI に教えます。

この方法は、「料理が完成するまでの過程(逆プロセス)」を計算する必要がありません。 最終的に出来上がった「美味しい料理」と「まずい料理」の差から、AI が「どう動けばいいか」を直感的に学びます。


3. この方法のすごいポイント(3 つのメリット)

① どの「解き方」を使っても OK(柔軟性)

従来の方法は、特定の計算ルール(SDE)に縛られていましたが、DiffusionNFT は**「黒箱(ブラックボックス)」の解き方なら何でも使えます。**

  • 例え: 従来の方法は「自転車しか乗れない」でしたが、DiffusionNFT は「自転車、バイク、車、飛行機、どれに乗ってもゴールにたどり着ける」ようなものです。これにより、より高速で高品質な絵を描くことができます。

② 記憶不要(効率化)

従来の方法は、一歩一歩の足跡(サンプリング経路)をすべて記憶して計算する必要がありましたが、DiffusionNFT は**「完成した絵(きれいな画像)」と「評価点」だけ**があれば学習できます。

  • 例え: 従来の方法は「登山の全行程をビデオ撮影して分析」が必要でしたが、DiffusionNFT は「頂上に着いた時の写真と、その評価」だけで「次はどう登ればよいか」を学べます。これにより、計算リソースが最大 25 倍も節約されました。

③ 特別な「補助線」が不要(CFG 不要)

従来の AI は、上手に描くために「条件なしモデル」という別の先生(CFG)を常に傍らに置いて、指示を出してもらう必要がありました。

  • 例え: 従来の方法は「先生(条件付き)と助手(条件なし)の 2 人で教える」必要がありましたが、DiffusionNFT は**「先生一人だけで、正解と不正解を比べることで、自然と上手になる」**ことができます。
    • 結果:設定がシンプルになり、学習速度も劇的に向上しました。

4. 実際の成果:どれくらい速い?

実験結果は驚異的です。

  • GenEval(画像生成のテスト):
    • 従来の方法(FlowGRPO): 5,000 回以上の学習と、複雑な設定(CFG)を使って、スコア 0.95 を達成。
    • DiffusionNFT: 1,000 回以下の学習と、**設定なし(CFG 不要)**で、スコア 0.98 を達成。
    • 結論: 従来の方法の約 25 倍の速さで、かつより高い精度を達成しました。

また、SD3.5-Medium というモデルを、複数の評価基準(文字の正確さ、美しさ、人間好みの評価など)で同時に訓練したところ、CFG を使った巨大モデルよりも高い性能を発揮しました。


まとめ

DiffusionNFTは、AI に絵を描かせる学習方法を、「複雑な計算と記憶」から「正解と不正解の比較」へとシンプル化した画期的な技術です。

  • 従来の方法: 重くて遅く、複雑な設定が必要。
  • 新しい方法(DiffusionNFT): 軽く速く、シンプルで、どんな高性能な計算機(ソルバー)とも相性が良い。

これは、AI が「正解と不正解の差」から直接学ぶことで、従来の「確率計算」の壁を乗り越え、より自然で効率的に成長できる道を開いたと言えます。まるで、**「料理のレシピを暗記するのではなく、美味しい味とまずい味の違いを舌で覚えて、自然と料理が上手くなる」**ような、直感的で強力な学習法なのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →