Each language version is independently generated for its own context, not a direct translation.

絵を描く AI が「上手くなる」新しい方法：DiffusionNFT の解説

この論文は、AI が絵を描く技術（拡散モデル）を、より上手に、より効率的に教えるための新しい方法「DiffusionNFT」を紹介しています。

従来の方法にはいくつかの「面倒な問題」がありましたが、この新しい方法はそれらをすべて解決し、**「正解と不正解を比べるだけで、AI が劇的に成長する」**というシンプルで強力なアプローチを採用しています。

以下に、専門用語を排して、日常の例え話を使って解説します。

1. 従来の方法の「悩み」：なぜ難しいのか？

AI が絵を描くとき、従来の「強化学習（RL）」という教え方は、**「逆さまの迷路」**を解くようなものでした。

従来のやり方（FlowGRPO など）：
AI は「ノイズだらけの絵」から「きれいな絵」を作る過程（逆プロセス）を、一歩ずつ細かく計算しながら学習します。
- 問題点 1（計算が重すぎる）： 一歩一歩の確率を正確に計算しようとするため、非常に時間がかかります。
- 問題点 2（解き方の制限）： 特定の計算方法（SDE という解き方）しか使えないため、もっと速い解き方（ODE など）が使えません。
- 問題点 3（二重の作業）： 絵を上手に描くために「条件付きモデル」と「条件なしモデル」の 2 つを同時に訓練する必要があり、複雑で非効率でした。

まるで、**「ゴールにたどり着くまで、一歩一歩の足跡をすべて記録して、その確率を計算しながら歩く」**ような、非常に疲れる学習方法でした。

2. 新手法「DiffusionNFT」のアイデア：「正解と不正解」の比較

この論文が提案する「DiffusionNFT」は、**「逆さまの迷路」ではなく、「最初から見た景色」**に注目します。

比喩：料理の味見

AI が絵を描くプロセスを「料理」に例えてみましょう。

従来の方法：
料理が完成するまで、鍋の中の具材がどう変化するかを、化学反応式を使って厳密に計算しながら味見を繰り返す。「この瞬間の塩分濃度が A なら、次の瞬間は B になる確率は C%...」と計算しすぎて、料理が冷めてしまいます。
DiffusionNFT の方法：
「美味しい料理（正解）」と「まずい料理（不正解）」を並べて比べるだけです。
1. AI に同じ材料（プロンプト）で 10 枚の絵を描かせます。
2. 評価者が「これは美味しい（高評価）」「これはまずい（低評価）」と判断します。
3. 「美味しい方」と「まずい方」の違いを見て、「次は美味しい方に近づけ、まずい方から離れよう」という方向性を AI に教えます。

この方法は、「料理が完成するまでの過程（逆プロセス）」を計算する必要がありません。 最終的に出来上がった「美味しい料理」と「まずい料理」の差から、AI が「どう動けばいいか」を直感的に学びます。

3. この方法のすごいポイント（3 つのメリット）

① どの「解き方」を使っても OK（柔軟性）

従来の方法は、特定の計算ルール（SDE）に縛られていましたが、DiffusionNFT は**「黒箱（ブラックボックス）」の解き方なら何でも使えます。**

例え： 従来の方法は「自転車しか乗れない」でしたが、DiffusionNFT は「自転車、バイク、車、飛行機、どれに乗ってもゴールにたどり着ける」ようなものです。これにより、より高速で高品質な絵を描くことができます。

② 記憶不要（効率化）

従来の方法は、一歩一歩の足跡（サンプリング経路）をすべて記憶して計算する必要がありましたが、DiffusionNFT は**「完成した絵（きれいな画像）」と「評価点」だけ**があれば学習できます。

例え： 従来の方法は「登山の全行程をビデオ撮影して分析」が必要でしたが、DiffusionNFT は「頂上に着いた時の写真と、その評価」だけで「次はどう登ればよいか」を学べます。これにより、計算リソースが最大 25 倍も節約されました。

③ 特別な「補助線」が不要（CFG 不要）

従来の AI は、上手に描くために「条件なしモデル」という別の先生（CFG）を常に傍らに置いて、指示を出してもらう必要がありました。

例え： 従来の方法は「先生（条件付き）と助手（条件なし）の 2 人で教える」必要がありましたが、DiffusionNFT は**「先生一人だけで、正解と不正解を比べることで、自然と上手になる」**ことができます。
- 結果：設定がシンプルになり、学習速度も劇的に向上しました。

4. 実際の成果：どれくらい速い？

実験結果は驚異的です。

GenEval（画像生成のテスト）：
- 従来の方法（FlowGRPO）： 5,000 回以上の学習と、複雑な設定（CFG）を使って、スコア 0.95 を達成。
- DiffusionNFT： 1,000 回以下の学習と、**設定なし（CFG 不要）**で、スコア 0.98 を達成。
- 結論： 従来の方法の約 25 倍の速さで、かつより高い精度を達成しました。

また、SD3.5-Medium というモデルを、複数の評価基準（文字の正確さ、美しさ、人間好みの評価など）で同時に訓練したところ、CFG を使った巨大モデルよりも高い性能を発揮しました。

まとめ

DiffusionNFTは、AI に絵を描かせる学習方法を、「複雑な計算と記憶」から「正解と不正解の比較」へとシンプル化した画期的な技術です。

従来の方法： 重くて遅く、複雑な設定が必要。
新しい方法（DiffusionNFT）： 軽く速く、シンプルで、どんな高性能な計算機（ソルバー）とも相性が良い。

これは、AI が「正解と不正解の差」から直接学ぶことで、従来の「確率計算」の壁を乗り越え、より自然で効率的に成長できる道を開いたと言えます。まるで、**「料理のレシピを暗記するのではなく、美味しい味とまずい味の違いを舌で覚えて、自然と料理が上手くなる」**ような、直感的で強力な学習法なのです。

Each language version is independently generated for its own context, not a direct translation.

DiffusionNFT: フォワードプロセスに基づくオンライン拡散強化学習の技術的サマリー

本論文「DiffusionNFT: Online Diffusion Reinforcement with Forward Process」は、拡散モデル（Diffusion Models）に対するオンライン強化学習（RL）の新たなパラダイムを提案するものです。従来の手法が抱える根本的な課題を解決し、尤度推定や複雑なサンプリング経路の保存を不要にしながら、効率的かつ高性能なモデル微調を実現します。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と問題定義

大規模言語モデル（LLM）のポストトレーニングにおいて、オンライン強化学習（RL）は極めて重要な役割を果たしていますが、視覚生成における拡散モデルへの適用には以下の重大な課題がありました。

尤度の計算不可能性: 従来の方策勾配法（PPO や GRPO など）はモデルの尤度が計算可能であることを前提としています。しかし、拡散モデルでは正確な尤度の計算が困難であり、近似に依存せざるを得ません。
既存手法（FlowGRPO など）の限界:
1. フォワードプロセスとの不一致: 逆サンプリングプロセスのみを最適化すると、拡散モデルが本来持つフォワードプロセス（ノイズ付加プロセス）の確率密度関数（Fokker-Planck 方程式）との整合性が崩れ、モデルが劣化するリスクがあります。
2. ソルバーの制約: 既存の RL 手法は、確率的な SDE（Stochastic Differential Equation）ソルバーに依存しており、流体力学的な ODE ソルバーや高次ソルバーの利点（生成効率など）を活かせません。
3. CFG（Classifier-Free Guidance）との統合の複雑さ: 拡散モデルは通常、条件付きモデルと無条件モデルの両方を学習して CFG を用いますが、RL 微調においてこれを効率的に統合するのは困難で非効率です。

2. 提案手法：DiffusionNFT

著者らは、Diffusion Negative-aware Fine-Tuning (DiffusionNFT) という新しいオンライン RL パラダイムを提案しました。これは、従来の逆プロセス（サンプリング）ではなく、フォワードプロセス（ノイズ付加プロセス） に直接 RL を適用するアプローチです。

2.1 核心的なアイデア

フォワードプロセスでの最適化: 拡散モデルは単一のフォワードプロセス（ノイズ付加）を持ちますが、複数の逆プロセス（サンプリング）を持ちます。DiffusionNFT は、サンプリングプロセスを変更することなく、フォワードプロセスの学習目標（フローマッチング）を直接最適化します。
正負の対比による方策改善: 報酬信号に基づいて生成された画像を「正（Positive）」と「負（Negative）」に分割し、両者の分布差（方策改善方向 $\Delta$ $Δ$ ）を定義します。
- 正のデータ ( $D^+$ ): 高報酬の画像
- 負のデータ ( $D^-$ ): 低報酬の画像
暗黙的な方策パラメータ化: 2 つの独立したモデル（正用と負用）を学習するのではなく、単一のモデル $v_\theta$ に対して、正と負のデータに対して異なる「暗黙的な方策（Implicit Policy）」を定義して学習を行います。

2.2 学習目標とアルゴリズム

学習目標関数は、正と負のデータに対してそれぞれ異なる速度予測器（Velocity Predictor）をターゲットとして最小化する形式をとります。

$\mathcal{L}(\theta) = \mathbb{E}_{c, \pi_{old}, t} \left[ r \| v^+_\theta - v \|^2 + (1-r) \| v^-_\theta - v \|^2 \right]$

ここで、

$v$ : 真の速度（ターゲット）
$v^+_\theta = (1-\beta)v_{old} + \beta v_\theta$ （正の暗黙的方策）
$v^-_\theta = (1+\beta)v_{old} - \beta v_\theta$ （負の暗黙的方策）
$r$ : 正規化された報酬（正の確率）
$\beta$ : ガイダンス強度のハイパーパラメータ

この定式化により、モデルは正の分布に近づきつつ、負の分布から遠ざかる方向に更新されます。

2.3 実装上の特徴

ブラックボックスソルバーの自由: サンプリング時に任意のソルバー（高次 ODE など）を使用可能で、学習とサンプリングが完全に分離されます。
尤度不要（Likelihood-Free）: 尤度推定や重み付けの近似が不要であり、バイアスがありません。
CFG 不要: 学習中に CFG を使用せず、単一の条件付きモデルのみで学習を開始します。RL によって CFG の効果自体を学習させることで、推論時の CFG 使用を不要にします。
オフポリシー学習: 過去のサンプリングデータ（クリーン画像と報酬のみ）を再利用可能であり、サンプリング経路全体を保存する必要がありません。

3. 主要な貢献

新しい RL パラダイムの提案: 拡散モデルの RL 微調を「逆プロセス」から「フォワードプロセス」へ転換し、フローマッチングの枠組み内で RL を統合しました。
理論的保証: 正負のデータ分布の対比から導かれる方策改善方向が、理論的に正当化されており、モデルが有効なフォワードプロセスを維持することを保証します。
実用的な利点:
- 効率性: 既存手法に比べ、サンプリング経路の保存や尤度計算が不要なため、計算コストが大幅に削減されます。
- 柔軟性: 任意のソルバーに対応可能。
- シンプルさ: 既存の拡散モデル学習コードベースへの適用が容易です。

4. 実験結果

SD3.5-Medium モデルを用いた実験で、DiffusionNFT の有効性が示されました。

FlowGRPO との比較（GenEval タスク）:
- 効率性: FlowGRPO が 5k ステップ以上と CFG 使用で 0.95 のスコアを達成したのに対し、DiffusionNFT は 1k ステップ以内で 0.98 を達成しました。これは 最大 25 倍の効率向上 です。
- CFG 不要: DiffusionNFT は CFG を使用せず、単一のモデルで CFG 使用モデルを上回る性能を発揮しました。
マルチ報酬学習:
- GenEval, OCR, PickScore, ClipScore, HPSv2.1 などの複数の報酬モデルを用いた同時学習において、SD3.5-Medium はすべてのベンチマークで大幅な性能向上を示しました。
- 結果として、CFG 使用の SD3.5-L（8B パラメータ）や FLUX.1-Dev（12B パラメータ）をも凌駕する性能を、2.5B パラメータのモデルで達成しました。
アブレーション研究:
- 負のデータ損失の重要性: 負のデータ（ $D^-$ ）を学習に含めない場合、オンライン学習中に報酬が即座に崩壊することが確認されました（LLM の RFT とは異なる挙動）。
- ソルバー: ODE ソルバー（特に 2 次）が SDE ソルバーよりも高い性能を示しました。
- ソフト更新: 方策の更新率（ $\eta$ ）を調整することで、学習の安定性と収束速度のバランスを取ることが重要です。

5. 意義と結論

DiffusionNFT は、拡散モデルにおける強化学習の課題を根本から解決する画期的な手法です。

理論的統一: 教師あり学習（Supervised Learning）と強化学習を、拡散モデルのフォワードプロセスという共通の土台で統合する道筋を示しました。
実用性の向上: 尤度推定の複雑さや SDE ソルバーへの依存を排除することで、より高速で安定した拡散モデルの微調を可能にします。
将来展望: このアプローチは、テキストから画像だけでなく、他の連続値生成タスクやマルチモーダルモデルへの拡張においても、スケーラブルで理論的に裏付けられた RL 手法として期待されます。

要約すれば、DiffusionNFT は「逆プロセスの最適化」という従来の常識を覆し、「フォワードプロセスの対比学習」によって、より効率的で強力な拡散モデルの RL 微調を実現した画期的な研究です。

DiffusionNFT: Online Diffusion Reinforcement with Forward Process