DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DiffusionNFT 的新方法，旨在让 AI 绘画模型（扩散模型）变得更聪明、更听话。为了让你轻松理解，我们可以把训练 AI 绘画模型的过程想象成教一个刚学画画的“小画家”如何画出完美的画作。

1. 背景：以前的方法有什么麻烦？

想象一下，你有一个很有天赋但还没经过专业训练的“小画家”（这是预训练好的扩散模型）。你想教他画“一只在草地上奔跑的狗”。

以前的方法（像 FlowGRPO）：
以前的做法有点像让画家倒着画画。
1. 画家先画出一团乱糟糟的噪点（就像一张全是雪花点的电视屏幕）。
2. 然后他必须一步步把噪点“擦除”并变成清晰的狗。
3. 为了教他，老师（强化学习算法）会让他画很多张图，然后说：“这张画得不错，那张画得不好。”
4. 麻烦在于： 这种“倒着擦除”的过程非常复杂，就像在迷雾中走钢丝。为了教他，老师必须精确计算每一步的概率，这就像要求老师能瞬间算出“如果画家刚才多擦了一笔，现在的画面会差多少”。这不仅计算量巨大（很慢），而且如果画家用的“擦除工具”（采样器）稍微变一下，老师就教不了了。此外，以前的方法还需要画家同时练习“有提示词”和“没提示词”两种模式（CFG），这就像让画家同时戴着眼镜和蒙着眼练习，效率很低。

2. 核心创新：DiffusionNFT 是怎么做的？

这篇论文提出了 DiffusionNFT，它的核心思想非常巧妙：我们不要教画家“怎么擦除”，而是教他“怎么从干净的画面变回噪点”。

这听起来很反直觉，对吧？让我们用个比喻：

正向过程（Forward Process）： 想象画家手里有一张完美的画（干净图像），然后他故意往上面泼墨水、撒沙子，直到画变得一团糟（变成噪点）。这个过程是确定性的，就像把牛奶倒进咖啡里，你知道它是怎么变浑浊的。
DiffusionNFT 的做法：
1. 正向教学： 我们不再让画家练习“从噪点变回画”，而是让他练习“从好画变回噪点”。
2. 对比学习（正负样本）：
  - 当画家画出了一张好图（比如真的像狗），我们就把这幅图“泼墨”变脏，告诉模型：“看，这是好的起点，你要学会怎么从这种好状态出发。”
  - 当画家画出了一张烂图（比如画成了猫），我们也把它“泼墨”变脏，告诉模型：“看，这是坏的起点，你要学会避开这种状态。”
3. 隐式指导： 模型不需要同时学习“好”和“坏”两个独立的模型。它只需要学会一个方向：如何从“好”的状态出发，同时远离“坏”的状态。这就像给画家一个指南针，告诉他：“往这个方向走是天堂，往反方向走是地狱。”

3. 这个方法好在哪里？（三大优势）

A. 不需要“算概率”，速度飞快

以前的方法像是在迷雾中摸索，每一步都要计算复杂的概率公式（似然估计），非常慢。
DiffusionNFT 就像是在大晴天走路。因为它基于“正向过程”（泼墨），这个过程是数学上非常清晰的，不需要猜谜。

比喻： 以前是“盲人摸象”（算概率），现在是“看着地图走路”（直接优化）。
效果： 论文显示，它比旧方法快 25 倍！以前需要跑 5000 步才能画好的图，现在跑 1000 步就更好了。

B. 什么“画笔”都能用（解耦采样器）

以前的方法被限制只能用一种特定的“擦除工具”（SDE 采样器）。如果画家想换一种更快的工具（比如 ODE 采样器），以前的算法就教不了了。
DiffusionNFT 把“教画家”和“画家画画”分开了。

比喻： 以前是“老师必须跟着学生用的笔走”，现在是“老师只管教方向，学生爱用什么笔（甚至黑盒工具）都行”。这让训练更加灵活高效。

C. 不需要“蒙眼练习”（无 CFG）

以前的方法为了教好，必须让画家同时练习“有提示词”和“没提示词”两种模式（CFG），这就像让画家戴着眼镜练画，练完还得摘下来，很麻烦。
DiffusionNFT 发现，通过“正负对比”的学习，模型自己就能学会如何理解提示词。

比喻： 以前是“戴着眼镜练，摘了眼镜再练”，现在是“直接通过对比好坏，让画家自己悟出怎么戴眼镜”。结果发现，不戴眼镜（无 CFG）反而画得更好、更快。

4. 实际效果如何？

论文在几个著名的测试中（比如 GenEval，这是一个测试 AI 能否听懂复杂指令的考试）进行了对比：

旧方法（FlowGRPO）： 花了很长时间（5000+ 步），用了复杂的技巧（CFG），得分是 0.95。
新方法（DiffusionNFT）： 只花了很短时间（1000 步），没用复杂技巧（无 CFG），得分高达 0.98。
结论： 它不仅画得更准（比如能准确画出“一只蓝色的披萨和黄色的棒球手套”），而且训练速度快得惊人。

总结

DiffusionNFT 就像是给 AI 绘画模型换了一种更聪明的“教学法”：
它不再纠结于复杂的“倒着擦除”和概率计算，而是利用“正向泼墨”的简单逻辑，通过对比“好画”和“坏画”，直接告诉模型该往哪个方向努力。

这就好比教孩子学骑车：

旧方法： 让孩子在平衡车上反复计算重心和摩擦力，还要戴着头盔和护膝（CFG），练得很慢。
新方法： 直接告诉孩子：“往这边骑是安全的（好样本），往那边骑会摔跤（坏样本）”，孩子很快就学会了，而且骑得又稳又快，连头盔都不用戴了。

这项技术让 AI 绘画的后期训练变得更快、更简单、更强大，是迈向通用 AI 艺术创作的重要一步。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于DiffusionNFT（Diffusion Negative-aware Fine-Tuning）的论文技术总结，该论文发表于 ICLR 2026。DiffusionNFT 提出了一种针对扩散模型（Diffusion Models）的新型在线强化学习（RL）范式，旨在解决现有方法在似然估计、求解器限制及分类器自由引导（CFG）集成方面的根本性缺陷。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

尽管在线强化学习（RL）在大语言模型（LLM）的后训练中取得了巨大成功（如通过 PPO 或 GRPO 进行对齐），但将其扩展到扩散模型（用于图像生成）面临巨大挑战：

似然不可计算性：传统的策略梯度算法（Policy Gradient）依赖于精确计算模型似然，而扩散模型的似然通常只能通过昂贵的变界或 ODE/SDE 近似，导致系统性偏差。
现有方法的局限性：
- Forward-Reverse 不一致性：现有的扩散 RL 方法（如 FlowGRPO）通过离散化反向采样过程将生成视为多步决策问题。这破坏了扩散模型原本遵循的前向扩散过程（Fokker-Planck 方程），可能导致模型退化为级联高斯分布。
- 求解器限制：为了计算转移概率，现有方法通常强制使用一阶 SDE 采样器，无法利用流模型（Flow Models）默认的高效 ODE 或高阶求解器。
- CFG 集成的复杂性：扩散模型严重依赖分类器自由引导（CFG）来提升质量，但这需要同时训练条件和非条件模型，导致 RL 训练过程复杂且低效（通常需要双模型优化）。

2. 核心方法论 (Methodology)

DiffusionNFT 提出了一种基于前向过程（Forward Process）的在线 RL 范式，核心思想是负感知微调（Negative-aware Fine-Tuning, NFT）。

2.1 核心思想：前向过程优化

不同于在反向去噪过程中进行策略梯度更新，DiffusionNFT 直接在前向加噪过程上定义优化目标。

数据划分：根据奖励信号 $r(x_0)$ 将生成的图像划分为“正样本集”（ $D^+$ ，高奖励）和“负样本集”（ $D^-$ ，低奖励）。
隐式策略对比：不直接训练两个独立的模型，而是定义一个隐式正策略（Implicit Positive Policy）和一个隐式负策略（Implicit Negative Policy）。
- 正策略目标： $v^+_\theta = (1-\beta)v_{old} + \beta v_\theta$
- 负策略目标： $v^-_\theta = (1+\beta)v_{old} - \beta v_\theta$
- 其中 $v$ 是速度预测器（velocity predictor）， $\beta$ 是引导强度超参数。

2.2 优化目标

通过流匹配（Flow Matching）损失函数，同时优化正负分支：
$\mathcal{L}(\theta) = \mathbb{E} \left[ r \|v^+_\theta - v\|^2_2 + (1-r) \|v^-_\theta - v\|^2_2 \right]$

理论保证：论文证明了该优化目标在数学上等价于寻找一个改进方向 $\Delta$ ，使得新策略 $v^*$ 能够逼近正样本分布 $\pi^+$ ，同时远离负样本分布 $\pi^-$ 。
无需似然估计：该方法完全基于监督学习（SL）目标，无需计算序列似然或进行复杂的概率积分。

2.3 关键设计特性

前向一致性（Forward Consistency）：优化过程严格遵循前向扩散过程的概率密度，保证了生成的理论合法性。
求解器灵活性：由于不依赖反向过程的离散化似然，数据收集可以使用任意黑盒求解器（如高效的高阶 ODE 求解器），无需存储完整的采样轨迹，仅需干净的图像和奖励。
隐式引导集成（Implicit Guidance Integration）：将 CFG 视为一种离线形式的强化引导。DiffusionNFT 通过 RL 直接在单个模型中学习到这种引导能力，从而实现了完全无 CFG（CFG-free）的训练和推理。
离策略（Off-policy）：采样策略（ $v_{old}$ ）和训练策略（ $v_\theta$ ）解耦，允许使用软更新（Soft EMA Update）来平衡稳定性和收敛速度。

3. 主要贡献 (Key Contributions)

提出 DiffusionNFT 范式：首次将“负感知”概念引入扩散模型的在线 RL，通过前向过程的流匹配目标直接优化策略，避免了似然估计的陷阱。
解决 CFG 依赖问题：证明了通过 RL 后训练，单个条件模型可以学习到原本需要 CFG 才能达到的性能，简化了训练架构并提升了效率。
理论突破：建立了前向过程 RL 与策略改进方向之间的理论联系，证明了该方法在保持前向一致性的同时能有效利用负反馈信号。
高效性：相比现有的 FlowGRPO 方法，DiffusionNFT 在训练效率上提升了显著倍数。

4. 实验结果 (Results)

实验基于 SD3.5-Medium 模型，在多个基准测试中进行了评估：

效率对比（Head-to-Head）：
- 在 GenEval 任务上，DiffusionNFT 仅需 1k 步 训练即可将分数从 0.24 提升至 0.98。
- 相比之下，FlowGRPO 需要 5k+ 步 且必须使用 CFG 才能达到 0.95 的分数。
- 在训练时间上，DiffusionNFT 比 FlowGRPO 快 3 倍到 25 倍。
多奖励联合训练：
- 在同时优化 GenEval、OCR、PickScore、ClipScore 和 HPSv2.1 等多个奖励模型后，DiffusionNFT 生成的模型在所有测试基准（包括域外基准如 ImageReward, Aesthetic）上均表现优异。
- 其性能不仅超越了 CFG 基线，甚至超过了参数量更大的模型（如 SD3.5-L 和 FLUX.1-Dev）。
消融实验：
- 负损失的重要性：移除了负样本分支（ $v^-_\theta$ ）会导致训练迅速崩溃，证明了负反馈在扩散 RL 中的关键作用（这与 LLM 中仅使用正样本的 RFT 不同）。
- 求解器选择：使用 ODE 求解器（特别是二阶 ODE）比 SDE 求解器效果更好，验证了该方法对高效求解器的兼容性。
- 无 CFG 性能：即使在初始化时没有 CFG 且性能较低，DiffusionNFT 也能迅速超越 CFG 基线，证明 RL 能有效替代 CFG 功能。

5. 意义与影响 (Significance)

统一监督与强化学习：DiffusionNFT 提供了一种将强化学习无缝集成到标准扩散监督训练目标中的方法，无需复杂的似然近似或双模型架构。
理论原则性：该方法基于前向过程的一致性，为扩散模型的 RL 提供了更坚实的理论基础，避免了以往方法中因离散化反向过程带来的理论缺陷。
实际应用价值：
- 降低成本：无需存储采样轨迹，支持任意求解器，大幅降低了显存和计算开销。
- 简化部署：消除了对 CFG 的依赖，使得推理过程更加简单高效（单模型、无 CFG）。
- 通用性：该方法不仅适用于图像生成，其“负感知”和“前向过程优化”的思想也为其他连续模态的 RL 提供了新的思路。

总结：DiffusionNFT 通过巧妙地将强化学习信号转化为前向过程中的监督学习目标，成功解决了扩散模型 RL 训练中的似然估计难题和 CFG 依赖问题，实现了高效、稳定且理论自洽的模型优化，是扩散模型后训练领域的一项重要进展。