DiffusionNFT: Online Diffusion Reinforcement with Forward Process

DiffusionNFT 提出了一种基于流匹配的新范式,通过直接在扩散模型的前向过程中对比正负样本生成来隐式定义策略改进方向,从而无需似然估计或分类器引导即可高效实现在线强化学习,显著提升了生成质量与训练效率。

Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DiffusionNFT 的新方法,旨在让 AI 绘画模型(扩散模型)变得更聪明、更听话。为了让你轻松理解,我们可以把训练 AI 绘画模型的过程想象成教一个刚学画画的“小画家”如何画出完美的画作

1. 背景:以前的方法有什么麻烦?

想象一下,你有一个很有天赋但还没经过专业训练的“小画家”(这是预训练好的扩散模型)。你想教他画“一只在草地上奔跑的狗”。

  • 以前的方法(像 FlowGRPO):
    以前的做法有点像让画家倒着画画
    1. 画家先画出一团乱糟糟的噪点(就像一张全是雪花点的电视屏幕)。
    2. 然后他必须一步步把噪点“擦除”并变成清晰的狗。
    3. 为了教他,老师(强化学习算法)会让他画很多张图,然后说:“这张画得不错,那张画得不好。”
    4. 麻烦在于: 这种“倒着擦除”的过程非常复杂,就像在迷雾中走钢丝。为了教他,老师必须精确计算每一步的概率,这就像要求老师能瞬间算出“如果画家刚才多擦了一笔,现在的画面会差多少”。这不仅计算量巨大(很慢),而且如果画家用的“擦除工具”(采样器)稍微变一下,老师就教不了了。此外,以前的方法还需要画家同时练习“有提示词”和“没提示词”两种模式(CFG),这就像让画家同时戴着眼镜和蒙着眼练习,效率很低。

2. 核心创新:DiffusionNFT 是怎么做的?

这篇论文提出了 DiffusionNFT,它的核心思想非常巧妙:我们不要教画家“怎么擦除”,而是教他“怎么从干净的画面变回噪点”。

这听起来很反直觉,对吧?让我们用个比喻:

  • 正向过程(Forward Process): 想象画家手里有一张完美的画(干净图像),然后他故意往上面泼墨水、撒沙子,直到画变得一团糟(变成噪点)。这个过程是确定性的,就像把牛奶倒进咖啡里,你知道它是怎么变浑浊的。
  • DiffusionNFT 的做法:
    1. 正向教学: 我们不再让画家练习“从噪点变回画”,而是让他练习“从好画变回噪点”。
    2. 对比学习(正负样本):
      • 当画家画出了一张好图(比如真的像狗),我们就把这幅图“泼墨”变脏,告诉模型:“看,这是的起点,你要学会怎么从这种好状态出发。”
      • 当画家画出了一张烂图(比如画成了猫),我们也把它“泼墨”变脏,告诉模型:“看,这是的起点,你要学会避开这种状态。”
    3. 隐式指导: 模型不需要同时学习“好”和“坏”两个独立的模型。它只需要学会一个方向:如何从“好”的状态出发,同时远离“坏”的状态。这就像给画家一个指南针,告诉他:“往这个方向走是天堂,往反方向走是地狱。”

3. 这个方法好在哪里?(三大优势)

A. 不需要“算概率”,速度飞快

以前的方法像是在迷雾中摸索,每一步都要计算复杂的概率公式(似然估计),非常慢。
DiffusionNFT 就像是在大晴天走路。因为它基于“正向过程”(泼墨),这个过程是数学上非常清晰的,不需要猜谜。

  • 比喻: 以前是“盲人摸象”(算概率),现在是“看着地图走路”(直接优化)。
  • 效果: 论文显示,它比旧方法快 25 倍!以前需要跑 5000 步才能画好的图,现在跑 1000 步就更好了。

B. 什么“画笔”都能用(解耦采样器)

以前的方法被限制只能用一种特定的“擦除工具”(SDE 采样器)。如果画家想换一种更快的工具(比如 ODE 采样器),以前的算法就教不了了。
DiffusionNFT 把“教画家”和“画家画画”分开了。

  • 比喻: 以前是“老师必须跟着学生用的笔走”,现在是“老师只管教方向,学生爱用什么笔(甚至黑盒工具)都行”。这让训练更加灵活高效。

C. 不需要“蒙眼练习”(无 CFG)

以前的方法为了教好,必须让画家同时练习“有提示词”和“没提示词”两种模式(CFG),这就像让画家戴着眼镜练画,练完还得摘下来,很麻烦。
DiffusionNFT 发现,通过“正负对比”的学习,模型自己就能学会如何理解提示词。

  • 比喻: 以前是“戴着眼镜练,摘了眼镜再练”,现在是“直接通过对比好坏,让画家自己悟出怎么戴眼镜”。结果发现,不戴眼镜(无 CFG)反而画得更好、更快

4. 实际效果如何?

论文在几个著名的测试中(比如 GenEval,这是一个测试 AI 能否听懂复杂指令的考试)进行了对比:

  • 旧方法(FlowGRPO): 花了很长时间(5000+ 步),用了复杂的技巧(CFG),得分是 0.95
  • 新方法(DiffusionNFT): 只花了很短时间(1000 步),没用复杂技巧(无 CFG),得分高达 0.98
  • 结论: 它不仅画得更准(比如能准确画出“一只蓝色的披萨和黄色的棒球手套”),而且训练速度快得惊人。

总结

DiffusionNFT 就像是给 AI 绘画模型换了一种更聪明的“教学法”:
它不再纠结于复杂的“倒着擦除”和概率计算,而是利用“正向泼墨”的简单逻辑,通过对比“好画”和“坏画”,直接告诉模型该往哪个方向努力。

这就好比教孩子学骑车:

  • 旧方法: 让孩子在平衡车上反复计算重心和摩擦力,还要戴着头盔和护膝(CFG),练得很慢。
  • 新方法: 直接告诉孩子:“往这边骑是安全的(好样本),往那边骑会摔跤(坏样本)”,孩子很快就学会了,而且骑得又稳又快,连头盔都不用戴了。

这项技术让 AI 绘画的后期训练变得更快、更简单、更强大,是迈向通用 AI 艺术创作的重要一步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →