Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

本文提出了步级扩散策略优化(SDPO)框架,通过双状态轨迹采样、基于潜在相似性的密集奖励预测及奖励差异学习等创新机制,有效解决了少步扩散模型在强化学习中难以对齐特定下游目标的问题,实现了高效且高质量的奖励对齐图像生成。

Ziyi Zhang, Li Shen, Sen Zhang, Deheng Ye, Yong Luo, Miaojing Shi, Dongjing Shan, Bo Du, Dacheng Tao

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 SDPO 的新方法,旨在解决一个非常具体的问题:如何让“极速版”的 AI 绘画模型(几步就能出图)既画得快,又画得好看、符合人类喜好。

为了让你更容易理解,我们可以把整个过程想象成教一个天才但急躁的学徒画画

1. 背景:为什么需要“极速版”?

传统的 AI 绘画模型(像 Stable Diffusion)画一张图需要走很多步(比如 20 到 50 步),就像画家在画布上反复涂抹、修改,虽然画得精细,但速度很慢。
现在的“极速版”模型(Few-Step Diffusion Models)通过“蒸馏”技术,把画家压缩成了只走 1 到 4 步就能出图的“快手”。这就像让画家直接下笔成画,速度极快。

但是,问题出现了:
这些“快手”虽然快,但往往画得不够好,或者不符合我们想要的风格(比如想要“赛博朋克猫”,它可能画成了“普通猫”)。我们需要一种方法教它们“听话”且“画得好”。

2. 旧方法的困境:要么太慢,要么学偏了

以前教 AI 画画(用强化学习 RL 微调),主要有两个痛点:

  • 痛点一:反馈太少(稀疏奖励)。
    • 比喻: 想象你在教孩子画画。旧方法就像是你只在他画完最后一笔时,才告诉他“画得好”或“画得烂”。
    • 后果: 对于“快手”模型,它只画了 1-4 步,如果只在最后给反馈,它根本不知道中间哪一步画错了,导致它学得很慢,甚至学歪了(过拟合)。
  • 痛点二:混合训练太乱(高方差)。
    • 比喻: 为了多学点东西,有人尝试让模型一会儿画 1 步,一会儿画 50 步。这就像让学徒一会儿画草图,一会儿画油画。
    • 后果: 这种“大杂烩”让模型很困惑,因为画草图和画油画的逻辑完全不同,导致训练过程极不稳定,像坐过山车一样。

3. SDPO 的解决方案:三步走策略

为了解决这些问题,作者提出了 SDPO,它的核心思想可以概括为三个巧妙的“魔法”:

魔法一:双状态追踪(Dual-State Sampling)—— “透视眼”

  • 原理: 传统的模型在每一步只能看到“当前这一笔”(噪点状态)。SDPO 给模型装了一副“透视眼”,让它每一步不仅能看到当前的噪点,还能瞬间预测出“如果现在停笔,这幅画最终会是什么样”(预测的干净状态)。
  • 比喻: 就像教画画时,老师不仅看孩子现在的笔触,还能通过孩子的笔触瞬间脑补出这幅画完成后的样子。
  • 作用: 这样,即使模型只走了 1 步,我们也能根据它“脑补”出的完成图来打分。这就把“最后才给反馈”变成了每一步都有反馈(稠密奖励)。

魔法二:智能猜分(Dense Reward Prediction)—— “以点带面”

  • 原理: 虽然有了“透视眼”,但每一步都去问一个昂贵的“评分专家”(奖励模型)打分,太费钱了(计算太慢)。
  • 比喻: 我们不需要每画一笔都问专家。SDPO 只问专家三个关键点:开头、中间(选一个最有代表性的点)、结尾。然后,利用相似度,像“猜谜”一样把中间没问过的步骤的分数“猜”出来。
  • 作用: 既省了钱(减少了昂贵的计算),又保证了每一步都有分数参考,让学习过程既快又稳。

魔法三:步步为营的优化(Stepwise Advantage Difference)—— “精细化教学”

  • 原理: 传统的优化是看整幅画的总分。SDPO 则是关注每一步的进步。它计算每一步的“优势”,并给早期的步骤(比如第 1 步)更高的权重,因为第一步定调子最重要。
  • 比喻: 老师不再只给期末总分,而是每天批改作业,并且特别重视第一天的作业,因为第一天打不好基础,后面全完蛋。同时,老师还会打乱批改顺序,防止学生死记硬背“第几步该怎么做”。
  • 作用: 让模型在极少的步骤内(比如 1 步或 2 步)也能学会如何画出高质量的图,而且训练过程非常稳定。

4. 效果如何?

实验结果表明,SDPO 就像给“快手”画家请了一位顶级私教

  • 画得更好: 在 1 步、2 步、4 步的极速模式下,画出的图片质量(美观度、符合提示词程度)都远超现有的其他方法。
  • 学得更稳: 即使只给很少的样本,它也能快速学会,而且不会像其他方法那样训练着训练着就“崩”了。
  • 通用性强: 不仅适用于普通的文生图,连那种“一步出图”的模型和“多视角生成”的模型也能教得很好。

总结

简单来说,SDPO 就是给那些为了追求速度而牺牲了质量的 AI 绘画模型,提供了一套**“实时透视 + 智能猜分 + 精细化教学”**的辅导方案。它让 AI 在极短的时间内,也能学会如何画出既快又美的画作,解决了“快”与“好”难以兼得的难题。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →