Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 SDPO 的新方法，旨在解决一个非常具体的问题：如何让“极速版”的 AI 绘画模型（几步就能出图）既画得快，又画得好看、符合人类喜好。

为了让你更容易理解，我们可以把整个过程想象成教一个天才但急躁的学徒画画。

1. 背景：为什么需要“极速版”？

传统的 AI 绘画模型（像 Stable Diffusion）画一张图需要走很多步（比如 20 到 50 步），就像画家在画布上反复涂抹、修改，虽然画得精细，但速度很慢。
现在的“极速版”模型（Few-Step Diffusion Models）通过“蒸馏”技术，把画家压缩成了只走 1 到 4 步就能出图的“快手”。这就像让画家直接下笔成画，速度极快。

但是，问题出现了：
这些“快手”虽然快，但往往画得不够好，或者不符合我们想要的风格（比如想要“赛博朋克猫”，它可能画成了“普通猫”）。我们需要一种方法教它们“听话”且“画得好”。

2. 旧方法的困境：要么太慢，要么学偏了

以前教 AI 画画（用强化学习 RL 微调），主要有两个痛点：

痛点一：反馈太少（稀疏奖励）。
- 比喻： 想象你在教孩子画画。旧方法就像是你只在他画完最后一笔时，才告诉他“画得好”或“画得烂”。
- 后果： 对于“快手”模型，它只画了 1-4 步，如果只在最后给反馈，它根本不知道中间哪一步画错了，导致它学得很慢，甚至学歪了（过拟合）。
痛点二：混合训练太乱（高方差）。
- 比喻： 为了多学点东西，有人尝试让模型一会儿画 1 步，一会儿画 50 步。这就像让学徒一会儿画草图，一会儿画油画。
- 后果： 这种“大杂烩”让模型很困惑，因为画草图和画油画的逻辑完全不同，导致训练过程极不稳定，像坐过山车一样。

3. SDPO 的解决方案：三步走策略

为了解决这些问题，作者提出了 SDPO，它的核心思想可以概括为三个巧妙的“魔法”：

魔法一：双状态追踪（Dual-State Sampling）—— “透视眼”

原理： 传统的模型在每一步只能看到“当前这一笔”（噪点状态）。SDPO 给模型装了一副“透视眼”，让它每一步不仅能看到当前的噪点，还能瞬间预测出“如果现在停笔，这幅画最终会是什么样”（预测的干净状态）。
比喻： 就像教画画时，老师不仅看孩子现在的笔触，还能通过孩子的笔触瞬间脑补出这幅画完成后的样子。
作用： 这样，即使模型只走了 1 步，我们也能根据它“脑补”出的完成图来打分。这就把“最后才给反馈”变成了每一步都有反馈（稠密奖励）。

魔法二：智能猜分（Dense Reward Prediction）—— “以点带面”

原理： 虽然有了“透视眼”，但每一步都去问一个昂贵的“评分专家”（奖励模型）打分，太费钱了（计算太慢）。
比喻： 我们不需要每画一笔都问专家。SDPO 只问专家三个关键点：开头、中间（选一个最有代表性的点）、结尾。然后，利用相似度，像“猜谜”一样把中间没问过的步骤的分数“猜”出来。
作用： 既省了钱（减少了昂贵的计算），又保证了每一步都有分数参考，让学习过程既快又稳。

魔法三：步步为营的优化（Stepwise Advantage Difference）—— “精细化教学”

原理： 传统的优化是看整幅画的总分。SDPO 则是关注每一步的进步。它计算每一步的“优势”，并给早期的步骤（比如第 1 步）更高的权重，因为第一步定调子最重要。
比喻： 老师不再只给期末总分，而是每天批改作业，并且特别重视第一天的作业，因为第一天打不好基础，后面全完蛋。同时，老师还会打乱批改顺序，防止学生死记硬背“第几步该怎么做”。
作用： 让模型在极少的步骤内（比如 1 步或 2 步）也能学会如何画出高质量的图，而且训练过程非常稳定。

4. 效果如何？

实验结果表明，SDPO 就像给“快手”画家请了一位顶级私教：

画得更好： 在 1 步、2 步、4 步的极速模式下，画出的图片质量（美观度、符合提示词程度）都远超现有的其他方法。
学得更稳： 即使只给很少的样本，它也能快速学会，而且不会像其他方法那样训练着训练着就“崩”了。
通用性强： 不仅适用于普通的文生图，连那种“一步出图”的模型和“多视角生成”的模型也能教得很好。

总结

简单来说，SDPO 就是给那些为了追求速度而牺牲了质量的 AI 绘画模型，提供了一套**“实时透视 + 智能猜分 + 精细化教学”**的辅导方案。它让 AI 在极短的时间内，也能学会如何画出既快又美的画作，解决了“快”与“好”难以兼得的难题。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于少步扩散模型（Few-Step Diffusion Models）强化学习微调的学术论文，发表于 IEEE TPAMI 2026。文章提出了一种名为 SDPO (Stepwise Diffusion Policy Optimization) 的新框架，旨在解决现有强化学习（RL）方法在极短步数（如 1-4 步）下难以对齐特定下游目标（如美学质量、用户偏好）的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：少步扩散模型（如 SD-Turbo）通过蒸馏技术显著减少了生成高分辨率图像所需的去噪步数，实现了高效推理。然而，这些模型通常未针对特定的下游目标（如美学评分、人类偏好）进行对齐。
现有方法的局限性：
- 状态空间受限与信号不足：现有的 RL 微调方法（如 DDPO）通常设计用于标准扩散模型（20-50 步）。直接应用于少步场景（1-4 步）时，由于轨迹短、状态空间小且样本质量次优，导致奖励信号多样性不足，训练不稳定。
- 稀疏奖励问题：传统方法仅在轨迹的最终步（ $t=0$ ）提供稀疏奖励。在少步场景下，缺乏中间步骤的反馈，导致模型难以优化中间去噪过程。
- 混合步长优化的方差：尝试引入多步长轨迹（混合短步和长步）虽然能增加覆盖，但不同长度轨迹的去噪动力学不一致，导致高方差，破坏策略优化的稳定性。
- 过拟合风险：若仅使用长轨迹进行微调，模型容易过拟合长步输出，损害其在极短步数下的推理能力。

2. 核心方法论 (Methodology)

作者提出了 SDPO 框架，包含以下三个核心创新机制：

A. 双状态轨迹采样机制 (Dual-State Trajectory Sampling)

原理：利用少步扩散模型强大的单步去噪能力，在每一步 $t$ $t$ 同时追踪两个状态：
1. 噪声状态 ( $x_t$ )：用于策略 rollout。
2. 预测干净状态 ( $\hat{x}_{t-1}^0$ )：即当前步对最终无噪图像的中间估计。
作用：将不同长度轨迹的最终输出映射到共享的中间干净状态序列 $\{\hat{x}_t^0\}$ 上。这使得模型可以在统一步长的轨迹上获得稠密奖励反馈（Dense Reward Feedback），既避免了过拟合最终输出，又消除了混合步长带来的高方差，保证了去噪动力学的连贯性。

B. 基于潜在相似性的稠密奖励预测 (Latent Similarity-based Dense Reward Prediction)

挑战：在每一步都查询奖励函数（如 ImageReward, PickScore）计算成本过高。
策略：
- 锚点选择：每段轨迹仅查询 3 次奖励：起始步、结束步，以及一个自适应选择的锚点步（ $t_{anchor}$ ）。锚点步的选择基于最小化与首尾步在潜在空间中的余弦相似度之和，以最大化信息增益。
- 插值预测：利用 Lipschitz 连续性假设，基于潜在表示的相似度，对未查询步骤的奖励进行加权插值预测。
优势：在大幅减少昂贵奖励查询次数的同时，提供了平滑且可靠的稠密奖励信号。

C. 稠密奖励差异学习 (Dense Reward Difference Learning)

目标函数：不同于传统的轨迹级回报累积，SDPO 优化步级奖励差异。
- 构建两条独立的双状态轨迹，计算每一步的优势估计（Advantage Estimates），考虑了长程时间依赖（通过折扣回报）。
- 引入时间重要性加权：对早期步骤（低步数）赋予更高的权重，优先优化关键的低步数生成质量。
- 步级打乱梯度更新 (Step-Shuffled Gradient Updates)：在训练过程中打乱步序进行梯度更新，防止模型过拟合固定的步序，增强梯度稳定性。
公式核心：最小化对数似然比差异与稠密奖励（或优势）差异之间的均方误差。

3. 主要贡献 (Key Contributions)

提出了双状态采样机制：首次将中间干净状态估计引入 RL 微调，实现了少步场景下的低方差、稠密奖励反馈。
设计了高效的奖励预测策略：基于潜在相似性的自适应锚点插值，解决了稠密奖励查询的计算瓶颈。
构建了 SDPO 统一框架：结合了步级优势差异学习、时间重要性加权和步序打乱更新，显著提升了极短步数下的优化效率和稳定性。
广泛的实验验证：在文本到图像生成、多视图图像合成等任务上，证明了 SDPO 在 1-4 步设置下优于现有 SOTA 方法（如 DDPO, REBEL, D3PO）。

4. 实验结果 (Results)

样本效率：在 1-4 步采样设置下，SDPO 仅需更少的训练样本即可达到更高的奖励分数（如美学评分 Aesthetic Score），收敛速度显著快于基线。
泛化能力：在未见过的复杂提示词（Unseen Prompts）上，SDPO 生成的图像在质量、对齐度和细节上均优于预训练模型和其他微调方法。
稳定性：消融实验表明，现有方法在 1-2 步微调时会出现奖励震荡甚至崩溃，而 SDPO 保持了稳定的训练曲线。
扩展性：SDPO 成功应用于潜在一致性模型（LCM）和多视图扩散模型，证明了其通用性。
定性分析：生成的图像在保持少步高效的同时，显著减少了模糊现象，更好地符合提示词要求。

5. 意义与影响 (Significance)

理论突破：解决了少步扩散模型 RL 微调中“状态空间小”与“奖励稀疏”之间的矛盾，为高效生成模型的对齐提供了新的理论视角。
实际应用：使得在边缘设备或实时应用场景中（需要极低步数推理）的高质量、可控图像生成成为可能，无需牺牲生成质量。
方法学贡献：提出的“双状态采样”和“基于相似性的奖励预测”为其他序列生成模型的强化学习优化提供了可借鉴的范式。

总结：SDPO 通过创新的采样机制和奖励学习策略，成功将少步扩散模型从“快速但不可控”转变为“快速且高度对齐用户偏好”的生成工具，是扩散模型高效推理与对齐领域的重要进展。