Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SQDF 的新方法，旨在解决人工智能（AI）绘画模型在“微调”过程中遇到的一个棘手问题：如何既让画得更好看，又不会让 AI 变得“走火入魔”，画出一堆虽然分数高但完全不像东西的抽象垃圾。

我们可以把这篇论文的核心思想想象成在教一个天才画家（AI）如何更好地画画。

1. 背景：天才画家的“走火入魔”

想象一下，你有一个非常有天赋的画家（这就是现在的扩散模型，比如 Stable Diffusion），他本来能画出非常自然、多样化的画作。

现在，你给他定了一个目标：“我要你画出最美的画，并且给出一个打分系统（奖励函数）。”

传统方法的问题：如果你只盯着“分数”看，这个画家很快就会“走火入魔”（Reward Over-optimization）。为了拿到最高分，他可能会画出一些全是噪点、颜色极其鲜艳但根本看不出画的是什么（比如“一只猫”画成了一团红色的乱码）的画。虽然打分系统给了它满分，但人类一看就觉得很假、很丑。这就叫**“过度优化”**。
现有的解决办法：以前的方法要么太慢，要么需要训练一个非常复杂的“裁判”来告诉画家哪里不对，但这往往很不稳定，就像让一个新手裁判去教大师，容易教歪。

2. SQDF 的核心：给画家装上“导航仪”和“回放镜”

SQDF 提出了一套全新的训练方案，它不像以前那样死板地逼着画家去追求分数，而是通过三个巧妙的“道具”来引导画家：

道具一：软 Q 函数导航仪（Soft Q-Function）

比喻：想象画家在画画时，每一步都在猜测：“如果我这一步这样改，最后成品会是什么样？”
传统做法：以前的方法需要画家把整幅画从头画到尾，才能知道最后得分多少，然后再回头改第一步。这太慢了，而且容易算错。
SQDF 的做法：它发明了一种**“瞬间透视眼”**（训练免费的软 Q 函数）。画家只需要画一步，这个“透视眼”就能立刻告诉他：“如果你现在这样改，最终成品的样子大概是这样的，而且能得多少分。”
好处：画家不需要画完整个流程就能知道方向，训练效率极高，而且因为不需要重新训练复杂的裁判，非常稳定。

道具二：折扣因子（Discount Factor）—— 别太在意起步

比喻：画画是一个漫长的过程。刚开始打草稿时（去噪的早期步骤），随便怎么改对最终成品的影响其实很小；只有到了最后几笔（去噪的后期步骤），稍微改一下就能决定画是神作还是废稿。
SQDF 的做法：它给画家戴上了一副**“时间眼镜”**。它告诉画家：“早期的步骤（打草稿）不用太纠结，稍微改改就行；但后期的步骤（最后几笔）非常重要，要全力以赴。”
好处：这避免了画家在无关紧要的早期步骤上浪费精力，或者因为早期的微小误差而把整幅画带偏。

道具三：一致性模型与回放缓冲区（Consistency Model & Replay Buffer）

比喻：
- 一致性模型：就像给画家配了一个**“超级速写助手”**。以前画家猜“最后成品长啥样”时，经常猜错（特别是在噪点很多的时候）。这个助手能非常精准地根据当前的草图，直接画出最接近成品的样子，让画家看得更清楚。
- 回放缓冲区：就像画家的**“错题本”和“灵感库”**。以前画家只练当下的画，容易忘记以前学过的多样性。SQDF 把以前画过的、得分高且风格多样的画都存进“库”里。训练时，不仅练新画，还要时不时翻翻“库”里的老画，提醒自己：“别忘了，画猫可以有各种姿势，不能只画一种。”
好处：既保证了训练看得准（助手），又保证了画出来的东西丰富多彩（错题本），不会让画家只会画一种“高分但单调”的画。

3. 实验结果：既高分又自然

研究人员用这套方法去训练 AI 画猫、画风景等。结果发现：

分数更高：AI 画的画在“美学分”和“人类喜欢程度”上，比以前的方法都要高。
不“走火入魔”：以前的方法为了高分，画出来的东西像抽象派乱码；SQDF 画出来的东西既高分，又保留了猫是猫、风景是风景的自然感。
多样性好：同样的提示词（比如“一只猫”），SQDF 能画出各种姿态、各种风格的猫，而不会每次都画出一模一样的“高分猫”。

总结

简单来说，SQDF 就像是一位高明的教练。他不再只是拿着鞭子逼着运动员（AI）去冲刺（追求高分），而是：

给运动员装了GPS 导航（软 Q 函数），让他知道每一步怎么走最有效；
告诉他别在热身阶段太较劲（折扣因子），把力气用在刀刃上；
给他配了精准的辅助镜（一致性模型）和丰富的题库（回放缓冲区），让他既能看清目标，又能保持动作的多样性和自然度。

最终，这位教练成功训练出了既拿高分、又保持自然美感的 AI 画家。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于扩散模型微调（Fine-tuning）的学术论文，发表于 ICLR 2026。论文提出了一种名为 SQDF (Soft Q-based Diffusion Finetuning) 的新方法，旨在解决扩散模型在奖励优化过程中常见的“奖励过优化”（Reward Over-optimization）问题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

扩散模型（如 Stable Diffusion）在生成高质量样本方面表现出色，但在将其与下游目标（如美学评分、人类偏好对齐）对齐时，现有的微调方法面临严峻挑战：

奖励过优化 (Reward Over-optimization)： 现有的强化学习（RL）或直接反向传播方法（如 DDPO, DRaFT, ReFL）往往过度追求奖励最大化，导致生成的样本虽然奖励分高，但语义崩塌（Semantic Collapse，即图像不再符合提示词）和多样性丧失（Diversity Collapse，即图像趋同）。
现有方法的局限性：
- 引入 KL 散度正则化虽能缓解过优化，但通常需要训练不稳定的价值函数（Value Function）。
- 依赖蒙特卡洛梯度估计的方法方差过大，样本效率低。
- 直接利用奖励梯度进行微调容易破坏预训练模型的自然性和多样性。

2. 核心方法论 (Methodology)

SQDF 提出了一种基于 KL 正则化强化学习框架 的新方法，其核心在于利用 重参数化策略梯度 (Reparameterized Policy Gradient) 结合 免训练（Training-free）的可微软 Q 函数估计。

2.1 核心机制：软 Q 函数近似

SQDF 将扩散去噪过程建模为马尔可夫决策过程（MDP）。为了避免训练不稳定的价值网络，作者提出使用 单步后验均值近似 (Single-step Posterior Mean Approximation) 来估计软 Q 函数：

利用 Tweedie 公式或一致性模型（Consistency Model）从噪声状态 $x_t$ 一步预测干净图像 $\hat{x}_0$ 。
将奖励函数 $r(\hat{x}_0)$ 直接作为软 Q 函数的近似值。
通过重参数化技巧（ $x_{t-1} = \mu_\theta + \sigma_t \epsilon$ ），使得奖励梯度可以直接反向传播到策略参数 $\theta$ ，从而获得低方差、样本高效的更新信号。

2.2 三大关键创新 (Key Innovations)

为了进一步提升稳定性和效果，SQDF 引入了三个关键组件：

折扣因子 $\gamma$ (Discount Factor)：
- 问题： 在去噪过程的早期步骤（高噪声阶段），单步去噪对最终图像质量的影响较小，且后验均值近似误差较大。
- 方案： 引入折扣因子 $\gamma \in [0, 1)$ ，对早期步骤的奖励和 KL 惩罚进行指数级加权衰减。这使得优化过程更关注对最终质量影响更大的后期去噪步骤，改善了信用分配（Credit Assignment）。
一致性模型 (Consistency Models)：
- 问题： 传统的 Tweedie 公式在高噪声水平（早期去噪步骤）下预测 $\hat{x}_0$ 的准确性较差，导致 Q 函数估计不可靠。
- 方案： 引入一致性模型（Consistency Model, CM）作为参考策略 $p'$ 的一部分。CM 经过蒸馏，能够在全时间步长上提供比 Tweedie 公式更准确的一步 $\hat{x}_0$ 预测，从而显著提高软 Q 函数估计的可靠性，指导更稳定的训练。
离线策略回放缓冲区 (Off-policy Replay Buffer)：
- 问题： 在线策略更新容易导致模式坍塌（Mode Collapse）。
- 方案： 利用经验回放缓冲区存储历史采样轨迹。通过复用稀有、高奖励且多样化的样本，SQDF 能够在优化奖励的同时维持模式的覆盖度（Mode Coverage），有效管理“奖励 - 多样性”的权衡。

3. 主要贡献 (Key Contributions)

提出 SQDF 框架： 首个结合 KL 正则化、免训练软 Q 函数近似和重参数化策略梯度的扩散模型微调方法，无需训练额外的价值网络。
解决过优化难题： 通过折扣因子和一致性模型的结合，有效缓解了奖励过优化导致的语义崩塌和多样性丧失。
理论推导与稳定性增强： 推导了折扣 MDP 下的软贝尔曼方程边界，证明了后验均值近似在折扣设置下的有效性，并提出了具体的稳定化技术。
广泛的实验验证： 在文本到图像微调（Stable Diffusion 1.5 和 XL）以及在线黑盒优化任务中均取得了 SOTA 性能。

4. 实验结果 (Results)

论文在两个主要场景下进行了评估：

4.1 文本到图像微调 (Text-to-Image Fine-tuning)

任务： 使用 LAION 美学评分（Aesthetic Score）和 HPSv2（人类偏好评分）作为奖励目标。
对比基线： DDPO, DRaFT, ReFL, 以及它们的 KL 正则化变体。
结果：
- SQDF 在达到高奖励分数的同时，显著保持了图像与提示词的对齐度（Alignment） 和 样本多样性（Diversity）。
- 其他方法（如 DRaFT, ReFL）在奖励提升时，对齐度和多样性急剧下降（过优化现象明显）。
- 在帕累托前沿（Pareto Frontier）分析中，SQDF 在奖励、对齐度和多样性三个指标上均优于其他 KL 正则化基线。

4.2 在线黑盒优化 (Online Black-Box Optimization)

任务： 在有限的查询预算下，优化一个不可微的“黑盒”奖励函数（如美学评分），同时保持模型的自然性。
对比基线： SEIKO (SOTA 方法), PPO+KL。
结果：
- SQDF 在相同的查询预算下，实现了最高的目标奖励，同时保持了最好的对齐度和多样性。
- 证明了 SQDF 对不准确的代理奖励模型（Surrogate Reward Model）具有鲁棒性，不易陷入分布外（Out-of-Distribution）的退化。

4.3 消融实验 (Ablation Study)

折扣因子 $\gamma$ ： 移除 $\gamma$ （即设为 1）导致早期训练不稳定，且多样性下降更快。
一致性模型： 移除 CM 会导致收敛速度变慢，且目标奖励性能下降，验证了 CM 对 Q 函数估计的重要性。
回放缓冲区： 移除缓冲区导致多样性指标显著下降，证明了其在维持模式覆盖方面的作用。

5. 意义与影响 (Significance)

理论突破： 提供了一种无需训练复杂价值网络即可在扩散模型中应用强化学习梯度的高效途径，简化了扩散模型对齐的复杂性。
实际应用： 为生成式 AI 的安全对齐（Alignment）提供了更稳健的解决方案，确保模型在追求人类偏好（如美学、安全性）时，不会牺牲生成内容的多样性和语义准确性。
通用性： 该方法不仅适用于 Stable Diffusion，在 SDXL 等更大规模模型上也表现出一致的优越性，具有广泛的推广价值。

总结： SQDF 通过巧妙的数学近似（软 Q 函数）和工程创新（折扣因子、一致性模型、回放缓冲），成功解决了扩散模型微调中“既要高奖励，又要保质量”的长期难题，为下一代可控生成模型的开发奠定了重要基础。