Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Each language version is independently generated for its own context, not a direct translation.

这篇文章提出了一种让 AI 画图更“听话”、更符合人类喜好的新方法。为了让你轻松理解，我们可以把整个故事想象成教一个刚出道的画家（AI 模型）如何画出大家喜欢的画。

1. 背景：画家的困惑

现在的 AI 绘画模型（比如 Stable Diffusion）就像是一个看过互联网上亿张图片的“天才画家”。它画什么都能画，但因为它看过的图太杂了，有时候它画出来的东西虽然技术上没问题，但不符合人类的审美，或者听不懂你的具体指令（比如你让它画“开心的猫”，它可能画个“生气的猫”）。

以前，人们想纠正这个画家，通常用两种方法：

方法 A（强化学习 RLHF）： 请一个专门的“评委”给画打分，然后让画家根据分数反复练习。这很有效，但太复杂、太贵，而且很难调教。
方法 B（直接偏好优化 DPO）： 直接给画家看“好画”和“坏画”的对比，告诉它：“别学那个坏的，学这个好的”。这很简单，但有个大毛病：画家容易“死记硬背”。它把训练集里的“好画”背得滚瓜烂熟，但一旦遇到没见过的题目，它就乱画了，甚至忘了怎么画正常的画（这叫“过拟合”和“灾难性遗忘”）。

2. 核心灵感：不要“重练”，要“带个向导”

这篇论文的作者发现，与其让画家重新苦练（重新训练模型），不如在画家下笔的时候，旁边站个“向导”。

这就好比：

画家（基础模型）： 负责画底稿，保证画面不乱，保持原本的风格。
向导（微调后的模型）： 只负责在关键地方指指点点，告诉画家：“这里颜色不对，那里形状要改”。

作者把这种“指指点点”的技术叫做 CFG（无分类器引导）。以前的 CFG 是用来控制画什么内容的（比如“画一只猫”），而这篇论文把它用来控制**“画得讨不讨喜”**。

3. 他们的新方法：PGD 和 cPGD

方法一：PGD（偏好引导扩散）—— “老带新”

做法： 作者训练了一个小小的“向导模型”。这个向导只看了几千张“好画”和“坏画”的对比，稍微学了一点偏好，并没有完全重练。
原理： 在 AI 生成图片的最后阶段，把“基础画家”的预测和“向导”的预测结合起来。
- 公式很简单：最终结果 = 基础画家 + 向导的修正意见。
- 如果向导说“这个不好”，我们就把画往好的方向推一点。
比喻： 就像你让一个经验丰富的老画家（基础模型）画画，旁边站着一个懂审美的艺术评论家（向导）。老画家负责大框架，评论家负责在关键笔触上提点：“这里光影不对，改一下”。这样既保留了老画家的功底，又融入了评论家的审美，而且评论家不需要重新学画画，只要稍微指点一下就行。

方法二：cPGD（对比偏好引导）—— “红白脸”策略

这是 PGD 的升级版，更聪明。

做法： 作者训练了两个向导：
1. 红脸向导： 专门看“好画”，学会怎么画大家喜欢的。
2. 白脸向导： 专门看“坏画”，学会怎么避开大家讨厌的。
原理： 在生成时，用“红脸向导”的想法，减去“白脸向导”的想法。
- 公式：最终修正 = (喜欢好画的向导) - (喜欢坏画的向导)。
比喻： 这就像你让两个专家给你提建议。
- 专家 A 说：“这里要加个笑脸。”
- 专家 B 说：“千万别画成哭脸。”
- 你把 A 的建议加上，再把 B 的“避坑指南”减掉，剩下的就是最完美的方案。
- 这种方法的好处是，它把“喜欢什么”和“讨厌什么”分开了，不容易死记硬背，泛化能力更强，画出来的图既符合审美，又不会变得怪里怪气。

4. 为什么这个方法牛？

不伤筋动骨（无需重训）： 不需要把那个巨大的基础模型重新训练一遍（那太费钱了）。只需要训练几个小小的“向导模块”，像插件一样插进去用。
防止“死记硬背”： 传统的 DPO 方法容易让 AI 变得僵化，只会在训练过的题目上表现好。这种方法通过“向导”在生成时动态调整，让 AI 在面对新题目时依然灵活。
可插拔（Plug-and-Play）： 就像给手机换个壳一样。如果你换了个新的 AI 模型，只要把训练好的“向导”插上去，新模型立马就能变得很懂人类喜好。
效果显著： 在测试中，这种方法画出来的图，人类更喜欢，而且图片的多样性（不千篇一律）和清晰度都保持得很好。

总结

这篇论文的核心思想就是：别逼着 AI 重新学做人（重新训练），而是给它配个“懂行”的助手（向导），在画画的时候实时指导它。

PGD 是配一个懂审美的助手。
cPGD 是配两个助手，一个教“怎么做”，一个教“别怎么做”，两者结合，效果最好。

这种方法简单、高效，而且让 AI 画出的图既听话又自然，解决了目前 AI 绘画“懂技术但不懂人心”的痛点。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为无分类器引导（Classifier-Free Guidance, CFG）视角下的偏好对齐新范式，旨在解决大规模文本到图像（Text-to-Image, T2I）扩散模型在微调过程中面临的泛化能力差和过拟合问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心挑战：将大规模预训练的扩散模型与细微的人类偏好（如美学、指令遵循）对齐仍然是一个难题。
现有方法的局限：
- 直接偏好优化 (DPO)：虽然简单有效，但在大规模微调中往往表现出泛化差距。DPO 容易过拟合，导致在分布外（OOD）提示词上产生不平滑的预测，甚至出现灾难性遗忘或模式崩溃（Mode Collapse）。
- 强化学习 (RLHF)：虽然鲁棒性较强，但需要训练奖励模型并进行复杂的超参数调整，成本高昂。
观察：作者通过一个简化的 2D 高斯混合分布实验发现，DPO 在训练过程中容易导致概率分布坍缩，而理想的微调应保留先验分布的多样性同时提升偏好得分。

2. 核心方法论 (Methodology)

作者受测试时引导（Test-time Guidance）的启发，将偏好对齐重新定义为一种CFG 风格的推理过程，提出了两种主要方法：

A. 偏好引导扩散 (Preference-Guided Diffusion, PGD)

基本思想：将微调后的模型视为“条件模型”（Conditioned on preference），将基础预训练模型视为“无条件模型”（Unconditional Prior）。
推理机制：在采样过程中，不直接微调基础模型，而是利用一个仅经过少量迭代微调的偏好模型作为外部控制信号。
公式：
$\nabla \log \pi_{PGD}(x) = \nabla \log \pi_{ref}(x) + w \cdot (\nabla \log \pi_{DPO}(x) - \nabla \log \pi_{ref}(x))$
其中， $w$ 是引导权重。这种方法允许在推理时通过调整 $w$ 来平衡奖励和先验保留，避免了过度微调导致的过拟合。

B. 对比偏好引导扩散 (Contrastive PGD, cPGD)

改进动机：为了进一步增强泛化能力，作者将偏好学习解耦为两个独立的模块。
训练策略：
1. 在正样本数据集上独立微调一个模型（ $\theta_+$ ）。
2. 在负样本数据集上独立微调另一个模型（ $\theta_-$ ）。
3. 两者均使用标准的扩散损失函数（而非 DPO 损失）。
推理机制：在推理时，构建一个对比引导向量，即正负模型预测之差，再叠加到基础模型上：
$\nabla \log \pi_{cPGD}(x, t) = \nabla \log \pi_{ref}(x, t) + w \cdot (\nabla \log \pi(x, t; \theta_+) - \nabla \log \pi(x, t; \theta_-))$
理论优势：
- 这种“正减负”的机制本质上是对 DPO 损失梯度的动态重加权。
- 它避免了 DPO 中常见的概率无约束收缩问题（即正负样本概率同时下降导致的坍缩）。
- 通过分离正负样本训练，模型对偏好对的假设更弱，泛化性更强。

3. 主要贡献 (Key Contributions)

视角转换：首次将扩散模型的偏好对齐问题视为CFG 风格推理的特例，而非单纯的训练目标优化。
提出 PGD 与 cPGD：
- PGD：利用微调模型作为引导信号，无需重新训练基础模型即可实现对齐。
- cPGD：通过解耦正负样本训练和对比引导，进一步提升了泛化能力和鲁棒性。
即插即用 (Plug-and-Play)：训练好的引导模块可以独立于基础模型存在，甚至可以迁移到不同的基础模型架构上（只要共享相同的潜在空间/VAE）。
帕累托改进：实验证明，该方法在提高奖励得分的同时，保持了更好的样本多样性和先验保留能力，实现了多目标优化。

4. 实验结果 (Results)

数据集与基准：在 Stable Diffusion 1.5 (SD1.5) 和 Stable Diffusion XL (SDXL) 上，使用 Pick-a-Pic v2 和 HPDv3 数据集进行了评估。
对比基线：包括 SFT-Pref, Diffusion-DPO, Diffusion-KTO, MaPO, Diffusion-NPO, SPO 等。
关键指标：
- 胜率 (Win Rate)：PGD 和 cPGD 在多个奖励模型（PickScore, HPSv2/v3, ImageReward, CLIP Score）上的胜率均显著优于 DPO 和其他基线。例如在 SDXL 上，cPGD 在 Pick-a-Pic 测试集上的平均胜率达到了 70.8%，远超 DPO 的 66.3%。
- 多样性与保真度：在提升奖励的同时，FID（分布偏移）和多样性得分（CLIP Diversity）表现优异，未出现明显的模式崩溃。
- 人类偏好研究：在人工评估中，PGD 获得了 45.5% 的投票率，显著高于 DPO 的 29.5%。
消融实验：
- 引导权重：存在一个最佳权重范围（约 6 左右），过高的权重会导致图像不自然或混乱。
- 训练步数：cPGD 仅需少量训练步数（如 500 步）即可达到很好的效果，且在小步数下表现更稳健。
- 蒸馏：可以将多模型引导蒸馏为单模型，在保持性能的同时降低推理成本。

5. 意义与影响 (Significance)

解决过拟合难题：该方法提供了一种无需大规模重新训练即可解决 DPO 过拟合和泛化问题的有效途径。
降低部署成本：通过“训练 - 推理”分离的架构，引导模块可以独立更新和复用，降低了模型迭代和部署的门槛。
理论深度：从神经切线核（NTK）和最大熵强化学习的角度解释了该方法的有效性，为扩散模型的偏好对齐提供了新的理论视角。
通用性：展示了该方法在不同模型架构（如 KOALA）和不同数据集上的迁移能力，证明了其作为通用对齐工具的潜力。

总结：这篇论文通过重新审视 CFG 机制，提出了一种简单但强大的偏好对齐框架（PGD/cPGD）。它不仅在各项指标上超越了当前的 SOTA 方法（如 Diffusion-DPO），还解决了长期存在的过拟合和泛化问题，为未来扩散模型的实用化对齐提供了重要的技术路线。