Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

该论文提出了名为 Diffusion Blend 的新方法,通过融合微调模型的逆向扩散过程,实现了无需额外微调即可在推理阶段根据用户指定灵活调整多目标奖励与 KL 正则化强度的扩散模型对齐。

Min Cheng, Fatemeh Doudi, Dileep Kalathil, Mohammad Ghavamzadeh, Panganamala R. Kumar

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Diffusion Blend(扩散混合) 的新方法,旨在解决当前 AI 绘画模型(如 Stable Diffusion)在“听指挥”和“画得好”之间难以平衡的问题。

为了让你轻松理解,我们可以把 AI 绘画模型想象成一位才华横溢但有点固执的厨师

1. 现状:厨师的困境

这位厨师(预训练的扩散模型)非常擅长做各种菜(生成图片),但他有自己的“老习惯”(预训练数据分布)。

  • 问题一:口味单一。 以前,如果你想让他做一道“既符合你描述(文字对齐)又特别美味(审美高)”的菜,你必须专门为他重新培训一次,让他只学这一种口味。
  • 问题二:难以兼顾。 如果你想让他做“稍微甜一点”的菜,或者“少放点盐”(调整不同的奖励权重),你就得重新培训他。
  • 问题三:过度优化。 如果为了追求“极致美味”而过度训练,他可能会做出一些虽然好吃但完全不像你要求的菜(比如你让他画苹果,他画了一堆红色的球,因为红色球得分最高,但这叫“奖励黑客”)。

以前的方法就像:你想吃什么口味,就得专门给厨师开一个培训班,学完才能做。这太慢、太贵,而且不灵活。

2. 核心创意:像“调鸡尾酒”一样调模型

这篇论文提出的 Diffusion Blend 就像是一个超级调酒师

  • 基础准备(训练阶段): 我们不需要为每一种口味都重新培训厨师。我们只需要先培训几个“基础版本”的厨师:

    • 厨师 A:专门擅长“文字描述准确”(Text-Image Alignment)。
    • 厨师 B:专门擅长“画面美观”(Aesthetics)。
    • 厨师 C:专门擅长“符合人类喜好”(Human Preference)。
    • 还有一个“原版厨师”(预训练模型),保持原汁原味。
  • 关键时刻(推理/生成阶段): 当你想要一张图时,你不需要重新培训任何人。你只需要告诉调酒师(Diffusion Blend 算法)你的配方

    • “我要 30% 的厨师 A 的精准度,70% 的厨师 B 的美感。”
    • 或者,“我要 50% 的精准度,但要把‘偏离原版’的惩罚力度调低一点。”

Diffusion Blend 的魔法在于: 它不需要真的把厨师 A 和 B 融合成一个新的厨师,而是在生成图片的每一步(就像炒菜时的每一个动作),动态地混合 A 和 B 的“动作指令”。

  • 这就好比你在炒菜时,左手拿着 A 厨师的菜谱,右手拿着 B 厨师的菜谱,根据你设定的比例,每翻一次锅,就混合着两人的建议来操作。
  • 结果就是:你得到了一张既符合描述又美观的图,而且不需要任何额外的训练时间,就像点了一杯现调的鸡尾酒一样快。

3. 三个主要功能(三种调酒方式)

论文提出了三种具体的“调酒”算法:

  1. DB-MPA(多口味混合):

    • 场景: 你想在“文字准确”和“画面好看”之间自由切换。
    • 比喻: 就像你可以随意调节鸡尾酒中“伏特加”和“果汁”的比例。你可以今天想要“更甜一点”(更重审美),明天想要“更烈一点”(更重文字描述),系统瞬间就能生成对应的图片。
  2. DB-KLA(控制“偏离度”):

    • 场景: 有时候你希望 AI 完全听你的(大胆创新),有时候你希望它别跑题太远(保持原模型风格)。
    • 比喻: 这就像调节“缰绳”的松紧。
      • 拉紧缰绳(高正则化):厨师必须严格遵循原版习惯,不敢乱发挥。
      • 松开缰绳(低正则化):厨师可以大胆创新,甚至有点“放飞自我”。
    • 以前的方法需要为每种“缰绳松紧度”重新培训厨师,而 Diffusion Blend 可以在推理时直接调节这个“松紧度”。
  3. DB-MPA-LS(极速版):

    • 痛点: 上面的混合方法虽然好,但如果要同时混合 10 种口味,电脑就要同时运行 10 个厨师,速度会变慢。
    • 比喻: 这是一个“随机采样”的聪明办法。它不需要同时叫 10 个厨师,而是随机在每一步叫其中一个厨师来指挥,但叫谁的概率由你设定的比例决定。
    • 效果: 就像你让一个厨师在“听 A 的”和“听 B 的”之间随机切换,但长期来看,效果几乎和同时听两个人一样好,而且速度没有变慢,和原版厨师一样快。

4. 实验结果:真的好用吗?

论文做了大量测试(用 Stable Diffusion 模型):

  • 效果: 生成的图片质量非常高,几乎达到了“为每种口味专门培训一个厨师”的效果(这是理论上的最佳水平)。
  • 对比: 比现有的其他方法(如简单的参数平均、梯度引导等)都要好,尤其是在处理“既要又要”的复杂需求时。
  • 速度: 尤其是那个“极速版”(DB-MPA-LS),在保持高质量的同时,没有增加额外的等待时间。

总结

Diffusion Blend 就像是给 AI 绘画模型装上了一个智能混音台
以前,你想换一种风格,就得给模型“换脑子”(重新训练);现在,你只需要在混音台上推几个推杆(调整权重),就能实时生成符合你所有复杂要求的图片。这让 AI 绘画变得更加灵活、个性化,而且成本更低。

一句话概括: 不需要重新训练,只需像调鸡尾酒一样混合不同的“技能包”,就能让 AI 瞬间学会你想要的任何风格。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →