Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

该论文提出了软 Q 函数重参数化策略梯度扩散微调(SQDF)方法,通过引入折扣因子、一致性模型集成及离线回放缓冲区等创新,有效解决了扩散模型微调中的奖励过优化问题,在提升目标奖励的同时保持了样本的多样性与自然性。

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SQDF 的新方法,旨在解决人工智能(AI)绘画模型在“微调”过程中遇到的一个棘手问题:如何既让画得更好看,又不会让 AI 变得“走火入魔”,画出一堆虽然分数高但完全不像东西的抽象垃圾。

我们可以把这篇论文的核心思想想象成在教一个天才画家(AI)如何更好地画画

1. 背景:天才画家的“走火入魔”

想象一下,你有一个非常有天赋的画家(这就是现在的扩散模型,比如 Stable Diffusion),他本来能画出非常自然、多样化的画作。

现在,你给他定了一个目标:“我要你画出最美的画,并且给出一个打分系统(奖励函数)。”

  • 传统方法的问题:如果你只盯着“分数”看,这个画家很快就会“走火入魔”(Reward Over-optimization)。为了拿到最高分,他可能会画出一些全是噪点、颜色极其鲜艳但根本看不出画的是什么(比如“一只猫”画成了一团红色的乱码)的画。虽然打分系统给了它满分,但人类一看就觉得很假、很丑。这就叫**“过度优化”**。
  • 现有的解决办法:以前的方法要么太慢,要么需要训练一个非常复杂的“裁判”来告诉画家哪里不对,但这往往很不稳定,就像让一个新手裁判去教大师,容易教歪。

2. SQDF 的核心:给画家装上“导航仪”和“回放镜”

SQDF 提出了一套全新的训练方案,它不像以前那样死板地逼着画家去追求分数,而是通过三个巧妙的“道具”来引导画家:

道具一:软 Q 函数导航仪(Soft Q-Function)

  • 比喻:想象画家在画画时,每一步都在猜测:“如果我这一步这样改,最后成品会是什么样?”
  • 传统做法:以前的方法需要画家把整幅画从头画到尾,才能知道最后得分多少,然后再回头改第一步。这太慢了,而且容易算错。
  • SQDF 的做法:它发明了一种**“瞬间透视眼”**(训练免费的软 Q 函数)。画家只需要画一步,这个“透视眼”就能立刻告诉他:“如果你现在这样改,最终成品的样子大概是这样的,而且能得多少分。”
  • 好处:画家不需要画完整个流程就能知道方向,训练效率极高,而且因为不需要重新训练复杂的裁判,非常稳定。

道具二:折扣因子(Discount Factor)—— 别太在意起步

  • 比喻:画画是一个漫长的过程。刚开始打草稿时(去噪的早期步骤),随便怎么改对最终成品的影响其实很小;只有到了最后几笔(去噪的后期步骤),稍微改一下就能决定画是神作还是废稿。
  • SQDF 的做法:它给画家戴上了一副**“时间眼镜”**。它告诉画家:“早期的步骤(打草稿)不用太纠结,稍微改改就行;但后期的步骤(最后几笔)非常重要,要全力以赴。”
  • 好处:这避免了画家在无关紧要的早期步骤上浪费精力,或者因为早期的微小误差而把整幅画带偏。

道具三:一致性模型与回放缓冲区(Consistency Model & Replay Buffer)

  • 比喻
    • 一致性模型:就像给画家配了一个**“超级速写助手”**。以前画家猜“最后成品长啥样”时,经常猜错(特别是在噪点很多的时候)。这个助手能非常精准地根据当前的草图,直接画出最接近成品的样子,让画家看得更清楚。
    • 回放缓冲区:就像画家的**“错题本”和“灵感库”**。以前画家只练当下的画,容易忘记以前学过的多样性。SQDF 把以前画过的、得分高且风格多样的画都存进“库”里。训练时,不仅练新画,还要时不时翻翻“库”里的老画,提醒自己:“别忘了,画猫可以有各种姿势,不能只画一种。”
  • 好处:既保证了训练看得准(助手),又保证了画出来的东西丰富多彩(错题本),不会让画家只会画一种“高分但单调”的画。

3. 实验结果:既高分又自然

研究人员用这套方法去训练 AI 画猫、画风景等。结果发现:

  • 分数更高:AI 画的画在“美学分”和“人类喜欢程度”上,比以前的方法都要高。
  • 不“走火入魔”:以前的方法为了高分,画出来的东西像抽象派乱码;SQDF 画出来的东西既高分,又保留了猫是猫、风景是风景的自然感。
  • 多样性好:同样的提示词(比如“一只猫”),SQDF 能画出各种姿态、各种风格的猫,而不会每次都画出一模一样的“高分猫”。

总结

简单来说,SQDF 就像是一位高明的教练。他不再只是拿着鞭子逼着运动员(AI)去冲刺(追求高分),而是:

  1. 给运动员装了GPS 导航(软 Q 函数),让他知道每一步怎么走最有效;
  2. 告诉他别在热身阶段太较劲(折扣因子),把力气用在刀刃上;
  3. 给他配了精准的辅助镜(一致性模型)和丰富的题库(回放缓冲区),让他既能看清目标,又能保持动作的多样性和自然度。

最终,这位教练成功训练出了既拿高分、又保持自然美感的 AI 画家。