Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

本文提出了一种针对文本到图像模型后训练的在线强化学习新方法,通过将整个采样过程视为单一动作并利用配对轨迹降低方差,实现了比现有方法更快的收敛速度以及更高的输出质量和提示词对齐度。

David McAllister, Miika Aittala, Tero Karras, Janne Hellsten, Angjoo Kanazawa, Timo Aila, Samuli Laine

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让 AI 画得更好、更听话的新方法。为了让你轻松理解,我们可以把训练 AI 画图的整个过程想象成教一个刚学画画的“天才学徒”如何画出完美的作品

1. 背景:学徒的困境

现在的 AI 画图模型(比如 Stable Diffusion)就像是一个已经受过严格基础训练的“天才学徒”。

  • 预训练(Pre-training): 学徒看了几亿张图,学会了怎么把一团乱麻(噪点)变成一张清晰的画。但他画的东西虽然像样,却可能不够美,或者画出来的东西跟你的要求(提示词)不太对劲。
  • 后训练(Post-training): 为了让学徒画得更符合人类喜好(比如更漂亮、文字更准确),我们需要给他“奖励”。
    • 旧方法(Flow-GRPO): 就像老师让学徒画 10 张草图,然后说:“这张画得不错,那张不行。”然后告诉学徒:“下次你画的时候,要模仿那张好图里每一步的随机动作。”
    • 问题: 这种方法有个大毛病。学徒在模仿时,不仅模仿了“好”的部分,还把那些“好”与“坏”之间无关紧要的随机噪音也一起学进去了。就像学徒为了画好一朵花,不仅学会了怎么画花瓣,还莫名其妙地学会了怎么在背景里加奇怪的网格条纹(这就是论文里说的“奖励黑客”现象,AI 为了拿高分开始走捷径,导致画面出现瑕疵)。而且,因为要模仿很多随机步骤,进步很慢。

2. 新方法:有限差分流优化 (FDFO)

这篇论文提出的新方法,就像是一位更聪明的教练,他不再让学徒盲目模仿每一步的随机动作,而是采用了一种“对比找茬”的策略。

核心比喻:双胞胎画画的“找不同”游戏

想象一下,教练让学徒拿着同一张底稿(初始噪点),画两幅非常相似的画(我们叫它们“双胞胎画作”):

  1. 画作 A:按正常流程画。
  2. 画作 B:在画的过程中,稍微加一点点“随机扰动”(比如笔触稍微抖一下,或者颜色稍微偏一点),导致最终画出来的细节有点不一样。

关键步骤来了:

  • 教练把这两幅画拿去评分(比如用 AI 模型或人类偏好模型打分)。
  • 假设 画作 B 的分数比 画作 A 高。
  • 教练不会告诉学徒:“你要模仿 B 的每一步随机动作。”
  • 教练会直接指着两幅画的差异说:“看!B 比 A 好在哪里?是因为 B 的这片叶子更绿了一点,或者那个人的表情更生动了一点。你只需要把‘从 A 变到 B'的那个方向,作为你未来努力的目标。"

为什么这很厉害?

  • 去除了噪音: 旧方法里,学徒要模仿整个随机过程,里面充满了无用的噪音。新方法直接提取了“好”与“坏”之间的有效差异(就像把两幅画叠在一起,只保留不同的部分)。
  • 方向明确: 这个差异向量(ΔRΔx\Delta R \cdot \Delta x)就像是一个精准的指南针,直接指向“更好的画”的方向。它告诉模型:“往这个方向调整你的笔触,就能得分更高。”
  • 不再走弯路: 因为直接瞄准了差异,模型不需要在随机方向上乱撞,所以收敛速度极快(学得快),而且不会画歪(不会出现奇怪的网格或风格漂移)。

3. 具体是怎么做的?(简单版)

  1. 生成一对: 用同样的起点,生成两幅稍微有点不同的图。
  2. 打分对比: 看看哪幅图更好,好多少。
  3. 计算“修正力”: 用“分数的差距”乘以“画面的差距”。这就得到了一个修正指令
  4. 全员修正: 把这个修正指令,均匀地应用到生成这幅画的每一个步骤中。就像告诉学徒:“从第一笔到最后一笔,你都要朝着这个‘变好’的方向微调。”

4. 结果如何?

论文通过大量实验证明,这种方法比现在的顶尖方法(Flow-GRPO)强很多:

  • 学得更快: 达到同样的画功,只需要更少的时间(论文说快了 5 到 19 倍)。
  • 画得更好: 生成的图片质量更高,跟提示词(Prompt)更贴切。
  • 更稳定: 不会出现旧方法那种画着画着就出现奇怪网格、风格乱飞的问题。

总结

如果把训练 AI 画图比作调音

  • 旧方法像是在嘈杂的房间里,让学徒听一段复杂的音乐,然后让他模仿每一个音符的微小颤动,结果学徒把背景里的杂音也学进去了,越调越乱。
  • 新方法像是让学徒听两个版本的录音,直接告诉他:“第二个版本比第一个版本好,好在哪里?就是那个高音更准了一点。你只需要把那个‘准一点’的感觉,加到每一次演奏中。"

这种方法简单、直接、高效,让 AI 画图的“后训练”阶段变得更加聪明和稳健。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →