TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

本文提出了 TDM-R1,一种基于轨迹分布匹配(TDM)的新型强化学习范式,通过解耦奖励学习与生成器训练并引入每步奖励信号,成功解决了少步扩散模型无法利用非可微奖励(如人类偏好)进行优化的难题,在文本渲染、视觉质量及偏好对齐等任务中实现了最先进的性能。

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 TDM-R1 的新方法,它就像是为“极速版”AI 绘画模型装上了一套**“智能教练系统”**,让 AI 在极少的步骤内就能画出高质量、符合人类喜好的图片。

为了让你更容易理解,我们可以把整个过程想象成**“教一个天才但急躁的画家”**。

1. 背景:快枪手画家的烦恼

现在的 AI 绘画(扩散模型)有两种流派:

  • 慢工出细活派(传统模型): 像老画家,画一幅画要慢慢描 100 笔(100 步),画得很稳,但太慢了。
  • 快手派(Few-Step 模型): 像天才速写画家,只画 4 笔(4 步)就能出图,速度极快,适合商业应用。

问题出在哪?
虽然快手派画得快,但经常“翻车”。比如你让它画“一只猫在桌子左边”,它可能把猫画在右边,或者把猫画成狗。
以前,我们想教这些快手画家,只能靠**“可计算的分数”(比如数学公式算出来的误差)。但这就像只教画家做数学题,却没法教他“人类喜不喜欢这幅画”、“图里的字写得对不对”或者“物体数量对不对”。因为这些人类的主观喜好“不可计算的”**(非可微的),传统的训练方法根本“教不会”快手画家。

2. 核心突破:TDM-R1 的“三步走”策略

TDM-R1 就像一位高明的教练,它发明了一套新的训练法,专门解决“怎么教快手画家听懂人类的主观评价”这个问题。

第一步:把“模糊的直觉”变成“清晰的地图”

  • 旧方法: 以前教画家,只能等画完最后一笔(生成完图片)才给打分。如果画错了,画家不知道是哪一步(第 1 笔还是第 3 笔)出了问题,只能瞎猜。
  • TDM-R1 的妙招: 它利用快手画家特有的**“确定性路径”**(就像画家走的是固定的直线,而不是乱跳的曲线)。
    • 比喻: 想象画家在画画时,每一步都留下了清晰的脚印。TDM-R1 能顺着脚印往回看,精准地告诉画家:“你第 2 笔的时候,颜色选错了;第 3 笔的时候,位置偏了。”
    • 效果: 即使奖励(比如人类点赞)是在最后才给的,TDM-R1 也能把它公平、准确地分摊到画画的每一个中间步骤上。

第二步:请一位“替身教练”(Surrogate Reward)

  • 难题: 人类的点赞(非可微奖励)没法直接用来做数学推导(反向传播),就像你没法直接通过“点赞”来修改画家的肌肉记忆。
  • TDM-R1 的妙招: 它训练了一个**“替身教练”**(一个小型的 AI 模型)。
    • 比喻: 这个替身教练专门负责观察画家的每一笔,把人类模糊的“喜欢/不喜欢”翻译成画家能听懂的“数学指令”。
    • 怎么练? 它采用**“分组 PK"**的方式。比如,让画家画 10 张图,把画得好的 5 张归为“红队”,画得差的 5 张归为“蓝队”。替身教练通过对比这两队,学会如何给出更精准的指导信号。
    • 动态更新: 这个替身教练不是死板的,它会随着画家的进步不断调整自己的标准,就像教练会根据学生的水平动态调整训练难度。

第三步:双管齐下,既求快又求好

  • 训练过程:
    1. 画家(生成器) 努力画得更好,以赢得替身教练的“高分”。
    2. 替身教练 不断进化,给出更精准的反馈。
    3. 同时,为了防止画家为了拿高分而“走火入魔”(画成奇怪的抽象画),TDM-R1 还加了一个**“紧箍咒”**(KL 正则化),确保画家画的图依然符合基本的物理规律和审美常识。

3. 成果:小步快跑,超越大师

实验结果非常惊人:

  • 速度极快: 只需要 4 步(4 NFE)就能生成高质量图片。
  • 质量极高: 在“物体数量”、“文字渲染”、“空间位置”等硬核测试中,TDM-R1 的得分(92%)甚至超过了需要画 80 步的传统大师模型(63%),也超过了目前最强的商业模型 GPT-4o(84%)。
  • 通用性强: 无论是 SD3.5 还是最新的 Z-Image 大模型,只要用了这套方法,都能瞬间变强。

总结

TDM-R1 就像是给“极速赛车”装上了“顶级导航和教练系统”。
以前,极速赛车(Few-Step 模型)虽然快,但容易跑偏,且无法理解复杂的赛道规则(人类主观奖励)。TDM-R1 通过精准的路径分析智能的替身教练,让赛车手在保持极速的同时,也能完美理解并执行复杂的指令,最终实现了**“又快又好”**的终极目标。

这项技术意味着,未来我们在手机上使用 AI 绘画,不仅能秒出图,而且画出来的东西能精准听懂你的话,甚至能画出完美的文字和复杂的场景。