Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

本文提出了一种名为 EPD-Solver 的新型并行 ODE 求解器,它通过多梯度并行评估与基于残差 Dirichlet 策略优化的两阶段训练框架,在保持低延迟的同时有效解决了扩散模型采样中的累积截断误差问题,显著提升了复杂文本到图像生成任务的质量。

Ruoyu Wang, Ziyu Li, Beier Zhu, Liangyu Yuan, Hanwang Zhang, Xun Yang, Xiaojun Chang, Chi Zhang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EPD-Solver 的新方法,旨在解决当前 AI 绘画(扩散模型)生成图片时**“太慢”“快了就糊”**的两大痛点。

为了让你轻松理解,我们可以把 AI 生成图片的过程想象成**“盲人摸象”或者“在迷雾中下山”**。

1. 核心痛点:下山太慢,走快了容易摔

  • 现状:现在的 AI 画一张图,就像是一个蒙着眼睛的人,需要从山顶(全是噪点的乱图)一步步走到山脚(清晰的图片)。
  • 问题
    • :为了走得稳,他必须一步一步慢慢走(比如要走 20 步甚至 50 步),每走一步都要停下来思考“下一步往哪走”。这导致生成一张图要等很久。
    • :如果为了求快,强行让他一步跨一大步(减少步数),他就容易走偏,最后画出来的图要么模糊,要么形状奇怪(这就是论文说的“截断误差”)。

2. 传统方法的局限:要么慢,要么笨

以前的加速方法主要有两类:

  • 蒸馏法(Distillation):相当于给这个盲人“开天眼”,直接教他一步到位。但这需要重新训练整个大脑,成本极高,而且一旦教歪了,很难纠正。
  • 普通解法(Solver):相当于教他更聪明的走路姿势(比如看两步再决定)。但传统的聪明姿势通常是“串行”的:先看一步,再根据这一步的结果看第二步。这就像一个人走路,必须等左脚落地了,才能迈右脚,速度提不起来。

3. EPD-Solver 的绝招:平行宇宙般的“多线程”思考

这篇论文提出的 EPD-Solver 就像给这个盲人装上了**“六感”,并且让他学会了“并行思考”**。

核心创意一:平行梯度(Parallel Gradients)

  • 比喻:想象你要从 A 点走到 B 点,中间有一段弯曲的路。
    • 传统方法:先走到中间点 M,看看 M 点的方向,再决定怎么走到 B。
    • EPD-Solver:它不傻等。它在心里同时模拟了 K 个不同的中间点(比如 M1, M2, M3)。它不需要等 M1 的结果出来再算 M2,而是同时计算 M1、M2、M3 的方向。
  • 为什么快?:现在的电脑芯片(GPU)就像是一个拥有无数条并行跑道的体育场。传统方法是让一个人一条跑道跑完再换人;EPD-Solver 是让 K 个人同时在 K 条跑道上跑。因为大家是同时跑的,所以总时间并没有增加,但收集到的信息量(方向感)却大大增加了。
  • 结果:它能在不增加等待时间的前提下,更精准地描绘出那条弯曲的山路,从而用更少的步数(比如 20 步)走出以前需要 50 步才能达到的清晰度。

核心创意二:两阶段训练法(Distillation + RL)

为了让这个“多线程思考”的盲人真正学会走路,作者设计了两个阶段的训练:

  • 第一阶段:模仿秀(蒸馏)

    • 做法:先让一个“学霸”(高精度的慢速模型)走一遍完美的路线,留下脚印。然后让 EPD-Solver 去模仿这些脚印,学习怎么在几步之内还原出学霸的路线。
    • 目的:先保证它**“走得对”**,基础打牢。
  • 第二阶段:人类反馈强化学习(RL)

    • 做法:光“走得对”还不够,还得“画得好看”。这时候,作者引入了一个**“人类评委”**(奖励模型)。
    • 创新点:传统的强化学习是去修改整个 AI 的大脑(参数太多,容易学坏)。EPD-Solver 只修改**“走路策略”**(也就是那些中间点的选择权重)。
    • 比喻:就像教一个运动员。第一阶段是教他标准的跑步姿势(模仿学霸);第二阶段是让他对着镜子(人类评委)微调自己的摆臂角度和呼吸节奏,让他跑得更优雅、更符合人类审美,而不需要重新练肌肉。
    • 结果:这种方法非常高效,能让 AI 生成的图片不仅清晰,而且更符合人类的审美(比如构图更好、细节更真实)。

4. 实际效果:又快又好

论文在多个测试中证明了它的厉害:

  • 速度:在生成图片的步数减少到原来的 40% 甚至更少时(比如从 28 步减到 20 步),画质依然吊打其他方法。
  • 质量:在著名的测试集(如 ImageNet, Stable Diffusion)上,它的评分(FID, HPS)都是目前**最顶尖(SOTA)**的。
  • 兼容性:它就像一个**“插件”**(EPD-Plugin),可以插在任何现有的 AI 绘画工具上,直接提升效果,不需要把整个工具推倒重来。

总结

EPD-Solver 就像是给 AI 绘画装上了**“并行思考的超能力”。它不再死板地一步一步走,而是同时观察多个方向,用更少的步数走出更精准的路径。再加上“先模仿学霸,再听人类评委”的两段式训练,它成功解决了“既要马儿跑(快),又要马儿吃草少(画质好)”**的难题,让 AI 生成图片变得既高效又精美。