Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

本文提出了 Dual-Solver,一种通过可学习参数灵活调整预测类型、积分域及残差项的通用 ODE 求解器,旨在利用分类目标在低函数评估次数(NFE)下显著提升扩散模型的采样质量。

Soochul Park, Yeon Ju Lee

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Dual-Solver(双求解器) 的新方法,旨在让 AI 画图(扩散模型)变得更快、更省资源,同时还能保持画得很精美

为了让你轻松理解,我们可以把 AI 画图的过程想象成**“从一团迷雾中雕刻出一座雕像”**。

1. 背景:为什么现在的 AI 画图这么慢?

想象一下,你手里有一块被迷雾完全包裹的大理石(这是 AI 生成的初始噪点图)。你的目标是把它变成一尊精美的雕像(清晰的图片)。

  • 传统方法(慢): 现在的 AI 画图,就像是一个小心翼翼的雕刻家。他必须一步一步地凿去迷雾。每凿一下(这叫一次“函数评估”,NFE),他都要停下来思考、观察,然后再凿下一刀。为了把雕像刻得完美,他可能需要凿100 刀甚至更多。这非常耗时,就像为了做一顿饭,你切了 100 次菜才下锅。
  • 现有的加速方法(快但不够完美): 以前的科学家发明了一些“捷径”,比如用数学公式直接估算出下一刀该凿哪里,这样可能只需要10 刀就能完成。但是,如果刀数太少(比如只凿 3 刀),雕像就会变得面目全非,或者细节模糊。

2. Dual-Solver 的核心创意:聪明的“双刀流”

Dual-Solver 的核心思想是:不要死板地只选一种雕刻方式,而是学会“灵活变通”。

论文发现,在雕刻过程中,有三种不同的“视角”或“预测方式”:

  1. 预测噪音: 猜这团迷雾里藏着什么杂音。
  2. 预测数据: 直接猜这块石头原本长什么样。
  3. 预测速度: 猜石头正在向哪个方向移动。

以前的方法通常只固定用其中一种视角。但 Dual-Solver 说:“为什么不能混合使用呢?”

它引入了三个**“智能旋钮”**,让 AI 在每一步雕刻时都能自己决定怎么操作:

  • 旋钮一(预测类型 γ\gamma): 就像是一个**“混合调料瓶”。AI 可以根据当前迷雾的浓淡,自动决定是主要看“噪音”、主要看“数据”,还是把两者按比例混合。它不再非黑即白,而是可以平滑过渡**。
  • 旋钮二(积分域 τ\tau): 这是一个**“时间加速器”**。有时候迷雾消散得快,有时候慢。这个旋钮能让 AI 在迷雾消散快的时候“大步流星”,在迷雾难解的时候“慢工出细活”,而不是机械地按固定时间步长走。
  • 旋钮三(残差项 κ\kappa): 这是一个**“微调修正器”**。就像雕刻家凿完一刀后,发现稍微歪了一点,这个旋钮能让他立刻做一个微小的修正,确保整体形状依然精准。

3. 怎么学会这些技巧?(不用“老师”教)

通常,教 AI 学会这些技巧,需要给它看一个“满分答案”(比如用 100 刀凿出来的完美雕像),让它模仿。但这需要巨大的计算成本,而且如果只让 AI 模仿 3 刀的结果,它学不会。

Dual-Solver 发明了一种**“盲测法”**(基于分类的学习):

  • 以前的做法(回归学习): 老师拿着满分试卷(高分辨率图),让学生照着抄。学生必须画得和试卷一模一样。
  • Dual-Solver 的做法(分类学习): 老师不给学生看满分试卷,而是给学生看一张画,问:“这是一只猫还是一条狗?”
    • 如果 AI 画出来的东西,能让一个**“识别专家”(预训练的分类器,比如 MobileNet 或 CLIP)** 一眼认出是“猫”,那就说明画得对!
    • 如果识别成“狗”了,AI 就调整自己的“旋钮”,直到识别成“猫”为止。

比喻: 这就像学骑自行车。以前是教练在后面扶着车(模仿高分样本),现在是你自己骑,只要不倒下、能认出路标(分类器能识别),你就成功了。这种方法让 AI 在极少的步数(3-9 步) 下,也能学会怎么画得又快又好。

4. 效果如何?

论文在多个著名的 AI 画图模型(如 DiT, SANA, PixArt)上进行了测试。

  • 结果: 在只允许 AI 画3 到 9 步(极少的步数)的情况下,Dual-Solver 画出来的图,比目前市面上其他最快的方法都要更清晰、更像真的(FID 分数更低,CLIP 分数更高)。
  • 意义: 这意味着以后我们在手机上用 AI 画图,可能瞬间就能生成高质量图片,而不需要等待几十秒甚至几分钟。

总结

Dual-Solver 就像是一个拥有“变色龙”能力的超级雕刻家

  1. 它能灵活切换观察角度(预测类型)。
  2. 它能根据路况调整速度(积分域)。
  3. 它能随时微调细节(残差项)。
  4. 它不需要看着满分答案死记硬背,而是通过**“能不能被认出来”** 这种简单的目标,自己摸索出了在极短步数内画出完美作品的方法。

这项技术让 AI 生成图像从“慢工出细活”变成了“快刀斩乱麻”,同时还能保证质量不打折。