Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Dual-Solver（双求解器） 的新方法，旨在让 AI 画图（扩散模型）变得更快、更省资源，同时还能保持画得很精美。

为了让你轻松理解，我们可以把 AI 画图的过程想象成**“从一团迷雾中雕刻出一座雕像”**。

1. 背景：为什么现在的 AI 画图这么慢？

想象一下，你手里有一块被迷雾完全包裹的大理石（这是 AI 生成的初始噪点图）。你的目标是把它变成一尊精美的雕像（清晰的图片）。

传统方法（慢）： 现在的 AI 画图，就像是一个小心翼翼的雕刻家。他必须一步一步地凿去迷雾。每凿一下（这叫一次“函数评估”，NFE），他都要停下来思考、观察，然后再凿下一刀。为了把雕像刻得完美，他可能需要凿100 刀甚至更多。这非常耗时，就像为了做一顿饭，你切了 100 次菜才下锅。
现有的加速方法（快但不够完美）： 以前的科学家发明了一些“捷径”，比如用数学公式直接估算出下一刀该凿哪里，这样可能只需要10 刀就能完成。但是，如果刀数太少（比如只凿 3 刀），雕像就会变得面目全非，或者细节模糊。

2. Dual-Solver 的核心创意：聪明的“双刀流”

Dual-Solver 的核心思想是：不要死板地只选一种雕刻方式，而是学会“灵活变通”。

论文发现，在雕刻过程中，有三种不同的“视角”或“预测方式”：

预测噪音： 猜这团迷雾里藏着什么杂音。
预测数据： 直接猜这块石头原本长什么样。
预测速度： 猜石头正在向哪个方向移动。

以前的方法通常只固定用其中一种视角。但 Dual-Solver 说：“为什么不能混合使用呢？”

它引入了三个**“智能旋钮”**，让 AI 在每一步雕刻时都能自己决定怎么操作：

旋钮一（预测类型 $\gamma$ ）： 就像是一个**“混合调料瓶”。AI 可以根据当前迷雾的浓淡，自动决定是主要看“噪音”、主要看“数据”，还是把两者按比例混合。它不再非黑即白，而是可以平滑过渡**。
旋钮二（积分域 $\tau$ ）： 这是一个**“时间加速器”**。有时候迷雾消散得快，有时候慢。这个旋钮能让 AI 在迷雾消散快的时候“大步流星”，在迷雾难解的时候“慢工出细活”，而不是机械地按固定时间步长走。
旋钮三（残差项 $\kappa$ ）： 这是一个**“微调修正器”**。就像雕刻家凿完一刀后，发现稍微歪了一点，这个旋钮能让他立刻做一个微小的修正，确保整体形状依然精准。

3. 怎么学会这些技巧？（不用“老师”教）

通常，教 AI 学会这些技巧，需要给它看一个“满分答案”（比如用 100 刀凿出来的完美雕像），让它模仿。但这需要巨大的计算成本，而且如果只让 AI 模仿 3 刀的结果，它学不会。

Dual-Solver 发明了一种**“盲测法”**（基于分类的学习）：

以前的做法（回归学习）： 老师拿着满分试卷（高分辨率图），让学生照着抄。学生必须画得和试卷一模一样。
Dual-Solver 的做法（分类学习）： 老师不给学生看满分试卷，而是给学生看一张画，问：“这是一只猫还是一条狗？”
- 如果 AI 画出来的东西，能让一个**“识别专家”（预训练的分类器，比如 MobileNet 或 CLIP）** 一眼认出是“猫”，那就说明画得对！
- 如果识别成“狗”了，AI 就调整自己的“旋钮”，直到识别成“猫”为止。

比喻： 这就像学骑自行车。以前是教练在后面扶着车（模仿高分样本），现在是你自己骑，只要不倒下、能认出路标（分类器能识别），你就成功了。这种方法让 AI 在极少的步数（3-9 步） 下，也能学会怎么画得又快又好。

4. 效果如何？

论文在多个著名的 AI 画图模型（如 DiT, SANA, PixArt）上进行了测试。

结果： 在只允许 AI 画3 到 9 步（极少的步数）的情况下，Dual-Solver 画出来的图，比目前市面上其他最快的方法都要更清晰、更像真的（FID 分数更低，CLIP 分数更高）。
意义： 这意味着以后我们在手机上用 AI 画图，可能瞬间就能生成高质量图片，而不需要等待几十秒甚至几分钟。

总结

Dual-Solver 就像是一个拥有“变色龙”能力的超级雕刻家：

它能灵活切换观察角度（预测类型）。
它能根据路况调整速度（积分域）。
它能随时微调细节（残差项）。
它不需要看着满分答案死记硬背，而是通过**“能不能被认出来”** 这种简单的目标，自己摸索出了在极短步数内画出完美作品的方法。

这项技术让 AI 生成图像从“慢工出细活”变成了“快刀斩乱麻”，同时还能保证质量不打折。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

扩散模型（Diffusion Models）在图像生成质量上达到了最先进水平，但其推理过程成本高昂，因为需要大量的函数评估次数（NFEs, Number of Function Evaluations）来逐步去噪。为了降低推理成本，研究者通常采用常微分方程（ODE）数值方法（如 Runge-Kutta 或 Adams-Bashforth 方法）来加速采样。

然而，现有的加速方法面临以下核心挑战：

预测类型的选择差异：扩散模型骨干网络通常训练为预测噪声（Noise）、数据（Data）或速度（Velocity）。在离散时间步中，不同的预测类型会导致不同的更新公式和采样行为，现有的求解器往往固定使用某一种预测类型，缺乏灵活性。
积分域与残差项的局限性：传统的 ODE 求解器在积分域（如线性域或对数域）的选择以及高阶残差项的处理上通常是固定的，无法根据具体的模型架构或采样步数进行自适应调整。
学习成本高昂：现有的“学习型求解器”（Learned Solvers）通常需要通过回归（Regression）来模仿高 NFE 的“教师”轨迹。这需要生成大量高质量的目标样本或轨迹，导致训练开销巨大，且在极低 NFE（如 NFE $\le$ 5）下表现不佳。

2. 方法论 (Methodology)

作者提出了 Dual-Solver，这是一种通用的、基于学习的 ODE 求解器，旨在通过可学习参数来统一和泛化多步采样器。

2.1 核心架构：双重预测与可学习参数

Dual-Solver 保留了标准的预测器 - 校正器（Predictor-Corrector）结构，但引入了三类可学习参数，使其能够动态调整采样行为：

预测类型插值参数 ( $\gamma$ )：
- 提出了一种“双重预测”方案，同时利用数据预测 ( $x_\theta$ ) 和噪声预测 ( $\epsilon_\theta$ )。
- 通过参数 $\gamma$ 在噪声预测、速度预测和数据预测的积分形式之间进行连续插值。
- $\gamma = -1, 0, 1$ 分别对应噪声、速度和数据预测。
积分域变换参数 ( $\tau$ )：
- 引入对数 - 线性（Log-Linear）变换 $L(y; \tau) = \frac{\log(1+\tau y)}{\tau}$ 。
- 通过参数 $\tau$ 在纯线性变换（ $\tau \to 0$ ）和对数变换（ $\tau = 1$ ）之间插值，从而灵活选择积分域，以适应不同的数值稳定性需求。
残差项调整参数 ( $\kappa$ )：
- 在保持二阶局部精度的前提下，引入参数 $\kappa$ 来调整残差项（Residual Term）的幅度。
- 这增加了求解器在近似积分时的灵活性，允许更精细地控制高阶误差。

2.2 基于分类的学习策略 (Classification-Based Learning)

为了解决传统回归方法需要大量教师数据的问题，Dual-Solver 提出了一种基于分类的端到端训练策略：

无需目标样本：不依赖高 NFE 生成的教师轨迹或最终样本。
损失函数：使用预训练的冻结分类器（如 MobileNet 或 CLIP）。将求解器生成的样本解码后输入分类器，计算生成样本的分类概率与真实标签（或文本提示）之间的交叉熵损失。
优化目标：通过反向传播优化求解器的参数（ $\gamma, \tau, \kappa$ 等），使生成的样本落在分类器的正确决策边界内。
优势：这种方法在极低 NFE 设置下（3-9 步）表现优异，且训练开销远低于回归方法。

2.3 采样方案

采用 一阶预测器 + 二阶校正器 的组合（First-order Predictor + Second-order Corrector）。
每个时间步包含 10 个可学习参数（预测器和校正器各 5 个），加上可学习的时间步长调度。

3. 关键贡献 (Key Contributions)

通用化求解器框架：Dual-Solver 通过可学习参数 $\gamma, \tau, \kappa$ ，将多种预测类型、积分域和残差处理统一在一个框架内，能够自适应不同骨干网络（Diffusion 和 Flow Matching）和采样设置。
高效的分类驱动训练：首次提出使用分类损失（而非回归损失）来学习扩散模型的求解器参数。该方法无需生成昂贵的教师数据，显著降低了训练成本，并在低 NFE 区域取得了 SOTA 性能。
理论保证：证明了该求解器在保留二阶局部精度的同时，通过参数调整优化了离散化误差。
广泛的适用性：在多种主流骨干网络（DiT, GM-DiT, SANA, PixArt-α）和任务（ImageNet 分类条件生成、文本到图像生成）上进行了验证。

4. 实验结果 (Results)

实验在 ImageNet 条件生成（DiT, GM-DiT）和文本到图像生成（SANA, PixArt-α）任务上进行，评估指标为 FID（分数越低越好）和 CLIP Score（分数越高越好）。

低 NFE 性能卓越：在 $3 \le \text{NFE} \le 9$ 的范围内，Dual-Solver 在 FID 和 CLIP 分数上全面超越了现有的专用求解器（如 DPM-Solver++）和已有的学习型求解器（如 BNS-Solver, DS-Solver）。
- 例如，在 DiT 骨干上，NFE=5 时，Dual-Solver 的 FID 为 3.52，显著优于 BNS-Solver (14.53) 和 DPM-Solver++ (22.19)。
- 在 SANA 骨干上，NFE=3 时，Dual-Solver 的 FID 为 21.79，优于其他所有基线。
消融实验验证：
- 预测器配置：一阶预测器 + 二阶校正器（p1c2）配置效果最佳。
- 参数自由度：让所有参数（ $\gamma, \tau, \kappa$ ）自由学习比固定或共享参数效果更好，尤其是在极低 NFE 下。
- 分类器选择：研究发现，分类器的准确率与生成质量呈"V"型关系，中等准确率的分类器（如 MobileNetV3）往往能带来更好的 FID 分数，而非准确率最高的模型。
参数插值：实验表明，在不同 NFE 之间插值学习到的参数，虽然略低于直接针对该 NFE 优化的参数，但仍能保持优于其他求解器的性能，展示了参数的鲁棒性。

5. 意义与影响 (Significance)

降低推理门槛：Dual-Solver 使得扩散模型在极少的采样步数（如 3-5 步）下仍能生成高质量图像，极大地降低了推理延迟和计算成本，有利于实时应用。
训练范式转变：提出的“基于分类的求解器学习”方法为扩散模型优化提供了一条新路径，摆脱了对高 NFE 教师数据的依赖，降低了训练门槛和计算资源需求。
理论统一：该工作从数学上统一了不同预测类型和积分域的离散化差异，为设计更高效的扩散采样器提供了通用的理论框架。

总结：Dual-Solver 通过引入可学习的预测插值、域变换和残差调整参数，并结合高效的分类驱动训练策略，成功解决了扩散模型在低 NFE 采样下的质量瓶颈问题，是目前该领域在低步数采样方面的最先进（SOTA）方案。

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

1. 背景：为什么现在的 AI 画图这么慢？

2. Dual-Solver 的核心创意：聪明的“双刀流”

3. 怎么学会这些技巧？（不用“老师”教）

4. 效果如何？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心架构：双重预测与可学习参数

2.2 基于分类的学习策略 (Classification-Based Learning)

2.3 采样方案

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks