Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

该论文提出了一种通过重新参数化扩散过程为角度形式以消除奇点并启用高阶 ODE 求解器,同时直接联合估计图像与噪声以提升更新稳定性的方法,从而显著提高了扩散模型生成图像的速度与质量。

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在教一个“画师”如何画得更快、更好、更稳

想象一下,现在的 AI 画图(比如 Midjourney 或 Stable Diffusion)其实是在玩一个“从一团乱麻中理出清晰图像”的游戏。传统的做法是:AI 先往一张完美的画里疯狂加噪点(像往清水里倒墨水),直到变成一团模糊的灰;然后,它再尝试把这团灰一点点“擦”干净,变回原来的画。

这篇论文的作者(来自墨尔本大学)发现,传统的“擦除”方法有两个大毛病:

  1. 起步太慢:刚开始擦的时候,全是乱码,AI 不知道从哪下手,得磨蹭很久才能看出个大概轮廓。
  2. 擦不干净:到了最后阶段,AI 容易把细节擦花,或者擦过头,导致图片模糊。

为了解决这些问题,他们提出了两个“独门秘籍”:

秘籍一:换个“擦除”的路线(重新定义数学角度)

传统做法
想象你要从“全黑”走到“全白”。传统方法走的是一条直路,但在起点和终点这两个路口,路变得非常陡峭,甚至像悬崖一样(数学术语叫“奇点”)。这导致 AI 在起步和收尾时,要么走得太慢,要么容易滑倒(计算不稳定)。

作者的新做法
他们把这条路改成了一个平滑的圆弧(就像四分之一圆的弧线)。

  • 比喻:这就好比从山顶滑滑梯下山。传统方法是走直角楼梯,上下都很费劲;新方法则是走一个平滑的滑梯。
  • 好处:因为路变平滑了,AI 就可以用更高级的“交通工具”(比如四阶龙格 - 库塔法,一种更精准的数学求解器)来加速滑行。以前需要走 1000 步才能到终点,现在可能走 50 步就能到,而且不会摔跟头。

秘籍二:同时盯着“画”和“噪点”(双重预测)

传统做法
以前的 AI 在“擦除”过程中,只能做二选一

  • 流派 A(只猜噪点):像 DDPM。它只盯着“我要擦掉什么噪点”。在刚开始(全是噪点)时很擅长,但到了最后(快成画了),它反而有点晕,不知道该怎么微调细节。
  • 流派 B(只猜原画):像 Cold Diffusion。它直接猜“原图长啥样”。在刚开始(全是噪点)时完全猜不到,但在最后阶段很准。

作者的新做法
他们让 AI 变成一个**“双料特工”**。

  • 比喻:想象你在修一幅被泼了墨水的画。以前的 AI 要么只负责“把墨水吸走”(猜噪点),要么只负责“把画补全”(猜原图)。
  • 新方法:我们的 AI 会同时做两件事:它一边看着“现在的墨水印子有多重”(估计噪点),一边看着“这幅画原本应该长什么样”(估计原图)。
  • 好处
    • 刚开始全是墨的时候,它靠“猜噪点”的能力快速把大块的墨去掉。
    • 快到结束时,它靠“猜原图”的能力把细节补得栩栩如生。
    • 因为它两头都抓,所以整个过程非常,不会出现“起步慢”或“收尾烂”的情况。

最终效果:快人一步,画得更好

通过这两个改进,作者发现他们的模型(叫 arcDiff)有惊人的表现:

  1. 速度快得离谱:以前需要走 1000 步才能画出一匹清晰的马,现在走 150 步就能看出来是马了(传统方法可能要 400-500 步)。这就好比别人还在慢慢描线稿,你已经上色完成了。
  2. 质量更高:画出来的东西更清晰、更逼真,而且多样性更好(不会画出来的马都长得一样)。
  3. 更省钱:因为走得快,训练模型需要的计算时间也大大减少了。

总结一下
这篇论文就是给 AI 画师换了一双更顺滑的溜冰鞋(新的数学路径),并且给它配了一个既能看墨迹又能看原图的“超级大脑”(同时估计图像和噪点)。结果就是,AI 现在能像闪电一样,从一团乱麻中迅速变出一幅精美的画作。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →