Denoising Diffusion Probabilistic Models

该论文提出了一种受非平衡热力学启发的去噪扩散概率模型,通过结合去噪得分匹配与朗之万动力学的加权变分界进行训练,在 CIFAR10 和 LSUN 数据集上实现了当时最先进的图像生成质量。

Jonathan Ho, Ajay Jain, Pieter Abbeel

发布于 2020-06-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“去噪扩散概率模型”(Denoising Diffusion Probabilistic Models,简称 DDPM)**的新技术。简单来说,这是一种让计算机学会“从混乱中创造秩序”,从而生成高质量图片的方法。

为了让你更容易理解,我们可以把整个过程想象成**“把一杯浑浊的泥水变回一杯清澈的水”,或者“把一团乱麻重新编织成精美的挂毯”**。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心思想:两个相反的过程

想象你有一张清晰的照片(比如一只猫)。

  • 正向过程(加噪/扩散):
    这就好比你往这杯清澈的水里不断滴入墨水,或者往照片上不断撒盐粒。

    • 一开始,你只加一点点盐,照片稍微有点模糊。
    • 接着加多一点,猫的形状开始看不清了。
    • 一直加到第 1000 步,照片已经完全变成了一团毫无意义的随机噪点(就像电视没信号时的雪花屏)。
    • 关键点: 这个过程是固定的、机械的。计算机不需要学习怎么加噪,它只是按规则一步步把图变糊。
  • 反向过程(去噪/生成):
    这是模型真正“学习”的部分。

    • 想象你手里有一杯全是墨水的浑水(随机噪点)。
    • 你的任务是:倒着走,一步步把墨水“吸”出来,直到水变清,重新变回那只猫。
    • 模型就像一个**“超级侦探”**。它看着当前这团模糊的噪点,猜出:“哦,这里应该有一块黑色的毛,那里应该有一块白色的肉。”然后它尝试把噪点修正,让图像稍微清晰一点点。
    • 它重复这个过程 1000 次,每一步都让图像清晰一点,最后就生成了一张全新的、逼真的猫的照片。

2. 为什么这次这么厉害?(核心创新)

以前的扩散模型(2015 年就有类似概念)虽然原理一样,但训练起来很慢,生成的图质量也不高。这篇论文做了两个关键的“魔法”改进:

A. 换个“猜谜”的方式(预测噪音)

以前的模型试图直接猜“下一步的图长什么样”,这很难。
这篇论文发现,既然正向过程是“加噪音”,那反向过程其实就是**“预测刚才加进去的噪音是什么”**。

  • 比喻: 就像你在玩“大家来找茬”。与其让你直接画出完美的猫,不如让你看着一张被涂改过的图,告诉你:“刚才有人在这里乱涂了 3 笔,你把这 3 笔擦掉,图就对了。”
  • 模型专门训练去预测噪音(ϵ\epsilon。一旦它知道哪里是噪音,把它减去,剩下的就是清晰的图像。这种方法比直接预测图像要简单得多,也准确得多。

B. 给学习过程“分重点”(加权训练)

在去噪的过程中,有些步骤很难(比如从一团乱麻中看出猫的大致轮廓),有些步骤很简单(比如从稍微有点模糊的图里去掉最后一点噪点)。

  • 比喻: 就像学生复习考试。如果老师让他在“简单的计算题”和“复杂的压轴题”上花一样的时间,效率就不高。
  • 这篇论文发现,让模型多花时间在“难”的步骤上(即图像还很模糊的时候),少花时间在“简单”的步骤上,效果最好。他们设计了一种新的训练目标,让模型专注于攻克那些最难的去噪任务。

3. 结果有多好?

  • CIFAR10(小图数据集): 模型生成的图片质量达到了9.46分(Inception Score),这是一个非常高的分数,超过了当时很多著名的生成模型(如 GAN 的某些版本)。
  • LSUN(大图数据集): 在生成 256x256 分辨率的教堂、卧室等图片时,质量可以和当时最先进的 ProgressiveGAN 相媲美,甚至更好(FID 分数极低,代表图片越像真照片)。
  • 特点: 生成的图片非常自然,没有那种“假假”的伪影,而且细节丰富。

4. 一个有趣的发现:像“压缩”一样的生成

论文还提出了一个很酷的观点:这个生成过程其实是一种**“渐进式解压”**。

  • 比喻: 想象你下载一个大文件。
    • 刚开始,你只收到了一点点数据,你只能看到图片的大致轮廓(比如“这里有个大概的人形”)。
    • 随着数据一点点传过来,你开始看到衣服的颜色、发型。
    • 最后,所有的细节(毛孔、发丝)都加载完毕,图片变得无比清晰。
  • 扩散模型就是这样工作的:它从纯粹的随机噪音(相当于文件还没开始下载)开始,一步步“解压”出图像。最开始的几步决定了图片的构图和风格,最后的几步决定了细节和纹理

5. 总结与意义

这篇论文之所以重要,是因为它证明了:

  1. 扩散模型(以前被认为很难训练、效果一般)实际上可以生成世界顶级的图片
  2. 它不需要像 GAN 那样进行复杂的“博弈”(生成器和判别器打架),训练过程更稳定,更容易理解。
  3. 它建立了一个新的桥梁,把“去噪”、“热力学”和“概率模型”联系在了一起。

一句话总结:
这就好比教 AI 玩“逆向拼图”。AI 先学会怎么把拼图打碎成粉末(加噪),然后它通过观察粉末,学会了怎么一步步把粉末重新拼回完美的画作(去噪)。而且,它拼出来的画,比很多其他 AI 拼出来的都要漂亮和自然。

这项技术后来成为了生成式 AI(如 DALL-E 2, Stable Diffusion, Midjourney 等)的基石,彻底改变了我们创造图像的方式。