Image Generation Models: A Technical History

本文全面综述了过去十年图像生成领域的技术演进,系统梳理了从变分自编码器、生成对抗网络到扩散模型等主流架构的原理、优化与局限,并进一步探讨了视频生成、模型鲁棒性及负责任部署等关键议题。

Rouzbeh Shirvani

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一部**“图像生成 AI 的进化史”**,记录了计算机如何从只会画“马赛克”的小学生,一步步进化成能画出电影级大片、甚至能骗过人类眼睛的“超级艺术家”。

作者 Rouzbeh Shirvani 把这段历史分成了几个关键阶段,每个阶段都有一种独特的“魔法”在起作用。我们可以用一些生活中的比喻来理解这些复杂的模型:

1. 变分自编码器 (VAEs):试图“理解”世界的素描本

  • 原理:想象你要画一只猫。VAE 就像是一个素描本。它先把你看到的猫压缩成几个简单的线条(潜变量),然后再根据这些线条重新画出来。
  • 优点:它很懂“结构”,知道猫有耳朵、有尾巴,画出来的东西逻辑是对的。
  • 缺点:它画出来的东西往往模糊不清,像隔着一层雾看东西。因为它太追求“平均”,把猫画得像所有猫的平均样子,反而失去了细节。
  • 进化:后来人们给它加了“量化的代码本”(VQ-VAE),就像把模糊的素描变成了清晰的乐高积木块,为后来的大模型打下了基础。

2. 生成对抗网络 (GANs):造假者警察的猫鼠游戏

  • 原理:这是最经典的“猫鼠游戏”。
    • 生成器 (G) 是一个高明的造假者,它的任务是伪造钞票(图片)。
    • 判别器 (D) 是一个经验丰富的警察,任务是分辨真假。
    • 造假者为了不被警察抓,必须不断进化,画得越来越像真的;警察为了抓人,也必须越来越敏锐。两者在对抗中共同进步。
  • 优点:画出来的图极其清晰、锐利,甚至能骗过专家。
  • 缺点:训练非常不稳定。就像两个拳击手,如果警察太强,造假者就学不到东西;如果造假者太强,警察就抓不到人(模式崩溃),最后大家都画出一模一样的假钞。

3. 归一化流 (Normalizing Flows):像揉面团一样的数学魔术

  • 原理:想象你有一团简单的白色面团(高斯分布/噪音)。归一化流就像是一个揉面大师,通过一系列可逆的拉伸、折叠、旋转动作,把面团慢慢揉成一只复杂的“猫”的形状。
  • 优点:这是一个纯数学的方法,每一步都可以精确计算,没有“猜”的成分。
  • 缺点:揉面过程太复杂,计算量巨大,而且很难揉出特别高难度的形状(高分辨率图像)。

4. 自回归与 Transformer:像写文章一样画画

  • 原理:这就像写小说。你不可能一下子写完整本书,只能一个字一个字地写。
    • 这些模型把图片看作是一串文字(像素点或色块)。
    • 它先画第一个像素,再根据第一个画第二个,再根据前两个画第三个……以此类推。
  • 优点:非常稳定,而且特别擅长理解“上下文”(比如你输入“一只在草地上的猫”,它能很好地理解“草地”和“猫”的关系)。
  • 缺点太慢了!画一张图要画几千次,就像写一本小说要一个字一个字敲,效率低。

5. 扩散模型 (Diffusion Models):从噪音中“显影”

  • 原理:这是目前最火的**“去噪”**魔法。
    • 正向过程:想象一张清晰的猫的照片,你往上面不断泼墨(加噪音),直到它变成一团毫无意义的黑白雪花点。
    • 反向过程:AI 的任务是学习如何把泼上去的墨一点点擦掉,从一团雪花点中“洗”出一只清晰的猫。
  • 为什么厉害
    • 它不需要像 GAN 那样搞对抗,训练很稳。
    • 它不需要像自回归那样一个字一个字画,可以并行处理。
    • 它能把文字(比如“赛博朋克风格的猫”)作为条件,指导去噪的方向。
  • 进化:从直接在像素上“洗”(很慢),进化到在“潜空间”(压缩后的特征)上“洗”(像 Stable Diffusion),速度快了无数倍。

6. 最新趋势:流匹配 (Flow Matching) 与 视频生成

  • 流匹配:如果说扩散模型是“慢慢把墨擦掉”,流匹配就是**“走直线”**。它试图找到从噪音到图片的最短、最直的路线,让生成过程更快、更稳。
  • 视频生成:现在的 AI 不仅能画静止的画,还能拍电影
    • 难点在于时间的一致性:画一张图容易,但让图里的猫动起来,且每一帧都连贯、不闪烁,非常难。
    • 现在的模型(如 Sora, Runway, Lumiere)开始能生成几秒钟甚至几分钟的连贯视频,甚至能理解物理规律(比如水怎么流,人怎么跑)。

7. 阴影面:深伪 (Deepfakes) 与 安全

  • 双刃剑:技术越强大,风险越大。
    • 造假:可以生成名人假视频、假新闻,甚至用来诈骗。
    • 版权:AI 画的画算谁的?
    • 偏见:如果训练数据有偏见,AI 画出来的人可能也是偏见的。
  • 防御
    • 水印:给 AI 生成的图打上看不见的“隐形印章”,让人知道这是 AI 画的。
    • 检测器:训练专门的 AI 来识别“这是 AI 画的”,寻找那些人类肉眼看不见的微小瑕疵(比如频率上的异常)。

总结

这篇论文告诉我们,图像生成 AI 的发展就是一部**从“模糊”到“清晰”,从“随机”到“可控”,从“静态”到“动态”**的进化史。

  • 过去:我们只能生成模糊的、不可控的图。
  • 现在:我们可以用文字指挥 AI 画出电影级的画面,甚至生成视频。
  • 未来:我们需要在能力安全之间找到平衡,确保这个强大的工具被用于创造美好,而不是制造混乱。

这就好比我们发明了火,既能取暖做饭,也能烧毁森林。现在的任务就是学会如何安全地驾驭这把“火”。