There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

该论文提出了一种通过自监督预训练实现端到端像素空间生成建模的新框架,无需依赖 VAE 即在 ImageNet 上实现了超越现有像素级及潜在空间方法的 SOTA 性能,并首次成功训练出无需预训练 VAE 的高分辨率一致性模型。

Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 EPG(端到端像素生成模型)的新方法,它的核心思想非常大胆:“扔掉 VAE(变分自编码器),直接在原始像素上训练生成模型”

为了让你轻松理解,我们可以把生成图像的过程想象成**“教一个画家画画”**。

1. 以前的做法:先学“压缩”,再学“画画” (VAE 路线)

目前的顶级绘画 AI(比如 Stable Diffusion)通常分两步走:

  1. 第一步(压缩): 先训练一个“压缩器”(VAE),把高清照片压缩成只有几个字的“摘要”(潜空间)。这就像把一幅名画压缩成一张只有几个关键词的便签。
  2. 第二步(画画): 让 AI 根据这些“便签”去画画。

问题出在哪?

  • 压缩会丢东西: 就像把高清照片压缩成便签,细节肯定有损失。AI 只能根据便签猜细节,所以画出来的东西有时候不够清晰,或者有些奇怪。
  • 训练很麻烦: 训练这个“压缩器”非常难,而且一旦压缩器定好了,AI 的能力就被锁死了,无法突破这个“便签”的限制。

2. 这篇论文的突破:直接教“画家”看原图 (EPG 路线)

这篇论文说:“我们为什么要走弯路?为什么不直接让 AI 在原始的高清像素上学习画画呢?”

直接看原图(像素空间)的好处是没有信息丢失,画质上限更高。但坏处是太难学了,因为像素太多,AI 容易“迷路”,训练效率极低。

为了解决这个问题,作者设计了一个**“两阶段特训营”**:

第一阶段:先当“鉴赏家” (自监督预训练)

  • 做法: 在正式画画前,先给 AI 看很多被噪声污染(模糊、有杂色)的图片。
  • 任务: 让 AI 学习从这些模糊图片中提取核心概念(比如:这是一只猫,那是天空)。
  • 关键技巧: 作者发明了一种特殊的“对齐”方法。想象一下,你有一张清晰的照片,然后慢慢给它加噪点,直到变成一团乱麻。作者让 AI 学习:“无论这团乱麻加了多少噪点,它背后的核心概念(猫)是不变的。”
  • 比喻: 这就像让一个学生在满是灰尘的黑板上,依然能认出老师写的字是什么。这步训练让 AI 拥有了极强的“眼力”,能透过现象看本质。

第二阶段:当“画家” (微调)

  • 做法: 把第一阶段训练好的“眼力”(编码器)保留下来,然后接上一个随机初始化的“画笔”(解码器)。
  • 任务: 让 AI 利用它已经学会的“眼力”,直接根据噪声生成清晰的像素图像。
  • 比喻: 学生已经学会了认字(第一阶段),现在给他一支笔,让他直接照着模糊的草稿画出完美的画作。因为他的“眼力”已经很强了,所以画画变得非常快且精准。

3. 为什么这个结果很牛?

作者用这个方法在 ImageNet(著名的图像数据集)上做了实验,结果非常惊人:

  1. 画质吊打同行: 在 256x256 和 512x512 分辨率下,他们的模型生成的图片质量(FID 分数)是目前像素空间直接训练方法里的世界第一,甚至超过了那些依赖“压缩器(VAE)”的顶级模型。
  2. 速度快、成本低:
    • 省算力: 他们的模型训练所需的计算量,只有目前最火的 DiT 模型的 30%
    • 省时间: 训练时间大幅缩短。
  3. 一致性模型的首秀: 他们还是第一个成功直接在像素空间训练出“一致性模型”(Consistency Model)的团队。
    • 什么是“一致性模型”? 想象一下,普通的 AI 画画要像走迷宫一样,一步步走 50 步才能出来。而一致性模型像**“瞬移”**,一步就能跳到终点。以前这种“瞬移”只能在压缩空间里做,现在作者直接在像素空间做到了,而且效果很好(FID 8.82)。

4. 总结:这篇论文说了什么?

简单来说,这篇论文证明了:我们不需要那个笨重的“压缩器(VAE)”作为中间商。

通过一种**“先学看本质,再学画细节”的两阶段训练法,作者让 AI 直接在原始像素上学会了画画。这不仅画质更好**(没有压缩损失),而且训练更快、更省钱

一句话比喻:
以前的 AI 画画是“先背单词(压缩),再写文章(生成)”,容易词不达意;现在的 EPG 是“直接看原图,理解意境,然后挥毫泼墨”,既快又好,而且省去了背单词的麻烦。

这篇论文为未来的图像生成技术指了一条新路:直接面对原始数据,用更聪明的训练方法,而不是依赖复杂的中间压缩工具。