There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

この論文は、自己教師あり事前学習を用いた新しい 2 段階トレーニングフレームワークを導入し、事前学習された VAE に依存することなくピクセル空間で直接学習する生成モデルを実現し、ImageNet において既存の潜在空間モデルや VAE ベースの手法を凌駕する SOTA 性能と計算効率を達成したことを報告しています。

Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「高画質な画像を作る AI(生成 AI)」を、これまでとは全く新しい、より効率的で強力な方法で訓練するという画期的な研究です。

タイトルにある**「THERE IS NO VAE(VAE は存在しない)」**という言葉が、この研究の核心を突いています。

以下に、専門用語を排し、身近な例え話を使ってわかりやすく解説します。


🎨 従来の方法:「翻訳屋」を介した複雑なプロセス

これまでの高画質な画像生成 AI(Stable Diffusion など)は、**「VAE(オートエンコーダー)」**という「翻訳屋」を必ず使っていました。

  1. 現実の画像(高解像度で詳細な写真)を、「圧縮された抽象的な言葉」(潜在空間)に翻訳します。
  2. AI は、その「抽象的な言葉」を元に新しい物語(画像の骨格)を作ります。
  3. 最後に、その「抽象的な言葉」を再び**「現実の画像」に翻訳**して出力します。

🚩 問題点:
この「翻訳屋(VAE)」自体を作るのが非常に難しく、完璧な翻訳はできません。

  • 細かいディテールが失われたり、歪んだりします。
  • 「翻訳屋」の能力が限界だと、生成 AI の性能もそこで頭打ちになってしまいます。
  • 翻訳の工程が増えるため、計算コスト(時間とエネルギー)がかかります。

💡 この論文のアイデア:「翻訳屋」を捨てて、直接「画家」になる

この研究チームは、**「翻訳屋(VAE)なんて必要ない!最初から高画質な絵を描けるように訓練すればいい」**と考えました。

しかし、いきなり高解像度の画像(ピクセル空間)から直接学習させると、AI は混乱してうまく学習できません(計算量が膨大になりすぎるため)。

そこで、彼らは**「2 段階のトレーニング」**という新しいアプローチを開発しました。

ステージ 1:「意味の理解」を学ぶ(予備学習)

まず、AI に**「絵の構造や意味」**を理解させます。

  • 例え話: 料理のレシピ本を熟読して、「卵焼きには卵と油が必要だ」という**「本質的な意味」**を学ぶ段階です。
  • 仕組み: AI は、ノイズ(雑音)が混じった画像を見て、それが「何の絵」なのかを推測し、ノイズの少ない状態と結びつけます。
    • ここでは、**「エンコーダー(理解する脳)」**だけを訓練します。
    • 重要な点は、ノイズの強さが違う画像同士を「同じ物語の続き」として結びつけることで、AI が「どんなに汚れても、元の意味は変わらない」という一貫性を学びます。

ステージ 2:「描画」を学ぶ(微調整)

次に、理解した「意味」を元に、実際に**「高画質な絵を描く」**練習をします。

  • 例え話: 料理のレシピ(意味)を理解した上で、実際に**「シェフ(デコーダー)」**を雇い、そのレシピ通りに完璧な卵焼きを焼く練習をします。
  • 仕組み: ステージ 1 で訓練した「理解する脳(エンコーダー)」に、**「描画する脳(デコーダー)」**をくっつけて、最初から最後まで一貫して訓練します。
    • ここで、VAE などの外部ツールは一切使いません。

🌟 なぜこれがすごいのか?(成果)

この方法(EPG と呼ばれる)は、驚くべき結果を生みました。

  1. VAE 不要で、VAE ありの AI より上手い!

    • 従来の「翻訳屋」を使う方法(Latent Space)よりも、「直接描く」方法(Pixel Space)の方が、画質が良く、学習も速いことが証明されました。
    • 有名な「DiT」という AI と比較すると、学習に必要な計算コストは約 30% しか使わずに、同じかそれ以上の性能を出しています。
  2. 超高速な生成が可能

    • 従来の AI は、画像を 1 枚作るのに何十回も計算を繰り返す必要がありましたが、この新しい AI は**「1 回(または数回)」の計算で高画質な画像を生成**できます。
    • これは、**「 consistency model(一貫性モデル)」**と呼ばれる技術を、高解像度画像で初めて成功させた成果です。
  3. 拡張性が高い

    • 画像の解像度が上がっても(256x256 から 512x512 へ)、計算コストが爆発的に増えることなく、スムーズに学習できます。

🏁 まとめ:何が起きたのか?

この論文は、**「AI が画像を作る際、無理やり『圧縮・翻訳』の工程を挟む必要はなかった」**と示しました。

  • 従来の方法: 高画質画像 → 翻訳(VAE)→ 抽象化 → 生成 → 翻訳(VAE)→ 高画質画像(手間が多く、翻訳ミスあり)
  • 新しい方法: 高画質画像 → 意味を理解する(予備学習)意味から直接描く(微調整) → 高画質画像(シンプルで、高品質、高速)

まるで、**「料理の味を覚えるために、まず食材の成分表を暗記するのではなく、実際に包丁を握って味見をしながら上達させる」**ような、直感的で効率的な学習法を確立したと言えます。

これにより、今後、より高画質で、より安く、より速く画像を生成できる AI が普及する可能性が大きく広がりました。