There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

이 논문은 사전 훈련된 VAE 없이 픽셀 공간에서 직접 학습하는 새로운 2 단계 프레임워크를 제안하여 이미지넷에서 VAE 기반 모델 및 DiT 를 능가하는 최첨단 생성 품질과 훈련 효율성을 달성했습니다.

Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"VAE 는 없다: 픽셀 공간에서 직접 그림을 그리는 새로운 방법"

이 논문은 인공지능이 그림을 그리는 방식에 대한 혁신적인 변화를 제안합니다. 기존의 방식이 겪던 문제를 해결하고, 더 빠르고 더 잘 그리는 새로운 방법을 소개합니다.

🎨 기존 방식의 문제점: "번거로운 번역가"

기존의 AI 그림 그리기 기술 (확산 모델) 은 보통 두 단계로 나뉩니다.

  1. 번역 (VAE): 먼저 고해상도의 원본 그림을 압축해서 '요약본 (잠재 공간, Latent Space)'으로 바꿉니다.
  2. 그림 그리기: AI 는 이 요약본을 보고 상상력을 발휘해 새로운 그림을 그립니다.
  3. 해석: 다시 그 요약본을 원본 그림으로 되돌려서 보여줍니다.

비유하자면:
이것은 고급 요리사가 요리할 때, 재료를 먼저 '분말'로 갈아서 섞고, 다시 '수프'로 끓인 뒤, 마지막에 다시 '원재료'로 되돌리는 과정과 같습니다.

  • 단점: 이 '분말'로 바꾸는 과정 (VAE) 자체가 매우 어렵고, 원래의 맛 (세부적인 디테일) 이 조금씩 사라집니다. 또한, AI 가 그리는 동안 이 '번역가' (VAE) 가 실수를 하면 최종 결과물도 망가집니다.

💡 이 논문의 해결책: "직접 그리는 천재 화가"

이 논문은 **"번역가 (VAE) 는 필요 없다!"**라고 선언합니다. 대신 AI 가 원래의 고해상도 그림 (픽셀) 을 직접 보고, 직접 배우고, 직접 그리는 방법을 제시합니다.

🚀 새로운 훈련 방법: "두 단계 교육 시스템"

이 새로운 방법 (EPG) 은 두 단계로 이루어진 특별한 교육 과정을 거칩니다.

1 단계: "눈을 뜨는 훈련" (프리트레이닝)

AI 에게는 아직 그림을 그리는 능력 (디코더) 이 없습니다. 먼저 **그림의 '의미'를 파악하는 능력 (인코더)**만 집중적으로 훈련시킵니다.

  • 비유: 마치 미술관 큐레이터가 됩니다. 흐릿하게 흐려진 그림 (노이즈가 섞인 이미지) 을 보더라도, 이것이 '고양이'인지 '자동차'인지 그 본질적인 의미를 알아내는 훈련입니다.
  • 핵심: 단순히 흐릿한 그림을 보는 게 아니라, 같은 그림이 시간이 지남에 따라 어떻게 깨끗해지는지 (확산 경로를 따라) 그 흐름을 이해하도록 가르칩니다.

2 단계: "손을 움직이는 훈련" (파인튜닝)

이제 의미 파악 능력을 갖춘 AI 에게 **그림을 그리는 도구 (디코더)**를 붙여줍니다.

  • 비유: 이제 큐레이터가 화가가 됩니다. 그가 파악한 '의미'를 바탕으로, 처음부터 끝까지 원본 그림의 디테일 그대로를 픽셀 단위로 직접 그려냅니다.
  • 결과: 번역 과정이 없으니, 원래의 맛 (디테일) 이 그대로 살아납니다.

🏆 놀라운 성과: "왜 이것이 중요한가?"

이 새로운 방식은 기존 방식보다 훨씬 훌륭합니다.

  1. 더 잘 그립니다 (성능):

    • ImageNet(유명한 그림 데이터셋) 에서 FID 점수 1.58이라는 역대 최고 기록을 세웠습니다. (숫자가 낮을수록 더 잘 그린다는 뜻입니다.)
    • 기존에 '번역가 (VAE)'를 쓰던 최고의 모델들보다 훨씬 더 선명하고 자연스러운 그림을 그립니다.
  2. 더 빠르고 저렴합니다 (효율):

    • 기존 방식보다 학습에 필요한 계산 비용이 약 30% 적게 듭니다.
    • 그림을 한 장 뽑아내는 속도도 매우 빠릅니다.
  3. 한 번에 그리는 consistency 모델의 성공:

    • 보통 AI 는 그림을 그릴 때 여러 번 반복해서 수정합니다 (예: 75 번). 하지만 이 모델은 **한 번의 시도 (One-step)**로도 매우 훌륭한 그림을 그릴 수 있습니다.
    • 이는 고해상도 그림을 VAE 없이 직접 학습시킨 세계 최초의 성과입니다.

🌟 요약: "왜 이 논문이 획기적인가?"

이 논문은 **"복잡한 번역 과정 (VAE) 을 버리고, AI 가 원본을 직접 이해하고 그리는 직관적인 방법"**을 증명했습니다.

  • 기존: "재료를 분말로 → 섞어서 → 다시 수프로 → 원재료로" (비효율적이고 맛 떨어짐)
  • 새로운 방법 (EPG): "재료를 바로 보고 → 바로 요리해서 → 바로 상에 올림" (맛있고 빠름)

이 기술은 AI 가 그림을 그릴 때 더 이상 '번역가'에 의존하지 않아도 된다는 것을 보여주며, 앞으로 더 고화질이고 효율적인 AI 예술의 시대를 열 것이라고 기대됩니다.