There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñar a un robot a pintar cuadros increíbles, como los de un museo, pero sin usar ningún "traje de invisibilidad" (que en el mundo de la IA se llama VAE o autoencoder latente).

Hasta ahora, la mayoría de los robots pintores usaban un truco: primero comprimirían la imagen en un código secreto (el "traje"), aprendían a pintar en ese código pequeño y luego intentaban "descomprimirlo" para ver el cuadro final. El problema es que a veces el traje se estira o se rompe, y el cuadro sale borroso o con extrañas deformaciones. Además, entrenar ese traje es muy difícil y lento.

Este nuevo paper, titulado "No hay VAE: Modelado Generativo de Imágenes en Espacio de Píxeles", propone una idea revolucionaria: ¿Por qué no enseñarle al robot a pintar directamente sobre el lienzo real, píxel a píxel, sin ningún traje de por medio?

Aquí te lo explico con una analogía sencilla:

1. El Problema: Pintar con los ojos vendados

Antes, para pintar en alta resolución (como un cuadro de 512x512 píxeles), los modelos de IA tenían que:

Aprender a comprimir el cuadro en una versión pequeña y borrosa (el VAE).
Aprender a generar esa versión pequeña.
Intentar expandirla de nuevo.

Era como intentar dibujar un mapa del mundo en un post-it y luego intentar ampliarlo a un mural gigante. Siempre se perdían detalles o se inventaban cosas que no existían. Además, entrenar ese "post-it" (el VAE) era un dolor de cabeza.

2. La Solución: Dos Etapas de Aprendizaje (El Método EPG)

Los autores crearon un nuevo sistema llamado EPG que funciona en dos fases, como si fuera un artista aprendiendo su oficio:

Fase 1: El Entrenamiento "Self-Supervised" (El Maestro Ciego)

Imagina que tienes un lienzo lleno de ruido blanco (como la nieve de una TV vieja).

El objetivo: Enseñar al robot a entender la "esencia" o el "alma" de la imagen, aunque esté muy sucia.
La técnica: En lugar de intentar adivinar el cuadro completo, el robot aprende a conectar dos versiones de la misma imagen: una muy sucia y otra un poco menos sucia.
La analogía: Es como si le mostraras a un estudiante una foto de un gato muy borrosa y luego la misma foto un poco más clara. El estudiante no necesita saber qué es un gato, solo necesita aprender que "si veo estos patrones borrosos, probablemente se conviertan en esos patrones más claros".
El truco: El robot aprende a reconocer formas y significados (semántica) sin necesidad de un "traje" previo. Aprende a ver el bosque, no solo los árboles.

Fase 2: El Ajuste Fino (El Pintor Profesional)

Una vez que el robot ya entiende la "esencia" de las imágenes (gracias a la Fase 1), le damos un pincel nuevo (un decodificador que se inicia desde cero) y le decimos: "Ahora, usa lo que aprendiste para pintar el cuadro completo, píxel a píxel".

Como el robot ya sabe "qué se ve" en las imágenes ruidosas, el proceso de pintar es mucho más rápido y eficiente.
No necesita adivinar, porque ya tiene una guía interna sólida.

3. ¿Por qué es tan impresionante? (Los Resultados)

Calidad de Museo: En pruebas con imágenes de 256x256 y 512x512 (como las de ImageNet), su modelo logró resultados mejores que los métodos anteriores que usaban el "traje" (VAE). ¡Pintaron mejor sin el traje!
Velocidad Relámpago:
- Modelos de Difusión: Tardaron mucho menos en entrenarse y consumieron menos energía que los gigantes actuales (como DiT). Es como si un coche de carreras lograra ir más rápido usando menos gasolina.
- Modelos de Consistencia (¡El gran logro!): Estos modelos pueden generar una imagen completa en un solo paso (como un disparo de cámara), en lugar de dar 50 o 100 pasos lentos. Antes, esto solo era posible con el "traje" (VAE). ¡Este paper es el primero en lograrlo directamente sobre los píxeles reales!
Eficiencia: Usaron solo el 30% de la potencia de cómputo que necesitan los modelos más famosos para lograr resultados superiores.

En Resumen

Este paper nos dice: "No necesitas un traductor secreto (VAE) para que la IA pinte bien. Si le enseñamos a entender el mundo visual directamente, píxel a píxel, con un buen método de entrenamiento, puede pintar mejor, más rápido y más barato".

Es como si antes tuviéramos que traducir un libro a un idioma secreto para entenderlo, y ahora descubrimos que podemos leerlo directamente en su idioma original, entendiendo cada palabra perfectamente desde el principio. ¡Una gran victoria para la eficiencia y la calidad en la inteligencia artificial!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "THERE IS NO VAE: END-TO-END PIXEL-SPACE GENERATIVE MODELING VIA SELF-SUPERVISED PRE-TRAINING", presentado en ICLR 2026.

1. El Problema

Los modelos generativos de difusión y consistencia que operan directamente en el espacio de píxeles (pixel-space) han sido históricamente difíciles de entrenar y suelen tener un rendimiento inferior en comparación con sus contrapartes en espacio latente.

Dependencia de VAEs: La mayoría de los modelos de alta resolución (como LDM, DiT) dependen de Autoencoders Variacionales (VAE) preentrenados para comprimir las imágenes en un espacio latente. Esto introduce un cuello de botella: el VAE debe equilibrar la compresión con la reconstrucción de alta fidelidad, y a menudo produce reconstrucciones imperfectas para latentes fuera de la distribución de entrenamiento. Además, la capacidad del VAE limita la adaptabilidad del modelo generativo a nuevos datos.
Ineficiencia en el Espacio de Píxeles: Los intentos anteriores de entrenar modelos directamente en píxeles han fallado en igualar la eficiencia y calidad de los métodos latentes debido a los altos costos computacionales y las tasas de convergencia lentas.

2. Metodología Propuesta: EPG (End-to-end Pixel-space Generative model)

Los autores proponen un marco de entrenamiento en dos etapas que descompone el modelo en un codificador (encoder) y un decodificador (decoder), inspirándose en el aprendizaje auto-supervisado (SSL) y la idea de que el codificador aprende semántica visual de alto nivel mientras que el decodificador actúa como un generador de píxeles de bajo nivel.

Etapa 1: Pre-entrenamiento del Codificador (Representation Consistency Learning)

En lugar de entrenar un VAE completo, se pre-entrena únicamente el codificador ( $E_\theta$ ) para capturar semántica visual significativa de imágenes limpias y ruidosas.

Alineación de Trayectorias: El objetivo es alinear las representaciones de imágenes ruidosas con puntos a lo largo de la misma trayectoria de muestreo determinista (ODE) que evoluciona desde una distribución previa (ruido gaussiano) hasta la distribución de datos.
Función de Pérdida: Se utiliza una combinación de dos pérdidas basadas en la métrica NT-Xent (contraste):
1. Pérdida Contrastiva: Aprende semántica general mediante aumentos de datos (vistas aumentadas de la misma imagen).
2. Pérdida de Consistencia de Representación: Alinea las representaciones de puntos temporalmente adyacentes en la misma trayectoria ODE (ej. $x_{t_n}$ y $x_{t_{n-1}}$ ). Esto reformula el aprendizaje de representaciones en imágenes ruidosas como una tarea de alineación generativa.
Estabilización: Se introduce un programa de temperatura ( $\tau$ ) interpolado linealmente para evitar la inestabilidad en las primeras etapas del entrenamiento, permitiendo una alineación más laxa en pasos de tiempo grandes y más estricta a medida que avanza el entrenamiento.

Etapa 2: Ajuste Fino (Fine-Tuning) End-to-End

Una vez pre-entrenado el codificador:

Se descarta la capa proyectora utilizada en el pre-entrenamiento.
Se inicializa aleatoriamente un decodificador ( $D_\theta$ ) y se entrena el modelo completo ( $E_\theta + D_\theta$ ) de manera end-to-end.
Objetivos: El modelo se ajusta para tareas específicas:
- Modelos de Difusión: Se optimiza con el objetivo de eliminación de ruido (denoising).
- Modelos de Consistencia: Se entrena para aproximar el punto final de la trayectoria ODE. Se introduce una pérdida auxiliar que alinea la salida del modelo con la imagen limpia original ( $x_0$ ) para proporcionar señales de supervisión adicionales, sin depender de modelos externos preentrenados.

3. Contribuciones Clave

Marco de Entrenamiento Novel: Se propone un marco que permite el modelado generativo eficiente y escalable en espacio de píxeles de alta resolución, eliminando la necesidad de VAEs preentrenados.
Descomposición Semántica: Se establece que entrenar un modelo de difusión puede enmarcarse como un problema de aprendizaje auto-supervisado, donde la clave del éxito es una representación semántica de alta calidad y consistente a través de los niveles de ruido.
Primer Modelo de Consistencia en Píxeles: Logran entrenar con éxito un modelo de consistencia directamente en imágenes de alta resolución (ImageNet-256) sin utilizar VAEs ni modelos de difusión preentrenados, algo nunca antes logrado.
Eficiencia Computacional: El modelo utiliza una arquitectura Vision Transformer (ViT) donde el tamaño del parche se ajusta proporcionalmente a la resolución (ej. 16x16 en 256px, 32x32 en 512px) para mantener constante la longitud de los tokens de entrada, mejorando la eficiencia.

4. Resultados Principales

Los experimentos se realizaron en el conjunto de datos ImageNet (256x256 y 512x512).

Modelos de Difusión:
- Lograron un FID de 1.58 en ImageNet-256 y 2.35 en ImageNet-512 con solo 75 evaluaciones de funciones (NFE).
- Superan a los métodos de espacio de píxeles anteriores y a los métodos basados en VAE (como DiT y SiT) tanto en calidad de generación como en eficiencia.
- Utilizan aproximadamente el 30% de la potencia de cómputo de entrenamiento necesaria para DiT para lograr un rendimiento superior.
Modelos de Consistencia:
- Lograron un FID de 8.82 en ImageNet-256 en un solo paso de generación.
- Esto supera significativamente a las contrapartes en espacio latente (como iCT) y marca el primer éxito en entrenar un modelo de consistencia en píxeles puros sin dependencias externas.
Eficiencia: En comparación con DiT-XL/2, el modelo EPG-XXL/16 alcanza un FID mejor (1.87 vs 2.27) con una fracción del costo de entrenamiento (160 horas vs 506 horas en 8xH200 GPUs).

5. Significado e Impacto

Este trabajo es significativo porque cierra la brecha de rendimiento y eficiencia entre el entrenamiento en espacio de píxeles y el espacio latente.

Eliminación del VAE: Demuestra que los VAEs no son estrictamente necesarios para la generación de alta calidad, eliminando la complejidad de entrenamiento y el cuello de botella de capacidad que imponen.
Escalabilidad: El enfoque es altamente escalable, mostrando mejoras en el rendimiento a medida que aumentan los recursos de pre-entrenamiento (tamaño del modelo y batch size).
Nueva Paradigma: Sugiere que el entrenamiento de modelos generativos puede beneficiarse de insights del aprendizaje visual tradicional (codificador/decodificador) aplicados directamente al espacio de píxeles, ofreciendo una ruta más flexible y eficiente para la síntesis de imágenes futuras.

En resumen, el artículo presenta EPG como un nuevo estado del arte (SOTA) para la generación de imágenes en espacio de píxeles, superando a los líderes actuales en latente con menos recursos computacionales y sin la necesidad de componentes de compresión preentrenados.