Revisiting Autoregressive Models for Generative Image Classification

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñarle a una computadora a reconocer imágenes (como un perro, un coche o una playa) no diciéndole "esto es un perro", sino haciéndole una pregunta muy diferente: "¿Qué tan probable es que esta imagen haya sido creada por un perro?".

Este es el corazón del trabajo que presentan los investigadores de Yandex en este artículo. Aquí te lo explico como si fuera una historia, usando analogías sencillas.

1. El Problema: El "Orden Fijo" es como leer un libro de atrás hacia adelante

Antes de este trabajo, los modelos de inteligencia artificial que generaban imágenes (llamados modelos autoregresivos o AR) funcionaban como un niño aprendiendo a leer: iban píxel por píxel, de izquierda a derecha y de arriba a abajo.

La analogía: Imagina que tienes que adivinar qué objeto hay en una caja cerrada. Si solo puedes mirar la caja desde un ángulo fijo (por ejemplo, solo desde la esquina superior izquierda), podrías confundir un gato con un perro si solo ves la cola.
El problema: Los modelos antiguos estaban "atados" a ese único ángulo de visión (orden de píxeles). Si el modelo no veía la parte clave del objeto en ese orden específico, fallaba. Era como intentar adivinar un acertijo mirando solo una foto borrosa de un lado.

2. La Solución: El "Pintor Multidireccional"

Los autores se dieron cuenta de que si le daban al modelo la libertad de mirar la imagen en cualquier orden (primero el centro, luego la esquina, luego el borde, luego el centro de nuevo), el modelo entendía mucho mejor la imagen.

La analogía: Imagina que tienes un grupo de 20 detectives (el modelo) intentando resolver un crimen (clasificar la imagen).
- El método antiguo: Todos los detectives miraban la escena desde el mismo lugar y en el mismo orden. Si el criminal se escondía detrás de un árbol que no veían, todos fallaban.
- El nuevo método (Marginalización de orden): Ahora, tienes 20 detectives. Cada uno mira la escena desde un ángulo diferente y en un orden diferente. Al final, juntan sus informes.
- El resultado: Aunque un solo detective pueda equivocarse, cuando promedian sus opiniones, obtienen una visión completa y mucho más precisa de lo que realmente está pasando.

3. ¿Por qué es mejor que la competencia? (La carrera de velocidad)

En el mundo de la IA, hay dos grandes equipos compitiendo para clasificar imágenes:

Los Modelos de Difusión (DM): Son como un escultor que empieza con una bola de barro y va quitando trozos poco a poco hasta que aparece la imagen. Son muy precisos, pero lentos. Para clasificar una sola imagen, el escultor tiene que hacer cientos de pasos de "quitar barro".
Los Modelos Autoregresivos (AR): Son como un escritor que escribe una historia palabra por palabra. Son rápidos, pero antes de este trabajo, eran menos precisos porque estaban "atados" al orden de lectura.

El gran logro de este papel:
Los autores tomaron el modelo rápido (el escritor) y le dieron el superpoder de "leer en cualquier orden".

Resultado: Ahora, su modelo es más preciso que el escultor lento (los modelos de difusión) y, además, es hasta 25 veces más rápido.
Analogía: Es como si un corredor de maratón (el modelo AR) lograra ganar la carrera contra un coche de Fórmula 1 (el modelo de difusión) porque el coche se quedó atascado en el tráfico (necesitaba muchos pasos) mientras el corredor encontró un atajo inteligente (mirar la imagen desde múltiples ángulos).

4. ¿Qué significa esto para el futuro?

Hasta ahora, los modelos que "generan" imágenes (crean cosas de la nada) eran vistos como herramientas para hacer arte, pero no muy buenos para tareas serias como identificar enfermedades en radiografías o clasificar fotos de satélites.

Este trabajo demuestra que:

Si dejas que la IA "piense" de diferentes maneras (cambiando el orden en que ve las cosas), se vuelve increíblemente inteligente.
Ahora podemos tener sistemas que son rápidos, baratos y muy precisos al mismo tiempo, algo que antes parecía imposible.

En resumen

Los investigadores dijeron: "Oye, ¿y si dejamos de obligar a la IA a mirar las imágenes siempre de la misma manera?". Al permitirle mirar la imagen desde 20 direcciones diferentes y promediar las respuestas, crearon un "super-visor" que clasifica imágenes mejor que los mejores expertos actuales y lo hace a la velocidad de la luz.

Es como pasar de tener un solo testigo en un juicio (que puede estar equivocado) a tener un jurado completo que ve el caso desde todos los ángulos posibles. ¡Y ganan el caso casi instantáneamente!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Revisiting Autoregressive Models for Generative Image Classification

1. El Problema

Los modelos generativos condicionados a la clase (como los modelos de difusión y los modelos autoregresivos o AR) han demostrado ser clasificadores robustos y precisos, evitando a menudo las "soluciones atajo" (shortcut solutions) que dependen de correlaciones espurias, a diferencia de los clasificadores discriminativos tradicionales.

Sin embargo, en el ámbito de la clasificación de imágenes, los modelos de difusión (DM) han superado recientemente a los modelos autoregresivos (AR). El artículo identifica una limitación crítica en los enfoques AR anteriores: su dependencia de un orden de tokens fijo (generalmente un orden de escaneo en ráster: izquierda-derecha, arriba-abajo).

La limitación: Un orden fijo impone un sesgo inductivo restrictivo para la comprensión de imágenes. Las predicciones basadas en un solo orden tienden a depender de pistas discriminativas parciales (partes específicas del objeto) en lugar de una señal comprehensiva.
La hipótesis: Promediar las predicciones sobre múltiples órdenes de tokens proporcionaría una señal más robusta y completa, mejorando la capacidad de clasificación.

2. Metodología

Los autores proponen un clasificador generativo basado en AR con marginalización de orden (Order-marginalized AR-based generative classifier).

Modelo Base: Utilizan RandAR, un modelo autoregresivo de última generación capaz de generar imágenes en órdenes de tokens arbitrarios. A diferencia de los modelos AR clásicos, RandAR utiliza tokens de instrucción de posición y soporta permutaciones aleatorias de la secuencia de tokens.
Marginalización de Orden:
- En lugar de estimar la probabilidad condicional $p(x|c)$ para un solo orden fijo, el método estima la probabilidad marginalizando sobre todos los posibles órdenes de tokens.
- Matemáticamente, en lugar de calcular directamente $p(x|c) = \mathbb{E}_{\pi}[p(x|\pi, c)]$ , utilizan una cota inferior (lower bound) basada en la desigualdad de Jensen para mejorar la estabilidad y el rendimiento:
  $\log p(x|c) \geq \mathbb{E}_{\pi} [\log p(x|\pi, c)] \approx \frac{1}{K} \sum_{k=1}^{K} \log p(x|\pi_k, c)$
- Donde $K$ es el número de órdenes aleatorios muestreados (permutaciones).
Proceso de Inferencia:
1. La imagen se tokeniza en una secuencia discreta (usando un tokenizador VQ-VAE, específicamente LlamaGen).
2. Se generan $K$ secuencias permutadas aleatoriamente.
3. Para cada clase candidata, el modelo calcula la verosimilitud logarítmica para cada orden y se promedian.
4. La clase final se selecciona maximizando esta verosimilitud promediada.

3. Contribuciones Clave

Identificación del Sesgo de Orden: Demostraron empíricamente que el orden de los tokens afecta significativamente la clasificación. Algunos órdenes capturan mejor ciertas características del objeto que otros.
Marginalización de Orden: Introdujeron un marco que utiliza modelos AR "cualquier orden" (any-order) para promediar predicciones sobre múltiples secuencias, superando la limitación de los modelos de orden fijo.
Eficiencia Superior: A pesar de requerir múltiples pasadas forward (para $K$ órdenes), el método es hasta 25 veces más eficiente que los clasificadores basados en difusión, que requieren cientos de pasos de tiempo (timesteps) para una sola estimación de verosimilitud.
Rendimiento Competitivo con SSL: Lograron un rendimiento de clasificación competitivo frente a los modelos discriminativos auto-supervisados (SSL) más avanzados (como DINOv2), algo que anteriormente no se había logrado con clasificadores generativos.

4. Resultados Experimentales

Los experimentos se realizaron en ImageNet-1K y varios benchmarks de distribución fuera de entrenamiento (OOD) como ImageNet-R, ImageNet-Sketch, ImageNet-A y ImageNet-C.

Precisión en Dominio (In-Domain):
- El modelo RandAR-XL alcanzó un 81.3% de precisión top-1 en ImageNet-Val, superando a los clasificadores basados en difusión (DiT, SiT) y a los modelos AR anteriores (LlamaGen, VAR).
- Superó a los modelos AR de orden fijo (Raster) y a los modelos de difusión en todos los conjuntos de validación.
Robustez (Out-of-Distribution - OOD):
- El método mostró una superioridad notable en benchmarks OOD. Por ejemplo, en ImageNet-R, RandAR-XL obtuvo un 53.0% frente al 40.2% de DiT.
- En general, superó a DINOv2 en 3 de 5 benchmarks OOD (IN-R, IN-S, IN-C Gauss), demostrando una mayor generalización ante cambios de distribución.
Eficiencia:
- La inferencia de RandAR es significativamente más rápida. Mientras que los modelos de difusión requieren 100-250 evaluaciones del modelo por imagen, RandAR con $K=20$ (20 pasadas) es hasta 25 veces más rápido que los clasificadores de difusión para lograr una precisión superior.
Análisis de Tokens:
- El análisis de "verosimilitud discriminativa por token" mostró que la marginalización ( $K > 1$ ) permite al modelo capturar información contextual de múltiples regiones de la imagen, reduciendo el sesgo hacia partes locales específicas del objeto.

5. Significado e Impacto

Este trabajo es fundamental porque revitaliza los modelos autoregresivos en la tarea de clasificación de imágenes, un dominio donde habían sido desplazados por los modelos de difusión.

Cambio de Paradigma: Demuestra que la limitación de los modelos AR no era su arquitectura en sí, sino la restricción de un orden de generación fijo. Al permitir la generación en órdenes aleatorios y promediar las predicciones, se desbloquea un potencial de clasificación superior.
Equilibrio Rendimiento-Eficiencia: Ofrece un punto de equilibrio ideal: supera a los modelos de difusión en precisión y robustez, pero mantiene una eficiencia de inferencia muy superior, lo que los hace viables para aplicaciones prácticas donde la latencia es crítica.
Potencial Generativo-Discriminativo: Establece un nuevo estado del arte (SOTA) para clasificadores generativos, demostrando que pueden competir e incluso superar a los mejores modelos discriminativos auto-supervisados (SSL), cerrando la brecha entre la generación y la discriminación.

En conclusión, el artículo sugiere que la capacidad de los modelos AR para representar imágenes a través de diferentes órdenes de tokens es una característica subutilizada que, cuando se explota mediante marginalización, conduce a clasificadores más robustos, precisos y eficientes.