Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

El artículo presenta la Decodificación Paralela Consciente de la Localidad (LPD), un nuevo enfoque que acelera la generación de imágenes autoregresiva mediante un modelado flexible y un ordenamiento local optimizado, logrando una reducción drástica en los pasos de generación y la latencia sin comprometer la calidad.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

Publicado 2026-03-12
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Imagina que crear una imagen con una Inteligencia Artificial es como pintar un cuadro gigante, pero con una regla muy estricta: solo puedes pintar un solo pixel a la vez, y tienes que esperar a que el pincel se seque antes de moverte al siguiente.

Así funcionaban los métodos antiguos de generación de imágenes. Era como intentar llenar un estadio de fútbol pixel por pixel, uno tras otro. ¡Podía tardar horas! Además, la computadora se quedaba "atascada" esperando a que la memoria le entregara los datos, como un chef que tiene que esperar a que le traigan un ingrediente antes de poder seguir cocinando.

Aquí es donde entra el LPD (Decodificación Paralela Consciente de la Localidad), la nueva técnica presentada en este paper. Vamos a explicarla con una analogía sencilla:

1. El Problema: La "Carrera de Relevos" vs. El "Trabajo en Equipo"

  • El método antiguo (Autoregresivo tradicional): Es como una carrera de relevos. Un corredor (el pixel) pasa el testigo al siguiente, quien pasa al siguiente, y así sucesivamente hasta completar la imagen. Si hay 1024 pixels, necesitas 1024 vueltas. Es lento y aburrido.
  • El nuevo método (LPD): Es como un equipo de construcción. En lugar de un solo albañil, tienes a 20 trabajadores. Pero, para que no se choquen ni se estorben, necesitan un plan maestro.

2. La Magia: Dos Secretos de LPD

El paper propone dos trucos geniales para que este "equipo de construcción" funcione sin caos:

A. Los "Guías con Preguntas" (Modelado Autoregresivo Paralelizado Flexible)

Imagina que tienes un mapa del cuadro que vas a pintar. En lugar de pintar en orden (de izquierda a derecha, arriba a abajo), decides pintar primero el centro, luego una esquina, luego el borde.

  • El truco: El sistema usa unas "fichas mágicas" (llamadas tokens de consulta de posición). Estas fichas le dicen al cerebro de la IA: "¡Oye, hoy vamos a pintar el pixel número 50 y el número 100 al mismo tiempo!".
  • La ventaja: Al separar la parte de "recordar lo que ya pintamos" de la parte de "decidir qué pintar ahora", el sistema puede saltar por la imagen sin perder el hilo. Es como si el equipo pudiera ver todo el cuadro a la vez y decidir qué partes pintar en grupo, sin tener que esperar a que el vecino termine su parte.

B. La "Regla de Vecindad" (Orden de Generación Consciente de la Localidad)

Aquí está la parte más inteligente. Si le dices a dos trabajadores que pinten dos puntos que están pegados el uno al otro al mismo tiempo, se van a estorbar. No saben qué color poner porque dependen del otro.

  • El problema: Si pintas dos pixels juntos sin contexto, la IA se confunde y la imagen sale borrosa o extraña.
  • La solución de LPD: El sistema sigue una regla de oro:
    1. Pinta cerca de lo que ya existe: Si ya pintaste una montaña, pinta la nieve justo al lado (porque la nieve necesita ver la montaña para saber cómo ser).
    2. Mantén a distancia a los que pintan juntos: Si vas a pintar 5 pixels al mismo tiempo, asegúrate de que estén lejos entre sí. Así, cada uno puede ver el "paisaje" completo sin chocar con sus compañeros.

La analogía del picnic:
Imagina que estás organizando un picnic en un parque (la imagen).

  • Método antiguo: Llevas una manta y la extiendes metro a metro, muy lento.
  • Método LPD: Llevas a 20 amigos.
    • Si pides a dos amigos que pongan sillas pegadas entre sí, se pelearán por el espacio (mala calidad).
    • LPD dice: "¡Espera! Tú (Amigo A) pon tu silla cerca del árbol (contexto), y tú (Amigo B) pon la tuya cerca del río (contexto), pero asegúrate de que tú y el Amigo A estén lejos el uno del otro para no chocar".
    • Resultado: Todos trabajan rápido, sin chocar, y el picnic queda perfecto.

3. ¿Qué logran con esto?

Gracias a esta "coreografía" inteligente:

  • Velocidad: En lugar de dar 1024 pasos para hacer una imagen, solo dan 48 pasos. ¡Es como pasar de caminar a ir en un cohete!
  • Calidad: La imagen sale tan buena (o mejor) que los métodos lentos. No pierden detalle.
  • Flexibilidad: Como no están atados a pintar de izquierda a derecha, pueden hacer cosas mágicas como borrar y rellenar partes de la imagen (inpainting) o agrandar el cuadro (outpainting) sin tener que volver a generar todo desde cero.

En resumen

El LPD es como convertir una fila de personas esperando para entrar a un concierto (lento y aburrido) en un grupo de amigos que entran por todas las puertas a la vez, pero siguiendo un mapa que les dice exactamente dónde pararse para no chocar y disfrutar del mejor asiento.

Resultado: Imágenes increíbles en una fracción del tiempo. ¡La IA aprendió a trabajar en equipo!