NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

El artículo presenta NAMI, un modelo de flujo rectificado progresivo con puentes que mejora la eficiencia de la generación de imágenes mediante la descomposición del proceso en múltiples resoluciones y arquitecturas, logrando una reducción del 64% en el tiempo de inferencia sin comprometer la calidad.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que crear una imagen con Inteligencia Artificial es como pintar un mural gigante en una pared.

Hasta ahora, los métodos tradicionales (como los modelos "FLUX" o "SD3") funcionaban así: tenías que pintar todo el mural desde el principio hasta el final usando una brocha gigante y muy pesada, capa por capa, hasta que la imagen estuviera perfecta. El problema es que esa brocha pesada (el modelo) tardaba mucho en moverse y necesitaba mucha energía, lo que hacía que generar una imagen fuera lento y costoso.

El nuevo método que proponen en este paper, llamado NAMI, es como cambiar la estrategia de pintura por algo mucho más inteligente y rápido. Aquí te lo explico con una analogía sencilla:

1. La Estrategia de "Boceto a Detalle" (El Progreso)

Imagina que en lugar de usar la brocha gigante desde el inicio, NAMI divide el trabajo en tres etapas, como si fuera una escalera:

  • Etapa 1 (El Boceto Rápido): Primero, usas una brocha pequeña y ligera para dibujar solo los contornos y la idea general en un lienzo pequeño (baja resolución). Es como hacer un dibujo rápido a lápiz: "Aquí va un perro, aquí un árbol". Como el lienzo es pequeño y la brocha ligera, esto es extremadamente rápido.
  • Etapa 2 (Agrandar y Refinar): Luego, tomas ese dibujo pequeño, lo agrandas (como hacer zoom) y usas una brocha un poco más grande para añadir más detalles.
  • Etapa 3 (El Toque Final): Finalmente, llegas al tamaño completo (alta resolución) y usas la brocha más grande y detallada solo para los últimos retoques, como el brillo en los ojos o la textura del pelo.

La magia: NAMI no usa la brocha gigante (todas las capas del modelo) desde el principio. Solo usa la parte necesaria para cada etapa. Esto ahorra muchísimo tiempo y energía.

2. El "Puente Mágico" (BridgeFlow)

Aquí viene la parte más ingeniosa. Cuando pasas del dibujo pequeño al lienzo grande, normalmente podrías perder información o que la imagen se vea borrosa al cambiar de tamaño.

Los autores crearon un módulo llamado BridgeFlow (Puente de Flujo).

  • La analogía: Imagina que tienes que pasar un mensaje de un niño pequeño (el dibujo rápido) a un adulto gigante (la imagen final). Si solo le gritas el mensaje, el adulto podría no entenderlo bien.
  • La solución de NAMI: El "BridgeFlow" es como un traductor inteligente que se asegura de que lo que el niño dibujó se entienda perfectamente cuando el adulto lo pinta. Conecta las etapas de forma suave, alineando los "flujos" de la imagen para que no haya saltos bruscos ni errores.

3. ¿Por qué es tan rápido? (El resultado)

Gracias a esta estrategia de "empezar pequeño y crecer":

  • Ahorro de tiempo: El paper dice que generar una imagen de alta calidad (1024x1024) es un 64% más rápido que los métodos actuales. ¡Es como si pudieras pintar un mural en la mitad del tiempo!
  • Calidad: Aunque empieza rápido y "simple", el resultado final es tan bueno (o mejor) que los métodos lentos, porque la IA se enfoca en lo importante en cada momento.

4. El Nuevo "Examen" (NAMI-1K)

Los autores también se dieron cuenta de que los exámenes actuales para probar estas IAs eran aburridos y repetitivos (como preguntar siempre lo mismo: "dibuja un gato").

  • Crearon un nuevo banco de pruebas llamado NAMI-1K.
  • La analogía: En lugar de un examen de opción múltiple con las mismas 5 preguntas, les dieron a la IA un "libro de historias" con 1,000 preguntas diferentes: algunas cortas, otras muy largas, algunas sobre cosas raras, otras sobre emociones humanas. Esto permite ver si la IA realmente entiende lo que le pides en el mundo real, no solo si memorizó respuestas.

En resumen

NAMI es como tener un equipo de pintores donde:

  1. Un aprendiz rápido hace el boceto inicial.
  2. Un pintor medio añade el color.
  3. Un maestro añade los detalles finales.
  4. Y un traductor mágico (BridgeFlow) asegura que todos trabajen en la misma página.

El resultado es que obtienes una obra de arte hermosa en una fracción del tiempo que antes se tardaba, sin sacrificar la calidad. ¡Es eficiencia pura!