How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

El artículo presenta UniLongGen, una estrategia de inferencia sin entrenamiento que mejora la generación de imágenes interleaved a largo plazo mediante la curación dinámica del contexto para eliminar señales visuales interferentes que degradan la calidad de la generación.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu

Publicado 2026-03-10
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un artista digital muy talentoso capaz de escribir una historia y dibujar las ilustraciones al mismo tiempo, página por página. Su misión es crear un cómic de 40 páginas donde los personajes mantengan siempre la misma cara y el mismo estilo de dibujo.

El problema es que, cuando el artista intenta dibujar la página 30 o 40, empieza a fallar. Los personajes se vuelven extraños, sus caras cambian de color, y la historia pierde sentido. Es como si el artista, al recordar todas las páginas anteriores, se volviera confuso y alucinar.

Este paper (llamado UniLongGen) explica por qué pasa esto y cómo arreglarlo. Aquí tienes la explicación sencilla:

1. El Problema: "La Mochila Demasiado Pesada"

Antes, los científicos pensaban que el artista fallaba porque la "mochila" de recuerdos (la memoria de la computadora) se llenaba demasiado. Pensaban que el problema era tener demasiadas palabras en la memoria.

Pero el paper descubre que no es la cantidad de palabras, sino el número de dibujos.

  • La analogía: Imagina que el artista tiene que recordar 100 páginas de texto. Puede hacerlo bien. Pero si tiene que recordar 20 dibujos complejos, se desmorona.
  • ¿Por qué? Cada dibujo nuevo es como un ruido fuerte en una habitación silenciosa. Cuando hay 20 dibujos acumulados, el artista no puede distinguir cuál es el dibujo "correcto" para copiar la cara del personaje. Los dibujos viejos empiezan a "contaminar" el nuevo, mezclando caras y estilos como si fuera un smoothie de colores que ya no sabe a nada.

2. La Causa: El "Secuestro de la Atención"

El paper explica que la memoria del artista funciona como una lupa.

  • Cuando hay pocos dibujos, la lupa se enfoca en el dibujo correcto.
  • Cuando hay muchos dibujos, la lupa se distrae. De repente, un detalle pequeño de un dibujo viejo (como un botón de una camisa) se parece tanto a lo que el artista está buscando que la lupa se pega a ese detalle y olvida todo lo demás.
  • Esto se llama "contaminación visual activa". No es que el artista se olvide; es que los recuerdos viejos le meten ideas falsas en la cabeza.

3. La Solución: "El Guardarropa Inteligente" (UniLongGen)

En lugar de intentar recordar todo (lo cual es imposible y dañino), los autores proponen una estrategia llamada UniLongGen.

Imagina que el artista tiene un asistente personal (el algoritmo) que le ayuda antes de empezar a dibujar cada página nueva. El asistente hace lo siguiente:

  1. Una mirada rápida (Sondeo): Antes de dibujar, el asistente le pregunta al artista: "De todas las páginas que hemos hecho, ¿cuáles son las que realmente necesitas para dibujar esta nueva?".
  2. Elige solo lo importante: El asistente selecciona solo 4 o 5 páginas clave (por ejemplo, la primera página donde aparece el personaje y las últimas 3 o 4 para mantener el estilo).
  3. Tira el resto (Olvido Activo): ¡Aquí está la magia! En lugar de guardar las otras 30 páginas en la memoria (aunque estén comprimidas), las tira a la basura. Las elimina por completo de la vista del artista.
    • Analogía: Es como si, para cocinar una sopa, en lugar de poner todos los ingredientes de la semana pasada en la olla (lo que la haría salada y amarga), solo pusieras los ingredientes frescos y necesarios.

4. El Truco Maestro: Dos Tipos de Memoria

El paper descubre que el artista usa su cerebro de dos formas diferentes según la profundidad de la tarea:

  • Al principio (Capas tempranas): Necesita leer el texto para saber qué dibujar (la historia).
  • Al final (Capas tardías): Necesita ver los dibujos viejos para saber cómo dibujarlo (el estilo y la cara).

Por eso, UniLongGen es inteligente:

  • Para las capas tempranas, el asistente guarda solo los textos importantes.
  • Para las capas tardías, el asistente guarda solo las imágenes importantes.
  • Esto evita que el texto interfiera con el dibujo y viceversa.

5. ¿Por qué funciona mejor que "recordar lo más reciente"?

Normalmente, si algo falla, decimos: "¡Recuerda solo lo que pasó hace un momento!". Pero en una historia larga, lo que pasó hace un momento puede no ser lo más importante.

  • El ejemplo: Si en la página 39 necesitas dibujar al protagonista, no te sirve que recuerdes la página 38 (que era un paisaje). Te sirve recordar la página 1 (donde se definió su cara).
  • UniLongGen no elige por "fecha", elige por relevancia interna. Elige lo que el artista realmente necesita en ese instante, incluso si es algo viejo.

Resumen en una frase

UniLongGen es como enseñarle a un artista a olvidar lo que no necesita para no confundirse. En lugar de intentar recordar todo el álbum de fotos, le dice: "Solo mira estas 5 fotos clave y olvida el resto". Así, puede dibujar 40 páginas seguidas sin que los personajes se vuelvan monstruosos.

Resultado:

  • Calidad: Las imágenes siguen siendo perfectas hasta la página 40.
  • Velocidad: Como no tiene que procesar miles de imágenes viejas, es mucho más rápido (hasta 11 veces más rápido).
  • Consistencia: Los personajes mantienen su cara y su estilo throughout toda la historia.