Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

El artículo presenta "Prompt Reinjection", un método sin entrenamiento que mitiga el olvido de las instrucciones en los Transformadores de Difusión Multimodales (MMDiTs) al reintroducir las representaciones del texto en capas profundas, mejorando así la capacidad de seguir prompts y la calidad de generación de imágenes.

Yuxuan Yao, Yuxuan Chen, Hui Li, Kaihui Cheng, Qipeng Guo, Yuwei Sun, Zilong Dong, Jingdong Wang, Siyu Zhu

Publicado 2026-02-18
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un arquitecto de sueños muy talentoso. Este arquitecto (que es una Inteligencia Artificial llamada "Modelo de Difusión Multimodal") tiene una tarea: dibujar un cuadro basado en una descripción que tú le das.

Por ejemplo, tú le dices: "Dibuja un gato negro con bigotes blancos sentado encima de una pelota roja".

El Problema: "El Olvido del Arquitecto"

En los modelos modernos y muy potentes (como SD3, FLUX o Qwen-Image), el arquitecto funciona como una cadena de montaje muy larga.

  1. Paso 1: Lee tu descripción.
  2. Paso 2: Empieza a dibujar, capa por capa, añadiendo detalles.
  3. Paso 3: Sigue añadiendo capas hasta que la imagen esté lista.

El problema que descubrieron los autores es este: A medida que el arquitecto avanza en las capas más profundas de su proceso (las últimas etapas del dibujo), empieza a olvidar los detalles finos de tu descripción original.

Es como si el arquitecto, al estar tan concentrado en poner los colores y las sombras finales, se le olvidara que tenías que poner un gato negro y no un gato blanco, o que la pelota debía ser roja y no azul. A esto lo llaman "Olvido del Prompt".

  • La analogía: Imagina que le cuentas un chiste a un amigo, y él se lo cuenta a otro, y así sucesivamente hasta llegar al final de la fila. Al final, el chiste llega totalmente cambiado o sin gracia. En la IA, las "palabras" (tokens) de tu descripción se van transformando y perdiendo su significado original a medida que pasan por muchas capas de procesamiento.

La Solución: "Inyección de Recordatorios" (Prompt Reinjection)

Los autores proponen una solución genial que no requiere volver a entrenar al arquitecto (lo cual sería como tener que enviarlo a la escuela de nuevo). Se llama "Inyección de Prompt".

¿Cómo funciona?
Imagina que tienes una cinta de memoria que guarda la descripción original perfecta.

  1. Mientras el arquitecto está trabajando en las capas profundas (donde suele olvidar cosas), tú le inyectas un pequeño recordatorio de la descripción original que guardaste al principio.
  2. Es como si, mientras el arquitecto pinta el fondo, tú le susurras al oído: "Oye, no olvides que el gato es negro y la pelota es roja".
  3. Este recordatorio se mezcla con lo que el arquitecto ya está pensando, pero de una forma muy cuidadosa para no romper el dibujo.

La metáfora del GPS:
Piensa en el proceso de generación de la imagen como un viaje en coche.

  • Sin la solución: El coche empieza con un GPS que dice "Ve al parque", pero a medida que avanza, la señal se debilita y el coche empieza a desviarse, olvidando el destino final.
  • Con la solución: El sistema de "Inyección" es como un copiloto que, cada pocos kilómetros, revisa el mapa original y le dice al conductor: "Eh, sigue apuntando al parque, no te has desviado". Así, el coche llega exactamente a donde debías ir.

¿Qué resultados obtuvieron?

Al usar esta técnica de "recordatorios":

  1. Más precisión: Si pedías "cuatro perros", el modelo dibuja exactamente cuatro perros, no tres ni cinco.
  2. Mejores relaciones espaciales: Si pedías "un gato encima de una pelota", el gato realmente está encima, no al lado o debajo.
  3. Mejores colores y texturas: El "gato negro" sigue siendo negro hasta el final del dibujo.

En resumen

Los investigadores descubrieron que las IAs más avanzadas para crear imágenes olvidan los detalles de tu texto cuando el proceso de dibujo se vuelve muy complejo. Para arreglarlo, crearon un método sencillo que reintroduce la descripción original en medio del proceso de dibujo, actuando como un "recordatorio constante" para que la IA no pierda de vista lo que realmente querías.

Es una solución inteligente, rápida y que mejora mucho la calidad de las imágenes sin necesidad de cambiar la "mente" de la IA, solo ayudándole a no distraerse.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →