Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Este trabajo presenta Just-in-Time (JiT), un marco de aceleración espacial sin entrenamiento para Transformadores de Difusión que, mediante la selección dinámica de tokens ancla y un flujo micro determinista, logra una aceleración de hasta 7 veces en el modelo FLUX.1-dev manteniendo una fidelidad de generación casi sin pérdidas.

Wenhao Sun, Ji Li, Zhaoqiang Liu

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un artista digital increíblemente talentoso, capaz de pintar cuadros hermosos a partir de una simple descripción de texto. Sin embargo, este artista tiene un problema: es extremadamente lento. Para crear una sola imagen, tiene que repasar el lienzo cientos de veces, pintando cada pequeño detalle (desde un ojo hasta un pétalo) con la misma intensidad y atención desde el primer segundo hasta el último.

Esto es lo que hacen los modelos actuales de Inteligencia Artificial (como los "Transformers de Difusión"): calculan cada parte de la imagen al mismo tiempo, paso a paso, lo que consume muchísimos recursos y tiempo.

El artículo que presentas, titulado "Just-in-Time" (JiT), propone una solución inteligente y gratuita (no necesita reentrenar al artista) para acelerar este proceso. Aquí te lo explico con analogías sencillas:

1. El Problema: Pintar todo el cuadro con la misma intensidad

Imagina que el artista está pintando un paisaje.

  • El método antiguo: El artista empieza pintando el cielo, luego las montañas, luego los árboles, y al mismo tiempo, empieza a pintar los detalles de una flor en primer plano. Hace lo mismo con la textura de la corteza de un árbol.
  • El problema: Al principio, el artista solo necesita definir las formas grandes (el cielo azul, la montaña verde). No tiene sentido gastar tiempo y energía pintando los detalles finos de la flor cuando aún no sabe dónde va a estar la montaña. Es como intentar pulir un diamante antes de haberlo tallado.

2. La Solución JiT: "Just-in-Time" (Justo a Tiempo)

La idea de JiT es cambiar la estrategia: No pintes todo el lienzo de una vez. Solo pinta lo necesario en cada momento.

El método funciona en dos fases principales, como si el artista tuviera dos herramientas mágicas:

A. El "Mapa de Importancia" (SAG-ODE)

En lugar de mirar todo el lienzo, el artista elige un grupo pequeño de puntos clave (llamados "tokens ancla") para calcular cómo debe moverse la pintura.

  • La analogía: Imagina que estás guiando a un grupo de exploradores en un bosque. En lugar de que los 100 exploradores caminen y miren cada hoja, eliges a 10 líderes. Los líderes deciden la dirección y el resto del grupo simplemente sigue el movimiento de los líderes.
  • El truco: El sistema calcula la física del movimiento solo para esos 10 líderes y luego "adivina" (interpola) cómo se movería el resto del grupo basándose en ellos. Esto ahorra muchísima energía porque no necesitas calcular el movimiento de los 100 exploradores individualmente.

B. El "Salto Suave" (Deterministic Micro-Flow)

A medida que la imagen se va definiendo, el artista necesita añadir más exploradores (más puntos de detalle) al grupo.

  • El problema: Si de repente lanzas a 50 nuevos exploradores al grupo, podrían chocar o desordenar todo.
  • La solución JiT: Usa un "micro-flujo" que introduce a los nuevos exploradores de forma suave y controlada. Es como si el artista añadiera nuevos pinceles al lienzo, pero los integra tan suavemente que nadie nota la transición. Evita que aparezcan "manchas" o errores extraños en la imagen final.

3. ¿Cómo elige qué pintar primero? (Activación Guiada por Importancia)

El sistema no elige los puntos al azar. Mira dónde hay más "movimiento" o cambio.

  • La analogía: Si estás dibujando un gato, al principio solo dibujas la silueta general. Pero en cuanto empiezas a definir la cara, el sistema detecta que ahí hay mucho movimiento (ojos, bigotes) y decide: "¡Aquí necesito más exploradores!". Si la zona es solo un cielo azul uniforme, no necesita tantos detalles.
  • Esto permite que el sistema se concentre en las zonas complejas (texturas, bordes) y descuide las zonas simples, ahorrando tiempo.

4. Los Resultados: Velocidad sin perder calidad

El papel demuestra que, usando este método en el modelo FLUX.1-dev (uno de los mejores actualmente):

  • Pueden generar imágenes 7 veces más rápido.
  • La calidad es casi idéntica a la versión lenta.
  • Logran escribir texto legible en las imágenes y mantener estructuras complejas, algo que otros métodos rápidos suelen arruinar (dejando letras borrosas o formas extrañas).

En resumen

Just-in-Time (JiT) es como tener un director de orquesta muy inteligente. En lugar de pedirle a todos los músicos que toquen fuerte todo el tiempo, les dice: "Solo tú, el violín, toca ahora porque es tu solo. El resto, manténganse en silencio o toquen muy suave". Y cuando llega la parte donde todos deben tocar, los introduce suavemente para que la música no suene cortada.

El resultado es una sinfonía (una imagen) perfecta, pero creada en una fracción del tiempo y con muchos menos recursos. ¡Y lo mejor es que no tuvieron que reescribir la partitura (reentrenar al modelo), solo cambiaron cómo la tocan!