Streaming Autoregressive Video Generation via Diagonal Distillation

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres crear una película completa, pero en lugar de tener un equipo de cineastas trabajando en todas las escenas a la vez, tienes un solo director muy talentoso que debe escribir y rodar la película escena por escena, en tiempo real, mientras la proyectas.

El problema es que este director es un genio, pero es muy lento. Si le pides que haga una escena perfecta, tarda mucho tiempo en pensar, corregir y pulir cada detalle. Si intentas hacer una película larga, tardarías días en terminarla.

Aquí es donde entra el trabajo de los autores de este paper, que se llama "Diagonal Distillation" (Distilación Diagonal). Vamos a explicarlo con una analogía sencilla:

1. El Problema: El Director Perfecto pero Lento

Los modelos de video actuales (como los que usan "difusión") funcionan como un escultor que empieza con un bloque de mármol lleno de ruido (como si fuera nieve) y va quitando la nieve poco a poco hasta que aparece la imagen perfecta.

El problema: Para que la imagen sea perfecta, el escultor tiene que quitar la nieve muchas veces (muchos pasos). Si haces esto para cada escena de una película larga, tardas una eternidad.
El intento anterior: Algunos intentaron hacer que el escultor fuera más rápido quitando menos nieve, pero el resultado era un video borroso, con movimientos extraños o que se "descomponía" después de unos segundos (como si la película se volviera loca).

2. La Solución: La Estrategia "Diagonal"

Los autores se dieron cuenta de algo inteligente: No necesitas tratar todas las escenas igual.

Imagina que estás construyendo una casa:

Los primeros ladrillos (las primeras escenas): Son los más importantes. Si la base está mal, todo el edificio se cae. Por eso, aquí le das al escultor mucho tiempo y muchos pasos para que la base sea perfecta.
Los pisos de arriba (las escenas siguientes): Una vez que la base es sólida y sabes cómo es la casa, los pisos de arriba son más fáciles de hacer. No necesitas tanto tiempo; puedes ir más rápido porque la estructura ya está definida.

La "Distilación Diagonal" hace exactamente esto:

Empieza lento y fuerte: Genera las primeras partes del video con mucha precisión (muchos pasos de limpieza).
Acelera progresivamente: A medida que avanza el video, va quitando menos pasos de limpieza, porque ya tiene la "memoria" de lo que pasó antes.
El truco de la "Diagonal": En lugar de limpiar todo el video de golpe o limpiar cada escena por separado, el modelo mira hacia atrás (al pasado) y hacia abajo (a los pasos de limpieza) al mismo tiempo. Es como si el director mirara el guion de la escena anterior para saber cómo empezar la siguiente, sin tener que volver a escribir todo desde cero.

3. El Secreto: "Forzamiento Diagonal" (Diagonal Forcing)

Aquí viene la parte más creativa. Normalmente, cuando un modelo genera una escena, lo hace basándose en una imagen "limpia" del pasado. Pero en la vida real, cuando generas video en tiempo real, la imagen del pasado no está 100% limpia; tiene un poco de "ruido" o imperfecciones.

El error anterior: Si entrenas al modelo con imágenes perfectas, pero luego lo usas con imágenes imperfectas, el modelo se confunde y el video se arruina (como enseñar a alguien a conducir en una pista de carreras perfecta y luego soltarlo en una calle llena de baches).
La solución: Los autores entrenan al modelo "forzándolo" a trabajar con imágenes que tienen un poco de ruido, simulando la realidad. Además, inyectan ese ruido de forma inteligente (en diagonal) para que el modelo aprenda a corregir sus propios errores mientras avanza. Es como si le enseñaras al conductor a manejar con lluvia y baches desde el primer día.

4. Mantener el Movimiento: "Flujo de Distribución"

Otro problema de los videos rápidos es que se vuelven lentos o rígidos (como un robot que se mueve a saltos).

La analogía: Imagina que el video es una corriente de agua. Si aceleras demasiado, el agua se vuelve estática.
La solución: El modelo incluye un "sensor de movimiento" (Flujo Óptico) que vigila que el agua siga fluyendo suavemente. Si nota que el movimiento se está volviendo rígido, lo corrige para que los personajes y objetos se muevan de forma natural, incluso si se están generando muy rápido.

¿Qué logran con esto?

Gracias a esta estrategia "Diagonal":

Velocidad: Pueden generar un video de 5 segundos en 2.6 segundos. ¡Es más rápido que la velocidad de reproducción! (31 cuadros por segundo).
Calidad: El video no se ve borroso ni se "descompone" después de unos segundos. Se mantiene estable y con buen movimiento.
Eficiencia: Es como tener un escultor que sabe exactamente cuándo trabajar duro y cuándo relajarse, ahorrando energía sin perder calidad.

En resumen:
Este paper nos dice que para hacer videos largos y rápidos, no debemos tratar todo el tiempo igual. Debemos empezar con mucha precisión y luego ir acelerando, siempre mirando hacia atrás para no cometer errores. Es como conducir un coche: conduces con cuidado al salir de la casa, pero una vez que estás en la autopista y sabes el camino, puedes ir más rápido sin perder el control.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Streaming Autoregressive Video Generation via Diagonal Distillation" (Generación de Video Autoregresiva en Streaming mediante Destilación Diagonal), presentado en ICLR 2026.

1. El Problema

La generación de video en tiempo real (streaming) enfrenta un dilema fundamental entre la calidad y la latencia:

Modelos de Difusión Tradicionales: Aunque ofrecen alta calidad, utilizan mecanismos de atención bidireccional que requieren generar todo el video simultáneamente. Esto impide su uso en aplicaciones en tiempo real donde los futuros fotogramas no están disponibles.
Modelos Autoregresivos (AR): Son ideales para el streaming al generar cuadros chunk a chunk, pero los modelos AR puros a menudo sufren de baja calidad visual.
Limitaciones de la Destilación Actual: Las técnicas existentes para reducir los pasos de inferencia (destilación) en video suelen adaptar métodos diseñados para imágenes. Esto ignora las dependencias temporales, provocando:
- Incoherencia en el movimiento.
- Acumulación de errores en secuencias largas (degradación progresiva).
- Un compromiso negativo entre latencia y calidad (al reducir pasos, la calidad cae drásticamente).
- Sesgo de exposición: La predicción implícita de los niveles de ruido futuros en la generación de chunks posteriores genera errores acumulativos y saturación excesiva en cuadros lejanos.

2. Metodología: Destilación Diagonal (Diagonal Distillation)

Los autores proponen un marco de trabajo que opera ortogonalmente a los enfoques existentes, explotando la información temporal tanto a través de los chunks de video como de los pasos de eliminación de ruido (denoising steps).

A. Estrategia de Eliminación de Ruido Diagonal (Diagonal Denoising)

En lugar de asignar un número fijo de pasos de eliminación de ruido a todos los chunks, el método asigna más pasos a los chunks iniciales y progresivamente menos a los posteriores:

Chunks Tempranos: Reciben más pasos (ej. 5 pasos) para establecer una base estructural y de apariencia rica.
Chunks Posteriores: Utilizan progresivamente menos pasos (ej. 4, 3, y finalmente 2 pasos), aprovechando la información contextual de los chunks anteriores ya procesados.
Beneficio: Esto permite que los chunks tardíos hereden información de apariencia de los chunks tempranos, reduciendo la necesidad de pasos de denoising sin sacrificar la coherencia.

B. Forzamiento Diagonal (Diagonal Forcing)

Para mitigar el sesgo de exposición y la acumulación de errores, se introduce un nuevo paradigma de entrenamiento:

Condicionamiento con Ruido: En lugar de condicionar el chunk $k$ en el cuadro limpio generado por el chunk $k-1$ , el modelo se entrena condicionando el chunk $k$ en una versión ruidosa ( $\tilde{X}_{k-1}$ ) del resultado anterior.
Simulación de Trayectoria: Esto simula explícitamente la trayectoria de eliminación de ruido diagonal durante el entrenamiento mediante inyección controlada de ruido.
Resultado: El modelo aprende a generar nuevos cuadros basándose en estados intermedios ruidosos, alineando las condiciones de entrenamiento con las de inferencia real y reduciendo la deriva (drift) en secuencias largas.

C. Coincidencia de Distribución de Flujo (Flow Distribution Matching)

Para abordar la atenuación del movimiento (amplitud reducida) que ocurre cuando se usan pocos pasos de denoising:

Se introduce una función de pérdida que alinea explícitamente la distribución del flujo óptico (movimiento) del modelo estudiante con la del modelo maestro (de muchos pasos).
Utiliza un módulo ligero de extracción de características de movimiento que opera directamente en el espacio latente, sin depender de estimadores de flujo óptico externos preentrenados.
Esto asegura que, incluso con pocos pasos, el modelo preserve la consistencia dinámica y las transiciones suaves.

3. Contribuciones Clave

Diagonal Distillation: Un método eficiente para generación autoregresiva que asigna dinámicamente los pasos de denoising (más al inicio, menos al final) para equilibrar calidad y eficiencia.
Diagonal Forcing: Una técnica de entrenamiento unificada que utiliza trayectorias diagonales de ruido y condicionamiento en estados ruidosos para mitigar la acumulación de errores a largo plazo.
Flow Distribution Matching: Una nueva función de pérdida que integra el modelado temporal explícito para preservar la calidad del movimiento bajo restricciones estrictas de pasos.
Rendimiento de Estado del Arte: Logra generar videos de 5 segundos en 2.61 segundos (hasta 31 FPS), logrando una aceleración de 277.3x sobre el modelo no destilado, superando a métodos anteriores como Causvid y Self-Forcing.

4. Resultados Experimentales

Velocidad y Latencia: En una GPU NVIDIA H100, el método alcanza un throughput de 31 FPS con una latencia de primer cuadro de 0.37s. Esto representa un aumento de velocidad de 1.88x sobre Self-Forcing y 277.3x sobre el modelo base Wan2.1.
Calidad Visual: Mantiene una calidad visual competitiva (puntuación VBench de 85.26) comparable al modelo base (85.30), superando significativamente a otros métodos destilados en coherencia temporal y alineación con el texto.
Generación de Video Largo: En evaluaciones de videos de hasta 45 segundos, el método evita la degradación de calidad y la saturación visual que sufren los métodos baselines (como Causvid y Self-Forcing).
Estudio de Usuarios: Un estudio a gran escala (93 participantes) mostró una preferencia del 66.1% sobre Causvid y del 59.3% sobre Self-Forcing, destacando la superioridad en consistencia a largo plazo y fidelidad al texto.

5. Significado e Impacto

Este trabajo es fundamental para la viabilidad de la generación de video en tiempo real en aplicaciones interactivas como simulaciones de juegos, aprendizaje robótico y asistentes virtuales.

Rompe el Compromiso Latencia-Calidad: Demuestra que es posible reducir drásticamente los pasos de inferencia sin colapsar la calidad del video, algo que los métodos anteriores no lograban en secuencias largas.
Nueva Paradigma de Entrenamiento: La idea de "Forzamiento Diagonal" y el condicionamiento en estados ruidosos ofrece una nueva dirección para entrenar modelos autoregresivos que sean robustos frente a la propagación de errores.
Escalabilidad: Al permitir la generación de videos largos con alta coherencia y baja latencia, habilita escenarios de uso que antes eran computacionalmente prohibitivos o de baja calidad.

En resumen, Diagonal Distillation redefine cómo se incorpora el contexto temporal en la generación de video, utilizando una estrategia asimétrica de pasos de denoising y un entrenamiento robusto para lograr una generación de video en streaming de alta fidelidad y ultra-rápida.