Autores originales: Zihan Ding, Chi Jin, Difan Liu, Haitian Zheng, Krishna Kumar Singh, Qiang Zhang, Yan Kang, Zhe Lin, Yuchen Liu

Publicado 2026-05-08

📖 4 min de lectura☕ Lectura para el café

CC BY 4.0

Autores originales: Zihan Ding, Chi Jin, Difan Liu, Haitian Zheng, Krishna Kumar Singh, Qiang Zhang, Yan Kang, Zhe Lin, Yuchen Liu

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef maestro (el Modelo Maestro) que puede preparar un plato perfecto y complejo de video de 10 segundos. El problema es que este chef es increíblemente lento. Para lograr el plato perfecto, prueba, ajusta, vuelve a probar y ajusta 50 veces antes de servirlo. Si quieres un video cada día, este proceso tarda una eternidad y agota toda la electricidad de tu cocina (potencia de cómputo).

El artículo presenta DOLLAR, un nuevo método para entrenar a un Chef Estudiante que puede preparar exactamente el mismo plato delicioso en solo 4 pasos (o incluso en 1 paso), sin perder ningún sabor ni calidad.

Así es como lo hicieron, utilizando tres trucos simples:

1. La "Prueba de Sabor" y el Entrenamiento de "Consistencia"

Por lo general, cuando intentas enseñar a un estudiante a cocinar rápido, te encuentras con dos problemas:

Problema A (El Estudiante "Insípido"): Si solo le dices al estudiante que copie el plato final del maestro, podría acertar el sabor pero empezar a preparar exactamente el mismo plato cada vez (sin variedad).
Problema B (El Estudiante "Desordenado"): Si le dices que sea creativo y rápido, la comida podría verse bien pero saber terrible o ser inconsistente.

Los autores resolvieron esto combinando dos métodos de entrenamiento:

Destilación de Puntuación Variacional (VSD): Esto es como si el estudiante probara el plato del maestro e intentara igualar perfectamente el perfil de sabor. Asegura que el video tenga una alta calidad visual.
Destilación de Consistencia (CD): Esto es como un entrenamiento donde el estudiante practica preparar el plato en línea recta. Asegura que, sin importar cómo comiencen a cocinar, terminen con un resultado consistente. Esto mantiene los videos diversos y evita que se conviertan en copias "insípidas".

Al mezclar estas dos técnicas, el estudiante aprende a ser tanto de alta calidad como diverso, pero mucho más rápido.

2. La "Salsa Secreta" (Optimización de Recompensa Latente)

Incluso con un estudiante rápido, a veces el video no es exactamente lo que quieres. Quizás quieres que se vea más "cinematográfico" o tenga mejor iluminación. Por lo general, para arreglar esto, tendrías que enviar el video a un gigante y lento "Crítico de Comida" (un Modelo de Recompensa) que revisa cada píxel. Esto es lento y requiere una cocina masiva (memoria de computadora).

Los autores inventaron un Modelo de Recompensa Latente (LRM).

La Analogía: En lugar de enviar el video terminado y pesado al Crítico, enseñan a un "Mini-Critic" diminuto y de bolsillo a juzgar los ingredientes (el espacio latente) antes de que el video esté completamente cocinado.
El Beneficio: Este Mini-Critic es diminuto, rápido y no necesita ver todo el video para dar retroalimentación. Le dice al chef estudiante: "Tu iluminación está un poco desajustada", y el estudiante se ajusta inmediatamente. Esto permite que el estudiante mejore más allá de las habilidades originales del Chef Maestro, específicamente en cosas como la estética o la alineación con el texto, sin necesidad de una supercomputadora.

3. El Resultado: Una Cocina Súper Rápida

El artículo afirma que con este método:

Velocidad: Pueden generar un video de 10 segundos en 4 pasos en lugar de 50. Esto es hasta 278 veces más rápido que el método original. Es casi como la generación en tiempo real.
Calidad: Los videos del estudiante obtienen puntuaciones más altas en pruebas estándar (llamadas VBench) que el Chef Maestro original, así como otros competidores principales como Gen-3 y Kling.
Eficiencia: Como utilizan el "Mini-Critic" (Modelo de Recompensa Latente) en lugar del gigante, ahorran una gran cantidad de memoria de computadora. No necesitas una supercomputadora para ejecutar esto; cabe en GPUs estándar de gama alta.

Resumen

Piensa en DOLLAR como un programa de entrenamiento que toma un generador de videos lento y perfeccionista y lo convierte en un artista relámpago. Lo hace mediante:

Enseñarle al artista a ser tanto preciso como creativo al mismo tiempo.
Dándole un asistente diminuto e inteligente para proporcionar retroalimentación instantánea sobre la calidad, para que no necesite esperar a que una computadora gigante y lenta revise su trabajo.

El resultado es un sistema que crea videos de alta calidad y diversos en segundos en lugar de minutos, haciendo de la generación de video "en tiempo real" una realidad.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: DOLLAR (Optimización de Recompensa Latente y Destilación)

Enunciado del Problema

Los modelos difusivos probabilísticos han logrado avances significativos en la generación de video a partir de texto (T2V); sin embargo, su aplicación práctica se ve obstaculizada por la ineficiencia computacional. Los modelos difusivos estándar requieren cientos de pasos iterativos de muestreo para generar videos de alta calidad, lo que hace inviable la generación en tiempo real o casi real. Aunque reducir el número de pasos de muestreo (generación en pocos pasos) mejora la eficiencia, típicamente resulta en una compensación: una degradación significativa de la calidad del video, pérdida de diversidad (colapso de modos) o un fallo en la alineación con preferencias específicas del usuario. Además, los métodos de destilación existentes a menudo luchan por superar el rendimiento del modelo maestro o adaptarse a requisitos específicos de aplicaciones posteriores sin un costoso reentrenamiento.

Metodología

Los autores proponen DOLLAR, un marco que combina destilación y optimización de recompensa latente para lograr una generación de video de alta calidad, diversa y en pocos pasos. La metodología consta de tres componentes principales:

1. Estrategia de Destilación Híbrida (VSD + CD)

Para abordar las limitaciones de los métodos de destilación existentes, DOLLAR integra Destilación de Puntuación Variacional (VSD) y Destilación de Consistencia (CD):

Destilación de Puntuación Variacional (VSD): Alinea la distribución de muestras del estudiante con la del maestro minimizando la divergencia Kullback-Leibler (KL). Aunque es efectiva para la calidad, VSD por sí sola puede conducir al colapso de modos (reducción de la diversidad).
Destilación de Consistencia (CD): Garantiza predicciones de muestras consistentes a lo largo de la trayectoria de difusión, promoviendo la diversidad. Sin embargo, CD por sí sola puede reducir la fidelidad de la muestra y producir salidas excesivamente suaves.
Integración: Los autores combinan estas pérdidas para aprovechar la alta fidelidad de VSD y la diversidad de CD. Emplean un enfoque de CD generalizada utilizando una función de eliminación de ruido del maestro de múltiples pasos ( $Denoise_m$ ) en lugar de una aproximación de un solo paso, lo que mejora la calidad de la generación. El modelo estudiante se inicializa a partir del maestro y se entrena utilizando un objetivo de predicción de velocidad conjugada.

2. Ajuste Fino del Modelo de Recompensa Latente (LRM)

Para mejorar aún más el rendimiento más allá de las capacidades del maestro y alinearse con métricas específicas (por ejemplo, estética, alineación con texto), los autores introducen un Modelo de Recompensa Latente (LRM):

Mecanismo: En lugar de retropropagar gradientes a través de grandes modelos de recompensa y decodificadores en el espacio de píxeles (lo cual es intensivo en memoria y requiere recompensas diferenciables), DOLLAR entrena un modelo de recompensa compacto y diferenciable directamente en el espacio latente.
Entrenamiento: El LRM se entrena para aproximar las puntuaciones de un modelo de recompensa preentrenado en el espacio de píxeles (por ejemplo, HPSv2, PickScore) utilizando muestras latentes generadas.
Optimización: El modelo estudiante difusivo se ajusta fino utilizando los gradientes del LRM. Este enfoque admite métricas de recompensa no diferenciables, reduce significativamente el uso de memoria (eludiendo el decodificador y los grandes modelos de recompensa) y permite una optimización eficiente.

3. Entrenamiento Multiobjetivo

El objetivo final de entrenamiento combina las pérdidas de destilación y la pérdida de ajuste fino de recompensa:
$\mathcal{L}(\theta) = \mathcal{L}_{VSD}(\theta) + \beta_{CD}\mathcal{L}_{CD}(\theta) + \beta_{FT}\mathcal{L}_{FT}(\theta; \phi)$
Donde $\mathcal{L}_{FT}$ es la recompensa esperada negativa del LRM. Esto permite que el modelo optimice simultáneamente para la coincidencia de distribuciones, la consistencia y métricas de recompensa específicas.

Contribuciones Clave

Destilación Eficiente en Pocos Pasos: La introducción de un método de destilación que combina pérdidas VSD y CD, permitiendo la generación de videos de 10 segundos (128 cuadros) de alta calidad y diversos en tan solo 4 pasos.
Destilación de Consistencia Generalizada: Una mejora sobre la CD estándar al utilizar una función de eliminación de ruido del maestro de múltiples pasos, lo que aumenta la efectividad del proceso de destilación.
Optimización de Recompensa Latente: Un enfoque novedoso y eficiente en memoria de ajuste fino que utiliza un modelo de recompensa latente compacto. Este método elimina la necesidad de modelos de recompensa diferenciables y suprime la necesidad de retropropagar a través de grandes modelos en el espacio de píxeles y decodificadores, haciendo viable el ajuste basado en recompensas para grandes modelos de video.

Resultados Experimentales

El método se evaluó en configuraciones T2V a gran escala (128 cuadros, 12 FPS, resolución 192x320) utilizando el punto de referencia VBench y evaluaciones humanas.

Rendimiento frente a Líneas Base: El modelo estudiante destilado de 4 pasos logró una Puntuación Total de VBench de 82.57 (utilizando recompensa HPSv2), superando al modelo maestro (80.25) y a las líneas base más avanzadas, incluidas Gen-3 (82.32), Kling (81.85) y T2V-Turbo (81.01).
Calidad y Diversidad: El modelo estudiante superó al maestro en 9 de las 16 métricas de VBench. La combinación de CD y LRM mitigó con éxito el colapso de modos a menudo visto en la destilación VSD pura, manteniendo una alta diversidad de muestras (medida por la puntuación Vendi).
Eficiencia: El modelo estudiante de 4 pasos logró una aceleración de 15.6x en comparación con el modelo maestro de 50 pasos. Una configuración de 1 paso logró una aceleración de hasta 278.6x, permitiendo una generación casi en tiempo real.
Evaluación Humana: En comparaciones por pares, el modelo DOLLAR (4 pasos) fue preferido sobre el modelo maestro (50 pasos DDIM) por el 51.1% de los evaluadores humanos en cuanto a preferencia general y mostró puntuaciones de calidad visual significativamente más altas.
Ajuste de Recompensa: El ajuste fino con LRM mejoró con éxito métricas específicas (por ejemplo, alineación texto-video, iluminación) sin los costos de memoria prohibitivos asociados con métodos directos de gradiente de recompensa como ReFL o DRaFT.

Significado y Afirmaciones

El artículo afirma que DOLLAR avanza significativamente el estado del arte en la generación de video al resolver la compensación entre la eficiencia de generación y la calidad. Al combinar la destilación con la optimización de recompensa latente, el método permite:

Potencial en Tiempo Real: Acelerar el muestreo difusivo hasta en 278 veces, allanando el camino para aplicaciones de generación de video en tiempo real.
Superioridad sobre los Maestros: Demostrar que un modelo estudiante destilado puede superar el rendimiento de su modelo maestro, desafiando la noción de que el rendimiento del estudiante está estrictamente limitado superiormente por el maestro.
Ajuste Fino Escalable: Proporcionar una solución práctica para alinear modelos de generación de video con diversas métricas de recompensa no diferenciables sin la carga computacional de la retropropagación en el espacio de píxeles.

Los autores señalan que, aunque el método logra mejoras sustanciales, persisten desafíos relacionados con el sesgo de longitud del prompt (los modelos funcionan mejor con prompts largos y descriptivos) y el potencial de sobreoptimización de recompensas, lo cual puede degradar la calidad visual general si se persiguen métricas específicas de manera demasiado agresiva.

DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization