PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

PropFly es un pipeline de entrenamiento para la edición de video basada en propagación que elimina la necesidad de conjuntos de datos emparejados al generar supervisión en tiempo real a partir de modelos de difusión de video preentrenados, logrando así resultados de alta calidad y consistencia temporal que superan a los métodos actuales.

Wonyong Seo, Jaeho Moon, Jaehyup Lee, Soo Ye Kim, Munchurl Kim

Publicado 2026-02-25
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un video de tu perro corriendo en el parque y quieres transformarlo mágicamente: que en lugar de un perro, sea un dragón, que el parque sea un bosque encantado y que el clima cambie de soleado a nevado.

Hasta ahora, hacer esto en un video completo era como intentar pintar un mural gigante cuadro por cuadro a mano: si cambiabas un detalle en un segundo, el siguiente cuadro se desordenaba, el dragón desaparecía o el fondo se volvía una mancha borrosa.

El artículo que me has compartido presenta una solución genial llamada PropFly. Aquí te explico cómo funciona usando una analogía sencilla:

1. El Problema: La falta de "Libros de Instrucciones"

Para enseñar a una computadora a editar videos, normalmente necesitas miles de ejemplos de "antes y después" (un video original y su versión editada). Pero conseguir esos pares de videos es como buscar agujas en un pajar: es caro, lento y casi imposible de hacer para todos los tipos de cambios imaginables.

2. La Idea Brillante: El "Chef" que no necesita recetas

Los autores dicen: "¿Por qué necesitamos miles de ejemplos si ya tenemos un 'Chef' experto?".

Este "Chef" es un modelo de Inteligencia Artificial gigante (llamado Modelo de Difusión de Video) que ya sabe crear videos increíbles. El truco de PropFly es usar a este Chef para inventar sus propios ejemplos de entrenamiento en tiempo real, mientras el modelo está aprendiendo.

3. La Magia: El "Control de Volumen" (CFG)

Imagina que el modelo de video tiene un control de volumen llamado CFG (Guidance).

  • Si pones el volumen bajo, el modelo hace un video normal, fiel a la realidad.
  • Si subes el volumen al máximo y le dices "haz un dragón", el modelo exagera y crea un dragón muy dramático.

PropFly hace lo siguiente:

  1. Toma un video y lo "ensucia" un poco (le añade ruido, como si fuera estática en la TV).
  2. Le pide al modelo que lo limpie, pero dos veces al mismo tiempo:
    • Una vez con el volumen bajo (esto es el video original, la "estructura").
    • Otra vez con el volumen alto y una instrucción nueva (esto es el video editado, el "dragón").
  3. Como ambos vienen del mismo punto de partida (el video "ensuciado"), se mueven exactamente igual, pero uno es el perro y el otro es el dragón.

¡Y listo! En un instante, el sistema ha creado un par perfecto de "antes y después" sin tener que buscarlo en internet.

4. El Aprendiz: El "Adaptador"

Ahora, tienen un pequeño estudiante llamado Adapter (un módulo pequeño y rápido).

  • Le muestran el video del perro (volumen bajo) y el primer cuadro del dragón (volumen alto).
  • Le dicen: "¡Mira! El perro se mueve así. Ahora, haz que el dragón se mueva exactamente igual en todos los cuadros siguientes".
  • El estudiante aprende a copiar el movimiento del perro pero aplicando la apariencia del dragón.

5. El Resultado: Un Video Perfecto

Cuando quieres editar un video real:

  1. Tomas tu video original.
  2. Cambias solo el primer cuadro (dibujas el dragón ahí).
  3. PropFly toma ese primer cuadro y le dice al resto del video: "¡Oye, todos los demás cuadros deben parecerse a este, pero manteniendo el movimiento original!".

¿Qué gana el usuario?

  • Precisión: El dragón no se desvanece ni se deforma; sigue corriendo exactamente como el perro.
  • Versatilidad: Puedes cambiar el clima, el fondo, el objeto o el estilo artístico (hacerlo parecer una pintura de Van Gogh) con la misma facilidad.
  • Velocidad: No necesita esperar a que se generen miles de videos de entrenamiento; aprende "sobre la marcha".

En resumen

PropFly es como tener un maestro de cocina que, en lugar de pedirte que le traigas recetas de libros viejos, usa su propia imaginación para crear ejemplos de "antes y después" en el momento, para enseñarle a un ayudante (el adaptador) cómo transformar un video entero manteniendo su ritmo y movimiento, pero cambiando completamente su apariencia.

Es una forma inteligente de enseñar a la IA a editar videos sin necesidad de gastar años y dinero recopilando datos, simplemente usando la creatividad de la propia IA para guiarse a sí misma.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →