Mode Seeking meets Mean Seeking for Fast Long Video Generation
Este trabajo propone un paradigma de entrenamiento que combina la búsqueda de modos y la búsqueda de medias mediante un Transformador de Difusión Desacoplado para generar videos largos de alta fidelidad y coherencia en pocos pasos, superando la escasez de datos de larga duración al alinear la estructura narrativa global con la realismo local aprendido de un modelo maestro de videos cortos.