Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index
Questo paper presenta un sistema di inferenza ottimizzato per la generazione video basato su trasformatori di diffusione, che utilizza un'incodifica posizionale 3D sequenziale-parallela con un indice temporale globale per ridurre la latenza e l'uso di memoria, permettendo la generazione di video in tempo reale con qualità comparabile.