Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index
Este artigo apresenta um sistema de inferência otimizado para modelos de geração de vídeo baseados em DiT, que utiliza codificação posicional 3D sequencial-paralela com um índice de tempo global para reduzir o consumo de memória e a latência, permitindo a geração de vídeos em tempo real com qualidade comparável.