DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training
O artigo apresenta o DSV, um método que acelera o treinamento de DiTs de vídeo em larga escala explorando a esparsidade dinâmica da atenção através de aproximação de baixo posto, kernels personalizados e paralelismo de contexto híbrido, alcançando um aumento de até 3,02 vezes no rendimento de treinamento sem perda de qualidade.