DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training
Il paper presenta DSV, un metodo che accelera l'addestramento di modelli Video DiT su larga scala sfruttando la sparsità dinamica dell'attenzione tramite approssimazione a basso rango e kernel personalizzati, ottenendo un aumento del throughput fino a 3,02 volte senza perdita di qualità.