SQ-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation
O artigo apresenta o S²Q-VDiT, um framework de quantização pós-treinamento para transformadores de difusão de vídeo que utiliza seleção de dados salientes e destilação de tokens esparsos para alcançar desempenho sem perdas, compressão de 3,9 vezes e aceleração de 1,3 vezes sob quantização W4A6.