QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification
Le papier propose QuantSparse, un cadre unifié combinant quantification et sparsification de l'attention pour compresser efficacement les transformateurs de diffusion vidéo tout en préservant la qualité de génération grâce à des techniques innovantes de distillation et de reparamétrisation.