QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification
Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.