SQ-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation
L'article présente S²Q-VDiT, un cadre de quantification post-entraînement pour les transformateurs de diffusion vidéo qui combine une sélection de données saillantes basée sur l'Hessien et une distillation de tokens épars guidée par l'attention pour atteindre des performances sans perte avec une compression et une accélération significatives.