QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

O artigo propõe o QuantSparse, um quadro unificado que integra quantização de modelo e esparsificação de atenção com técnicas de destilação e reparametrização para comprimir eficientemente transformadores de difusão de vídeo, alcançando ganhos significativos em armazenamento e velocidade de inferência sem comprometer a qualidade da geração.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um supercomputador de cinema, capaz de criar vídeos incríveis a partir de apenas uma frase de texto. Esses computadores são chamados de Modelos de Difusão (como o HunyuanVideo ou o Wan2.1). Eles são maravilhosos, mas têm um grande defeito: são tão pesados e exigentes que só funcionam em máquinas gigantescas e caras, como se você precisasse de uma usina de energia inteira para fazer uma torrada.

O problema é que eles precisam de muita memória (para "lembrar" de tudo) e muito tempo de processamento.

Os autores deste artigo, chamado QuantSparse, criaram uma solução inteligente para tornar esses modelos leves e rápidos, sem perder a qualidade da imagem. Eles usaram duas técnicas principais, que podemos comparar a compactar um arquivo e focar apenas no que importa.

Aqui está a explicação simplificada:

1. O Problema: A "Tempestade Perfeita"

Imagine que você tenta fazer duas coisas ao mesmo tempo para economizar espaço:

  1. Quantização (Compressão): Você reduz a precisão das cores de um vídeo de "alta definição" para "baixa definição" (como transformar um arquivo 4K em MP3). Isso economiza espaço, mas pode deixar a imagem um pouco "granulada".
  2. Esparsidade (Foco): Você decide ignorar 85% das informações do vídeo, focando apenas nos 15% mais importantes. É como ler um livro ignorando 85% das palavras, achando que o resto conta a história.

O problema é que, quando você faz as duas coisas juntas de forma "boba", o resultado é um desastre. A imagem fica cheia de ruídos e distorções. É como tentar ouvir uma música baixa (compressão) enquanto alguém grita no seu ouvido (ignorando partes importantes). O cérebro não consegue entender nada.

2. A Solução: QuantSparse (O "Mestre da Orquestra")

Os autores criaram o QuantSparse, que não apenas faz a compressão e o foco, mas ensina o modelo a fazer isso sem ficar confuso. Eles usaram duas "mágicas":

A. A Distilação de Atenção Multiescala (O "Mapa e a Lupa")

Para ensinar o modelo a não perder a qualidade ao ignorar partes do vídeo, eles usaram uma técnica de "ensino" chamada Distilação.

  • O Mapa Global (Guia Global): Imagine que você está ensinando alguém a desenhar uma paisagem. Primeiro, você mostra o desenho inteiro, mas bem pequeno e borrado, para a pessoa entender a estrutura geral (onde está o céu, onde está o mar). Isso é a "Atenção Global".
  • A Lupa nos Detalhes (Guia Local): Depois, você pega apenas os pontos mais importantes do desenho (como o rosto de uma pessoa ou uma flor brilhante) e mostra em alta definição, ignorando o resto. Isso é a "Atenção Saliente".

O QuantSparse usa esses dois guias ao mesmo tempo. Ele diz ao modelo: "Olhe para o mapa geral para não errar a estrutura, e use a lupa nos detalhes importantes para não perder a beleza". Isso evita que a imagem fique estranha.

B. A Reparametrização de Segunda Ordem (O "Corretor de Erros")

Mesmo com o mapa e a lupa, ainda podem sobrar pequenos erros porque o modelo está "esquecendo" informações ao ignorar 85% dos dados.

  • O Erro de Primeira Ordem: Imagine que você tenta adivinhar o que vem a seguir em uma história, mas erra um pouco.
  • O Erro de Segunda Ordem: O QuantSparse percebe que, embora o erro mude a cada frame do vídeo, a forma como esse erro muda é muito estável e previsível (como uma onda suave).

Em vez de tentar adivinhar tudo de novo, o modelo guarda um "bilhete de correção" (um resíduo) que ele calculou antes. Ele usa esse bilhete para corrigir os erros futuros. É como se você tivesse um GPS que, mesmo quando o sinal falha, sabe exatamente para onde você deve virar porque conhece o padrão das ruas. Isso permite que o modelo use apenas 15% dos dados e ainda assim gere um vídeo perfeito.

3. Os Resultados: O Milagre da Eficiência

O resultado final é impressionante. O QuantSparse consegue:

  • Reduzir o tamanho do modelo em quase 4 vezes (de 20GB para menos de 7GB).
  • Acelerar a geração de vídeo em quase 2 vezes.
  • Manter a qualidade visual quase idêntica à versão original pesada.

Em resumo:
O QuantSparse é como transformar um caminhão de carga gigante (o modelo original) em um carro esportivo ágil (o modelo comprimido). Em vez de apenas tirar peças do caminhão (o que o deixaria quebrado), eles redesenharam o motor e a aerodinâmica (usando os guias de mapa/lupa e o corretor de erros) para que o carro pequeno corra tão rápido e leve a mesma carga, mas gastando muito menos combustível.

Agora, é possível criar vídeos de alta qualidade em computadores comuns, sem precisar de supercomputadores caríssimos!