LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

O artigo apresenta o LinVideo, uma framework de pós-treinamento livre de dados que substitui seletivamente módulos de atenção quadrática por atenção linear em modelos de difusão de vídeo, utilizando correspondência de distribuição para alcançar acelerações de 1,25 a 2,00 vezes (e até 15,92 vezes em modelos destilados) sem comprometer a qualidade de geração.

Yushi Huang, Xingtong Ge, Ruihao Gong, Chengtao Lv, Jun Zhang

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um cinematógrafo mágico (um modelo de Inteligência Artificial) capaz de criar filmes incríveis, com personagens realistas e movimentos suaves. O problema é que esse cinematógrafo é lento e caro de operar.

Por que? Porque, para criar cada quadro do filme, ele precisa olhar para todos os outros quadros ao mesmo tempo e comparar cada um com todos os outros. É como se, para escrever uma cena de um filme, o roteirista tivesse que ler e comparar cada palavra de todo o livro antes de escrever a próxima. Isso faz o tempo de processamento explodir: se o filme tem o dobro de duração, o trabalho quadruplica.

Os cientistas tentaram resolver isso usando "atenção linear" (uma versão mais rápida e simples do roteirista), mas quando tentaram trocar o roteirista original pelo novo, o filme ficava estranho, com personagens se deformando ou a história fazendo pouco sentido. Era como trocar o motor de um carro de Fórmula 1 por um de um carro popular: o carro anda, mas não é mais o mesmo.

Aqui entra o LINVIDEO, a solução proposta neste artigo. Eles não querem reescrever todo o livro do zero (o que exigiria anos de treino). Em vez disso, eles criaram um framework de "pós-treino" (um ajuste fino) que faz duas coisas mágicas:

1. A Troca Seletiva (O Cirurgião Preciso)

Imagine que o cinematógrafo é uma equipe de 30 diretores de cena trabalhando juntos. O LINVIDEO descobre que nem todos os diretores são igualmente importantes para a velocidade.

  • Alguns diretores (camadas profundas) são essenciais para a qualidade; se você os trocar, o filme estraga.
  • Outros (camadas superficiais) podem ser substituídos por uma versão mais rápida sem estragar o resultado.

O LINVIDEO usa um "cirurgião inteligente" que testa automaticamente quais diretores podem ser trocados. Ele não faz um corte aleatório; ele escolhe exatamente quais peças do motor podem ser trocadas por versões mais leves, mantendo a performance do carro de corrida.

2. O Espelho de Tempo (A Regra de Ouro)

O maior desafio era: como treinar esse novo motor rápido para que ele não perca a qualidade?
Métodos antigos tentavam apenas fazer o novo motor imitar o resultado final do filme. O problema é que isso cria "artefatos" (como tremores ou piscadas estranhas no vídeo), porque o motor novo não aprendeu a caminho para chegar lá, apenas o destino.

O LINVIDEO introduz uma técnica chamada "Correspondência de Distribuição em Qualquer Momento" (ADM).

  • A Analogia: Imagine que você está ensinando um aluno a desenhar um cavalo.
    • Método antigo: Você mostra o desenho final e diz "faça igual". O aluno tenta adivinhar e sai um cavalo torto.
    • Método LINVIDEO: Você segura um espelho mágico que mostra o desenho do mestre em cada segundo do processo. Se o mestre desenha a pata esquerda primeiro, o aluno vê isso. Se o mestre desenha orelha depois, o aluno vê também.
    • O aluno (o novo modelo) é forçado a seguir o mesmo caminho passo a passo que o mestre, não apenas o resultado final. Isso garante que o vídeo final seja suave, sem tremores, mesmo sendo gerado muito mais rápido.

O Resultado?

Com essa abordagem, o LINVIDEO consegue:

  • Tornar o processo 1,4 a 1,7 vezes mais rápido apenas trocando as peças certas.
  • Se combinado com uma técnica de "destilação" (ensinar o modelo a pular etapas), ele pode gerar vídeos 16 a 21 vezes mais rápido, com uma perda de qualidade quase imperceptível.

Em resumo: O LINVIDEO é como pegar um supercomputador lento, identificar quais partes dele podem ser trocadas por versões leves, e usar um "espelho de tempo" para garantir que, mesmo sendo mais leve, ele continue criando filmes de Hollywood perfeitos, sem precisar reescrever o código do zero. É eficiência sem sacrificar a arte.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →