Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Este artigo apresenta um sistema de inferência otimizado para modelos de geração de vídeo baseados em DiT, que utiliza codificação posicional 3D sequencial-paralela com um índice de tempo global para reduzir o consumo de memória e a latência, permitindo a geração de vídeos em tempo real com qualidade comparável.

Chao Yuan, Pan Li

Publicado 2026-03-10
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando dirigir um carro de corrida (um modelo de IA que cria vídeos) para fazer uma viagem muito longa. O problema é que, no modelo original, o carro precisa olhar para todo o trajeto inteiro (o vídeo completo) antes de dar o primeiro passo. Além disso, ele precisa de um mapa gigante que cresce exponencialmente conforme a viagem fica mais longa, fazendo o carro travar ou demorar uma eternidade para sair do lugar.

Este artigo é como uma reforma mecânica de alta performance que transforma esse carro lento em uma máquina de corrida ágil, capaz de dirigir em tempo real, mesmo em viagens longas.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Mapa Gigante" e a "Espera Inútil"

Os modelos atuais de geração de vídeo (como o Wan2.1) funcionam como se um grupo de amigos estivesse tentando escrever um livro juntos, mas todos precisam ler todas as páginas já escritas antes de escrever a próxima.

  • O gargalo: Se o livro tem 100 páginas, é fácil. Se tem 10.000 páginas, o tempo para ler tudo antes de escrever uma nova linha explode. Isso consome muita memória (o "mapa" fica gigante) e faz o sistema esperar segundos ou minutos para mostrar o primeiro quadro do vídeo.
  • A solução atual (Self-Forcing): Alguém teve a ideia de mudar a regra: em vez de ler tudo de uma vez, escreva página por página, olhando apenas para o que já foi escrito (causal). Isso permite vídeos infinitos.
  • O novo problema: Mesmo com essa nova regra, quando tentamos usar vários computadores (GPUs) juntos para fazer isso rápido, eles ficam trocando mensagens desnecessárias o tempo todo, como se um grupo de pessoas estivesse gritando informações umas para as outras em vez de trabalhar em silêncio.

2. A Solução: A "Fábrica de Montagem" Inteligente

Os autores criaram um sistema chamado Causal-RoPE SP. Vamos imaginar que a geração do vídeo é uma linha de montagem de carros:

A. Divisão do Trabalho (Parallelismo de Sequência)

Em vez de um único mecânico tentar montar o carro inteiro, você divide o trabalho em 8 mecânicos (8 GPUs).

  • O jeito antigo: Cada mecânico precisava pegar a peça do vizinho, olhar para a peça do outro lado da linha e só então montar a sua parte. Isso gerava muito "trânsito" de mensagens.
  • O jeito novo: Cada mecânico fica responsável por uma fatia do carro. Eles só precisam saber onde estão na linha, não precisam perguntar a todo momento o que os outros estão fazendo.

B. O "Relógio Mágico" (Causal-RoPE SP)

Para montar o carro corretamente, cada peça precisa saber em que momento do tempo ela está (segundo 1, segundo 2, etc.).

  • O problema antigo: Para saber o "tempo global", cada mecânico tinha que perguntar a todos os outros qual era o tempo total. Era como se, para saber que horas são, você tivesse que ligar para todos os seus amigos antes de olhar seu próprio relógio.
  • O "Relógio Mágico" (Global Time Index): Os autores deram a cada mecânico um "cartão de início" (Start Frame).
    • Analogia: Imagine que o primeiro mecânico começa no minuto 0. O segundo começa no minuto 3. O terceiro no minuto 6.
    • Agora, cada mecânico sabe exatamente em que minuto está apenas olhando para o seu próprio cartão e contando quantas peças ele já montou. Ninguém precisa falar com ninguém para saber a hora. Isso elimina o "trânsito" de mensagens e deixa a linha de montagem voando.

C. A "Caixa de Ferramentas Unificada" (Fusão de Operações)

Antes, a equipe fazia três coisas separadas: pegar as peças, calcular o ângulo da peça e montar. Cada passo exigia parar e trocar ferramentas.

  • A otimização: Eles criaram uma "super-ferramenta" que faz tudo de uma vez só. Em vez de parar a linha para calcular o tempo, eles calculam o tempo enquanto pegam as peças. É como um cozinheiro que tempera a carne enquanto a coloca na panela, em vez de parar para temperar depois.

3. O Resultado: Velocidade Real

Com essas mudanças, o que aconteceu?

  • Antes: Para gerar um vídeo de 5 segundos, o sistema levava quase 9 segundos para começar a mostrar a primeira imagem (latência alta) e demorava muito para terminar.
  • Depois: O sistema começa a mostrar a primeira imagem em menos de 1 segundo (quase instantâneo) e termina o vídeo de 5 segundos em cerca de 5,4 segundos.
  • O Ganho: Eles conseguiram tornar o processo 1,58 vezes mais rápido sem perder a qualidade do vídeo.

Resumo Final

Pense nisso como transformar um grupo de pessoas que precisa discutir tudo antes de agir em uma orquestra bem ensaiada.

  • Cada músico (GPU) sabe exatamente quando tocar sua parte (Causal-RoPE).
  • Eles não precisam gritar uns para os outros para saber o compasso (sem comunicação desnecessária).
  • O maestro (o sistema) garante que todos toquem juntos perfeitamente.

O resultado é que a IA consegue criar vídeos longos e complexos em tempo real, abrindo portas para aplicações interativas onde você pode conversar com a IA e ver o vídeo sendo gerado na hora, sem esperar.