Real-Time Motion-Controllable Autoregressive Video Diffusion

O artigo apresenta o AR-Drag, o primeiro modelo de difusão autoregressivo aprimorado por aprendizado por reforço para geração de vídeo em tempo real a partir de imagens, que supera os desafios de latência e qualidade ao permitir controle preciso de movimentos diversos com apenas 1,3 bilhão de parâmetros.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro em tempo real. Você quer mudar de direção, acelerar ou frear instantaneamente, conforme a estrada aparece à sua frente.

A maioria dos modelos de geração de vídeo atuais funciona como um piloto automático que precisa planejar toda a viagem antes de dar a primeira volta. Eles olham para o destino final (o último quadro do vídeo) e para o ponto de partida (o primeiro quadro) ao mesmo tempo, calculando tudo de uma vez só. O problema? Se você quiser mudar o destino no meio do caminho, o sistema precisa recalcular tudo do zero. Isso é lento e não permite interação em tempo real.

O AR-Drag, apresentado neste artigo, é como um piloto humano esperto que dirige quadro a quadro. Ele não espera o fim do vídeo para decidir o que fazer; ele toma decisões instantâneas, frame a frame, permitindo que você ajuste o movimento enquanto o vídeo está sendo criado.

Aqui está a explicação simplificada de como eles fizeram isso:

1. O Problema: O "Efeito Dominó" Quebrado

Os modelos antigos de vídeo (chamados bidirecionais) são como um quebra-cabeça gigante onde todas as peças são montadas simultaneamente. É bonito, mas demorado.
Os modelos novos (autoregressivos) montam o quebra-cabeça peça por peça. Isso é rápido, mas tem um defeito: se você errar a primeira peça, o resto do quebra-cabeça fica torto. Além disso, durante o treinamento, eles usavam "cola" (dados reais) para segurar as peças no lugar, mas na hora de dirigir (gerar o vídeo), tinham que soltar a cola e confiar apenas no que já tinham feito. Essa diferença entre treino e prática causava erros e vídeos estranhos.

2. A Solução Mágica: "Auto-Rolagem" (Self-Rollout)

Os autores criaram uma técnica chamada Self-Rollout.

  • Antes: Era como um aluno estudando para uma prova usando o gabarito (respostas certas) na mão, mas na hora da prova real, ele tinha que esquecer o gabarito e tentar adivinhar. O resultado? Nervosismo e erros.
  • Com Self-Rollout: O aluno é forçado a estudar apenas com o que ele mesmo escreveu nas páginas anteriores. Ele aprende a confiar na própria lógica, passo a passo, exatamente como fará na hora da prova. Isso alinha o treino com a realidade, eliminando a confusão e permitindo que o modelo aprenda a dirigir sozinho sem "cola".

3. O Treinamento com "Recompensas" (Reinforcement Learning)

Agora que o modelo sabe dirigir quadro a quadro, como fazê-lo obedecer aos seus comandos de movimento (como fazer um cachorro andar ou um objeto seguir uma linha)?
Eles usaram Aprendizado por Reforço (RL), que é como treinar um cachorro.

  • Você dá um comando (ex: "o cachorro deve andar para a direita").
  • O modelo tenta fazer.
  • Se o cachorro andar para a direita, você dá um petisco (recompensa). Se ele andar para a esquerda ou ficar parado, você não dá nada.
  • Com o tempo, o modelo aprende a fazer o que você quer para ganhar mais petiscos.

No AR-Drag, eles criaram um "treinador" (um modelo de recompensa) que verifica se o movimento do vídeo segue exatamente a trajetória que você desenhou. Se seguir, o modelo ganha pontos. Se não, ele é "reeducado".

4. O Truque da "Escolha Aleatória" (Stochasticity)

Treinar esse "cachorro" em um vídeo longo é difícil porque são muitos passos. Se você tentar variar a direção em todos os passos, o treino fica caótico e lento.
A solução deles foi a Escolha Aleatória Seletiva:
Imagine que você está dirigindo em uma estrada longa. Em vez de mudar de faixa aleatoriamente a cada metro (o que causaria acidentes), você escolhe apenas um ponto específico na estrada para fazer uma manobra arriscada e ver o que acontece. Nos outros pontos, você segue a estrada reta.
Isso permite que o modelo explore novas ideias sem perder o controle total, tornando o treinamento muito mais rápido e eficiente.

O Resultado Final

O AR-Drag é o primeiro sistema capaz de:

  1. Gerar vídeos em tempo real: Você desenha uma linha e o objeto a segue instantaneamente, sem esperar o vídeo todo ser processado.
  2. Ser preciso: O movimento segue exatamente o que você pediu, sem distorções estranhas.
  3. Ser leve: Funciona com um modelo pequeno (1,3 bilhão de parâmetros), enquanto outros modelos de alta qualidade exigem máquinas gigantes e demoram minutos para gerar um vídeo curto.

Em resumo: O AR-Drag transformou a geração de vídeo de um "planejador de viagens lento" em um "piloto de corrida ágil", capaz de reagir aos seus comandos no momento exato, aprendendo com seus erros e melhorando a cada volta.