Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

O artigo apresenta o REVEL, uma nova tarefa de manipulação interativa de vídeos em streaming, e propõe o DragStream, uma abordagem sem treinamento que corrige a deriva de distribuição latente e mitiga interferências contextuais para permitir a edição precisa de qualquer elemento em qualquer momento dentro de modelos de difusão autoregressivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme gerado por inteligência artificial. De repente, você vê algo que não gosta: o personagem está andando para a direita, mas você quer que ele vá para a esquerda. Ou talvez você queira que a xícara de café na mesa gire, ou que o rosto de um gato se estique de forma engraçada.

No passado, se você quisesse fazer essa mudança, teria que pedir para a IA "reiniciar" o filme do zero, o que é demorado e frustrante. Mas os autores deste artigo, chamado DragStream, criaram uma nova maneira de fazer isso: arrastar e soltar (como no seu computador) em qualquer momento, enquanto o vídeo está sendo gerado.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O "Vácuo" que Quebra a Mágica

Imagine que a IA está construindo um vídeo frame por frame, como um pintor que pinta uma tela, espera secar, e pinta a próxima.

  • O Desafio: Quando você tenta "arrastar" um objeto no meio do processo (digamos, empurrar um gato para o lado), você está mexendo na "massa" da pintura.
  • O Erro Comum: Se você mexe demais, a tinta se mistura de um jeito estranho. A IA começa a ficar confusa, a "cor" do vídeo muda, o gato vira um cachorro ou a imagem fica distorcida. Isso acontece porque o "espaço secreto" onde a IA pensa (chamado de espaço latente) fica desequilibrado. É como tentar empurrar um carrinho de compras em um chão de gelo: ele escorrega e sai da pista.

2. A Solução: O "DragStream" (Arraste Qualquer Coisa, a Qualquer Hora)

Os autores criaram um método chamado DragStream que permite que você faça essas edições em tempo real, sem precisar treinar a IA do zero (o que seria como ter que ensinar um pintor a pintar de novo do zero só para você mudar a cor de um chapéu).

Eles usam duas "ferramentas mágicas" para resolver os problemas:

A. O "GPS de Correção" (ADSR)

  • O Problema: Quando você arrasta algo, a IA começa a "viajar" para longe do que ela deveria ser. A imagem fica estranha.
  • A Solução: Imagine que a IA tem um GPS que olha para os frames anteriores (o que já foi pintado) e diz: "Ei, você está indo para o lado errado! Volte um pouco para a rota normal".
  • Na prática: O sistema olha para o que aconteceu nos segundos anteriores e ajusta a "bússola" da IA para que o objeto continue parecendo o mesmo objeto, mesmo que você o tenha movido. Isso impede que a imagem se transforme em algo irreconhecível.

B. O "Filtro de Ruído Inteligente" (SFSO)

  • O Problema: Quando você mexe em um objeto, a IA pode ficar confusa com o fundo. É como se você tentasse mover uma cadeira em uma sala, mas a IA achasse que você queria mudar a cor da parede também. Ou pior, a IA começa a criar "fantasmas" (artefatos visuais) porque está tentando usar informações antigas de um jeito errado.
  • A Solução: Os autores criaram um filtro que funciona como um equalizador de som ou um filtro de café.
    • Eles separam a informação em "frequências" (detalhes finos vs. formas gerais).
    • Eles dizem à IA: "Use as informações gerais do fundo para manter a cena estável, mas ignore os detalhes finos e barulhentos que podem causar erros".
    • É como usar óculos de sol: você vê o cenário (o fundo), mas não se distrai com os reflexos brilhantes (o ruído) que atrapalhariam a visão.

3. O Resultado: O "Controle Remoto" da Realidade

Com o DragStream, você pode:

  • Editar: Mudar algo que já aconteceu (ex: "Gire essa roda de carro agora").
  • Animar: Fazer algo novo acontecer (ex: "Faça esse pássaro voar para a esquerda").
  • Fazer tudo isso em tempo real: Você não precisa esperar o vídeo terminar. Você interage enquanto ele é feito.

Resumo da Ópera

Pense no DragStream como um assistente de direção para a IA.
Sem ele, a IA é como um carro autônomo que, se você tentar virar o volante bruscamente, derrapa e bate.
Com o DragStream, é como se o carro tivesse suspensão inteligente e um piloto automático que corrige o caminho instantaneamente. Você vira o volante (arrasta o objeto), e o carro ajusta a direção, a velocidade e a estabilidade para que você chegue ao destino (o vídeo editado) sem perder a qualidade ou a direção.

Em suma: É a primeira vez que podemos "pintar" e "moldar" vídeos gerados por IA com a mesma facilidade de arrastar um arquivo no computador, sem que a imagem fique estranha ou quebrada.