Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Este trabalho propõe a Orientação Adaptativa de Baixa Frequência (ALG), uma solução simples e sem treinamento que melhora a dinâmica temporal na geração de vídeos a partir de imagens, mitigando a supressão de movimento causada pela exposição prematura a detalhes de alta frequência, sem comprometer a qualidade visual ou a alinhamento com o texto.

June Suk Choi, Kyungmin Lee, Sihyun Yu, Yisol Choi, Jinwoo Shin, Kimin Lee

Publicado 2026-02-25
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista muito talentoso, mas um pouco "medroso", que sabe desenhar cenas incríveis quando você lhe dá apenas uma descrição (texto). Ele cria vídeos cheios de movimento, ação e vida. Esse é o modelo de Texto para Vídeo.

Agora, imagine que você quer que esse mesmo artista desenhe um vídeo baseado em uma foto específica que você tem na mão (Imagem para Vídeo). Você quer que ele mantenha os detalhes exatos da sua foto, mas que a cena ganhe vida.

O problema é que, quando os pesquisadores tentaram ensinar esses artistas a trabalhar com fotos, eles ficaram paralisados. O vídeo gerado parecia uma foto estática com um leve tremor. Nada se movia de verdade. O artista tinha medo de mudar algo na foto original, então ele "trancou" os detalhes finos (como a textura da pele ou as folhas de uma árvore) no início do processo e esqueceu de criar o movimento.

Os autores deste artigo chamam esse problema de "efeito atalho". O modelo pega o caminho mais fácil: copia a foto perfeitamente e para por aí, em vez de imaginar como a cena evoluiria.

A Solução: O "Filtro de Baixa Frequência" Adaptativo (ALG)

Para consertar isso, os autores criaram uma técnica simples e brilhante chamada ALG (Adaptive Low-Pass Guidance). Vamos usar uma analogia para entender como funciona:

1. O Problema: O "Detalhe Excessivo"

Pense na foto de entrada como uma foto tirada com uma lente super nítida, onde você vê cada poro da pele e cada fio de grama. Quando o artista começa a desenhar o vídeo, ele se foca tanto nesses detalhes minúsculos que esquece de desenhar o movimento grande (como uma pessoa correndo ou um carro passando). Ele fica preso nos detalhes.

2. A Ideia: O "Rascunho Borrado"

A solução é pedir para o artista começar o desenho com uma versão borrada da sua foto.

  • No início (quando o vídeo está sendo criado): Eles mostram ao artista uma versão da sua foto onde os detalhes finos foram removidos (como se estivesse embaixo de uma névoa ou desfocada).
  • Por que isso ajuda? Como a imagem está borrada, o artista não consegue se prender aos detalhes minúsculos. Ele é forçado a pensar no movimento geral, na ação e na estrutura da cena. Ele desenha o carro se movendo, o vento soprando, a pessoa correndo.
  • No final (quando o vídeo está quase pronto): Assim que o movimento está definido, eles trocam a imagem borrada pela foto original nítida. Agora, o artista usa a foto real para preencher os detalhes finos (a cor do carro, o rosto da pessoa) sobre o movimento que já foi criado.

3. O Resultado: O Melhor dos Dois Mundos

Essa técnica, que os autores chamam de Guia de Baixa Frequência Adaptativa, funciona como um professor de arte:

  • Ele diz: "Não se preocupe com os detalhes agora, foque na ação!" (Fase borrada).
  • Depois ele diz: "Agora que a ação está definida, vamos polir os detalhes para ficar perfeito." (Fase nítida).

O Que Eles Descobriram?

Os testes mostraram que essa técnica é mágica:

  • Mais Movimento: Os vídeos ficaram muito mais dinâmicos e vivos. Em testes padrão, a "quantidade de movimento" aumentou em 33%!
  • Qualidade Preservada: Diferente de apenas deixar a foto borrada o tempo todo (o que deixaria o vídeo feio), o ALG devolve a nitidez no final. Então, o vídeo tem movimento e ainda parece a foto original.
  • Sem Treinamento Novo: O legal é que eles não precisaram reensinar o modelo do zero. Eles apenas mudaram a forma como o modelo "olha" para a foto enquanto cria o vídeo. É como mudar a iluminação de um estúdio, não reformar o estúdio inteiro.

Resumo em uma Frase

O papel mostra que, para fazer vídeos animados a partir de fotos, precisamos "cegar" temporariamente o modelo para os detalhes finos no início, para que ele tenha liberdade para criar movimento, e só depois "abrir os olhos" dele para recuperar a perfeição da imagem. É como desenhar um esboço rápido e solto antes de pintar a obra de arte final.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →