Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista muito talentoso, mas um pouco "medroso", que sabe desenhar cenas incríveis quando você lhe dá apenas uma descrição (texto). Ele cria vídeos cheios de movimento, ação e vida. Esse é o modelo de Texto para Vídeo.

Agora, imagine que você quer que esse mesmo artista desenhe um vídeo baseado em uma foto específica que você tem na mão (Imagem para Vídeo). Você quer que ele mantenha os detalhes exatos da sua foto, mas que a cena ganhe vida.

O problema é que, quando os pesquisadores tentaram ensinar esses artistas a trabalhar com fotos, eles ficaram paralisados. O vídeo gerado parecia uma foto estática com um leve tremor. Nada se movia de verdade. O artista tinha medo de mudar algo na foto original, então ele "trancou" os detalhes finos (como a textura da pele ou as folhas de uma árvore) no início do processo e esqueceu de criar o movimento.

Os autores deste artigo chamam esse problema de "efeito atalho". O modelo pega o caminho mais fácil: copia a foto perfeitamente e para por aí, em vez de imaginar como a cena evoluiria.

A Solução: O "Filtro de Baixa Frequência" Adaptativo (ALG)

Para consertar isso, os autores criaram uma técnica simples e brilhante chamada ALG (Adaptive Low-Pass Guidance). Vamos usar uma analogia para entender como funciona:

1. O Problema: O "Detalhe Excessivo"

Pense na foto de entrada como uma foto tirada com uma lente super nítida, onde você vê cada poro da pele e cada fio de grama. Quando o artista começa a desenhar o vídeo, ele se foca tanto nesses detalhes minúsculos que esquece de desenhar o movimento grande (como uma pessoa correndo ou um carro passando). Ele fica preso nos detalhes.

2. A Ideia: O "Rascunho Borrado"

A solução é pedir para o artista começar o desenho com uma versão borrada da sua foto.

No início (quando o vídeo está sendo criado): Eles mostram ao artista uma versão da sua foto onde os detalhes finos foram removidos (como se estivesse embaixo de uma névoa ou desfocada).
Por que isso ajuda? Como a imagem está borrada, o artista não consegue se prender aos detalhes minúsculos. Ele é forçado a pensar no movimento geral, na ação e na estrutura da cena. Ele desenha o carro se movendo, o vento soprando, a pessoa correndo.
No final (quando o vídeo está quase pronto): Assim que o movimento está definido, eles trocam a imagem borrada pela foto original nítida. Agora, o artista usa a foto real para preencher os detalhes finos (a cor do carro, o rosto da pessoa) sobre o movimento que já foi criado.

3. O Resultado: O Melhor dos Dois Mundos

Essa técnica, que os autores chamam de Guia de Baixa Frequência Adaptativa, funciona como um professor de arte:

Ele diz: "Não se preocupe com os detalhes agora, foque na ação!" (Fase borrada).
Depois ele diz: "Agora que a ação está definida, vamos polir os detalhes para ficar perfeito." (Fase nítida).

O Que Eles Descobriram?

Os testes mostraram que essa técnica é mágica:

Mais Movimento: Os vídeos ficaram muito mais dinâmicos e vivos. Em testes padrão, a "quantidade de movimento" aumentou em 33%!
Qualidade Preservada: Diferente de apenas deixar a foto borrada o tempo todo (o que deixaria o vídeo feio), o ALG devolve a nitidez no final. Então, o vídeo tem movimento e ainda parece a foto original.
Sem Treinamento Novo: O legal é que eles não precisaram reensinar o modelo do zero. Eles apenas mudaram a forma como o modelo "olha" para a foto enquanto cria o vídeo. É como mudar a iluminação de um estúdio, não reformar o estúdio inteiro.

Resumo em uma Frase

O papel mostra que, para fazer vídeos animados a partir de fotos, precisamos "cegar" temporariamente o modelo para os detalhes finos no início, para que ele tenha liberdade para criar movimento, e só depois "abrir os olhos" dele para recuperar a perfeição da imagem. É como desenhar um esboço rápido e solto antes de pintar a obra de arte final.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Supressão de Movimento em Modelos I2V

Os modelos de geração de vídeo baseados em difusão (Text-to-Video ou T2V) evoluíram rapidamente, produzindo vídeos de alta qualidade e dinâmicos. No entanto, quando esses modelos são adaptados para Imagem-para-Vídeo (I2V) — onde o objetivo é animar uma imagem de referência específica —, observa-se um fenômeno indesejado: supressão de dinâmica de movimento.

Sintoma: Os vídeos gerados por modelos I2V tendem a ser excessivamente estáticos, aderindo rigidamente à aparência da imagem de entrada, em comparação com seus pares T2V.
Causa Hipótese: Os autores identificam que a exposição prematura aos detalhes de alta frequência da imagem de entrada durante as etapas iniciais do processo de denoising (remoção de ruído) força o modelo a seguir uma "trajetória de atalho" (shortcut trajectory).
Mecanismo: O modelo "trava" nos detalhes finos da imagem de referência logo no início da geração, impedindo que variações temporais em grande escala (movimento macro) se desenvolvam. Isso resulta em um vídeo que parece uma sequência de imagens quase idênticas, em vez de uma animação fluida.

2. Metodologia: Guia de Passa-Baixa Adaptativo (ALG)

Para resolver esse problema sem a necessidade de re-treinamento do modelo, os autores propõem uma técnica de inferência chamada Adaptive Low-Pass Guidance (ALG).

Conceito Central

A ALG modula o conteúdo de frequência da imagem de condicionamento de forma adaptativa ao longo das etapas de tempo (timesteps) do processo de geração:

Fase Inicial (t ≈ 0): Aplica-se um filtro passa-baixa forte à imagem de referência. Isso remove os detalhes de alta frequência, permitindo que o modelo foque na estrutura geral e no movimento macro, evitando o "travamento" prematuro nos detalhes finos.
Fase Tardia (t ≈ 1): O filtro é gradualmente removido (ou sua força é reduzida a zero), reintroduzindo a imagem original de alta resolução e alta frequência. Isso garante que os detalhes finos e a fidelidade da imagem sejam restaurados no final do processo.

Implementação Técnica

A técnica é integrada ao mecanismo de Classifier-Free Guidance (CFG) padrão usado em modelos de difusão. A equação de velocidade modificada para ALG é:

$v_{ALG}(x_t, t) = v_\theta(x_t, x_{init}, t, \emptyset) + w \left( v_\theta(x_t, x^{(t)}_{init}, t, c) - v_\theta(x_t, x^{(t)}_{init}, t, \emptyset) \right)$

Onde:

$x^{(t)}_{init}$ é a versão da imagem de entrada filtrada no tempo $t$ .
O termo incondicional ( $v_\theta(..., \emptyset)$ ) mantém a imagem original ( $x_{init}$ ) para preservar a fidelidade.
Os termos condicionais utilizam a imagem filtrada ( $x^{(t)}_{init}$ ) para promover a dinâmica.
A função de força do filtro $\kappa(t)$ é geralmente uma função degrau ou linear decrescente, aplicando forte filtragem no início e nenhuma no final.

3. Contribuições Principais

Identificação da Causa Raiz: Demonstração empírica e visualização de que a supressão de movimento em modelos I2V é causada pela fixação prematura em detalhes de alta frequência (efeito de "atalho"), validado através da análise de mapas de características internas do modelo.
Técnica Livre de Treinamento (Training-Free): Proposta da ALG, uma solução simples que modifica apenas o processo de amostragem (inferência), não exigindo ajuste fino (fine-tuning) dos pesos do modelo.
Equilíbrio entre Dinâmica e Fidelidade: A metodologia consegue aumentar significativamente a dinâmica do vídeo sem sacrificar a qualidade da imagem ou a fidelidade ao prompt e à imagem de entrada, superando a limitação de filtros passa-baixa estáticos (que melhoram o movimento, mas degradam a qualidade da imagem).

4. Resultados Experimentais

Os autores avaliaram a ALG em vários modelos de última geração (SOTA) de código aberto, incluindo Wan 2.1, Wan 2.2 e LTX-Video, utilizando benchmarks como VBench, PVD e VidProM.

Melhoria na Dinâmica: No conjunto de testes VBench, a ALG alcançou uma melhoria média de 33% no "Dynamic Degree" (grau de dinamismo) através de diferentes modelos.
Preservação de Qualidade: Métricas de qualidade de vídeo (como Consistência do Sujeito, Qualidade Estética, Suavidade de Movimento e Flicker Temporal) permaneceram comparáveis ou até melhoraram ligeiramente em relação à linha de base (CFG padrão).
Comparação com Baselines:
- CFG Padrão: Vídeos estáticos, alta fidelidade à imagem.
- Filtro Passa-Baixa Constante: Vídeos dinâmicos, mas com baixa fidelidade (imagem borrada).
- ALG: Vídeos dinâmicos com alta fidelidade (recuperação de detalhes nas etapas finais).
Custo Computacional: O aumento no tempo de inferência é marginal (aproximadamente 11% no máximo para o Wan 2.1), tornando a técnica viável para uso prático.

5. Significado e Impacto

Este trabalho é significativo porque aborda uma limitação fundamental na adaptação de modelos de geração de vídeo: a tensão entre controle de imagem e geração de movimento.

Solução Prática: Oferece uma ferramenta imediata para desenvolvedores e pesquisadores que utilizam modelos I2V, permitindo gerar vídeos mais vivos e naturais sem a necessidade de re-treinar modelos massivos.
Insight Teórico: A descoberta de que a "supressão de movimento" é um artefato da exposição a altas frequências no início do denoising abre novas direções para o controle de trajetórias em modelos generativos.
Aplicabilidade Universal: Como a técnica é baseada na modificação da entrada durante a inferência, é aplicável a qualquer modelo I2V baseado em fluxo ou difusão que utilize mecanismos de guia, tornando-a uma solução robusta e generalizável.

Em resumo, a ALG permite que os modelos I2V superem sua tendência natural de estagnação, gerando vídeos que são simultaneamente fiéis à imagem de entrada e ricos em movimento dinâmico.