Arbitrary Generative Video Interpolation

O artigo apresenta o ArbInterp, um novo framework de interpolação generativa de vídeo que permite a síntese de quadros intermediários em qualquer timestamp e de qualquer duração, superando as limitações de rigidez dos métodos anteriores através de uma codificação posicional temporal adaptativa e uma estratégia de condicionamento que decopla aparência e movimento para garantir consistência e continuidade.

Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem duas fotos: uma de uma maçã inteira e outra de uma maçã totalmente mastigada. O seu objetivo é criar um filme curto mostrando exatamente como a maçã foi sendo comida, passo a passo.

Até hoje, os "diretores de cinema" de inteligência artificial (IAs) só conseguiam fazer isso de uma maneira rígida: eles podiam gerar apenas 1, 2 ou 4 quadros intermediários. Se você quisesse ver o processo em câmera lenta (muitos quadros) ou em velocidade acelerada (poucos quadros), a IA ficava confusa ou simplesmente não conseguia fazer. Era como se você só pudesse pedir ao cineasta para filmar a cena em 30 quadros por segundo, sem opção de mudar.

O novo trabalho, chamado ArbInterp, quebra essa regra. Aqui está a explicação simples de como eles fizeram isso:

1. O Problema do "Relógio Rígido"

As IAs atuais usam um sistema de endereçamento chamado "RoPE" (uma espécie de etiqueta de posição). Imagine que cada quadro do vídeo é um passageiro em um ônibus.

  • O jeito antigo: O motorista (a IA) só sabia que o passageiro estava na "Cadeira 1", "Cadeira 2", "Cadeira 3". Se você quisesse colocar um passageiro novo entre a Cadeira 1 e a 2, o sistema travava.
  • O jeito novo (ArbInterp): Eles criaram um novo sistema de endereçamento chamado TaRoPE. Agora, em vez de números inteiros (1, 2, 3), os passageiros têm horários exatos (0.0, 0.25, 0.5, 0.75, 1.0).
    • A Analogia: Imagine que o tempo entre a maçã inteira e a mastigada é uma linha reta de 0 a 1. O TaRoPE permite que você peça para a IA gerar um quadro exatamente no minuto 0.37 ou no 0.82. Você tem controle total sobre quando a ação acontece, não importa quantos quadros você queira.

2. O Desafio do "Filme Longo"

Se você pedir para a IA gerar um vídeo de 1 minuto com muitos quadros, ela precisa fazer isso em pedaços (segmentos), porque computadores não conseguem processar horas de vídeo de uma só vez.

  • O Problema: Quando a IA termina o primeiro pedaço e começa o segundo, ela pode "esquecer" como a pessoa estava vestida ou como o movimento estava fluindo. O vídeo ficaria com "cortes" visíveis, como se a roupa da pessoa mudasse de cor do nada ou o movimento pulasse.
  • A Solução (Decomposição de Aparência e Movimento): Os autores criaram uma estratégia inteligente para conectar esses pedaços, como se fosse um maestro orquestrando uma orquestra:
    • Aparência (O Visual): Eles usam o último quadro do pedaço anterior como um "espelho" para o próximo. Isso garante que a roupa, o rosto e o cenário continuem iguais. É como garantir que o ator não troque de camisa entre as cenas.
    • Movimento (A Ação): Eles extraem a "alma" do movimento (a velocidade, a direção, a rotação) do pedaço anterior e a injetam no próximo. É como se o diretor dissesse ao ator do próximo segmento: "Continue o movimento de girar exatamente como você estava fazendo no final da cena anterior".

3. O Resultado: Um "Caneta Mágica" de Vídeo

Com essa tecnologia, o ArbInterp funciona como uma caneta mágica para vídeos:

  • Você desenha o início e o fim.
  • Você diz: "Quero ver o que acontece exatamente no meio" (2x) ou "Quero ver cada micro-movimento" (32x ou mais).
  • A IA preenche os espaços com uma fluidez perfeita, sem travar, sem mudar a aparência das pessoas e sem pular movimentos.

Por que isso é importante?

Antes, se você quisesse criar um efeito de câmera lenta para um vídeo de esportes ou um jogo, você tinha que adivinhar quantos quadros a IA ia gerar. Agora, você pode dizer: "Gere um quadro para cada 0.01 segundos". Isso dá aos criadores de conteúdo, jogos e editores de vídeo um controle total sobre o tempo e o ritmo, transformando a criação de vídeos em algo muito mais flexível e natural.

Em resumo: ArbInterp ensinou a IA a entender o tempo não como uma escada de degraus fixos, mas como uma linha contínua e suave, onde você pode parar e olhar em qualquer ponto que desejar.