Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este artigo apresenta um framework em cascata de dois estágios que gera vídeos complexos de movimentos humanos a partir de descrições textuais, combinando um modelo autoregressivo texto-para-esqueleto para criar sequências de poses e um modelo de difusão vídeo-para-poses com codificador de referência adaptativo, apoiado por um novo conjunto de dados sintético para superar as limitações atuais no controle temporal e na preservação de aparência.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun

Publicado Tue, 10 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer criar um vídeo de uma pessoa fazendo uma acrobacia complexa, como um salto mortal ou uma cambalhota, apenas descrevendo o que quer em texto. Até hoje, a inteligência artificial tinha duas grandes dificuldades com isso:

  1. A "Burocracia" do Esqueleto: Para fazer o movimento ficar perfeito, os sistemas precisavam que você desenhasse manualmente o esqueleto da pessoa quadro a quadro. É como se, para dirigir um carro, você precisasse desenhar a trajetória das rodas antes de ligar o motor. É trabalhoso e chato.
  2. O "Fantasma" da Roupagem: Quando a IA tentava fazer o movimento sozinha, a pessoa no vídeo muitas vezes mudava de roupa, perdia os dedos ou ficava com o rosto distorcido, como se fosse um fantasma se transformando.

Este artigo apresenta uma solução genial que divide o trabalho em duas etapas, como se fosse uma equipe de produção de cinema com dois especialistas: um Coreógrafo e um Ator de Efeitos Especiais.

O Passo 1: O Coreógrafo (Do Texto para o Esqueleto)

Primeiro, você escreve: "Uma pessoa faz um salto mortal com giro."
Em vez de pedir para a IA imaginar o vídeo inteiro de uma vez, o primeiro modelo (o Coreógrafo) foca apenas no movimento. Ele transforma suas palavras em uma sequência de "bonecos de palito" (esqueletos 2D) que mostram exatamente como cada junta do corpo deve se mover, segundo a segundo.

  • A Analogia: Pense nele como um coreógrafo de balé que, ao ouvir a música (seu texto), desenha no papel a coreografia exata. Ele não se preocupa com a cor do vestido ou o rosto do dançarino; ele só garante que o movimento seja fisicamente possível e coordenado.
  • A Inovação: A IA aprendeu a prever o próximo movimento baseando-se no anterior, entendendo que, para fazer um salto, você precisa primeiro agachar e depois impulsionar. Isso cria movimentos longos e complexos que antes eram impossíveis de gerar apenas com texto.

O Passo 2: O Ator de Efeitos Especiais (Do Esqueleto para o Vídeo)

Agora que temos a coreografia perfeita (o esqueleto), passamos para o segundo modelo. Você entrega a ele:

  1. A foto da pessoa que você quer que apareça no vídeo (o "ator").
  2. A coreografia do boneco de palito que o primeiro modelo criou.

O segundo modelo tem a tarefa de "vestir" o boneco de palito com a foto da pessoa e animá-la.

  • O Problema Antigo: Modelos antigos usavam uma "memória global" (como o CLIP) para lembrar como a pessoa era. É como tentar lembrar o rosto de alguém olhando apenas para uma foto borrada de longe. Se a pessoa girar rápido ou se esconder o rosto (auto-oclusão), a IA esquece os detalhes e a roupa muda de cor.
  • A Solução (DINO-ALF): Os autores criaram uma nova técnica chamada DINO-ALF. Imagine que, em vez de olhar para a foto de longe, a IA agora usa uma "lupa mágica" que examina a foto em camadas. Ela olha para os detalhes finos (a textura da camisa, o laço vermelho, a forma do nariz) e os guarda em "memória de curto prazo" enquanto o boneco se move.
  • O Resultado: Mesmo quando a pessoa faz um giro rápido ou se esconde atrás do próprio braço, a IA sabe exatamente como a roupa e o rosto devem parecer, mantendo a identidade da pessoa intacta.

O "Estúdio de Hollywood" Sintético

Havia um outro problema: não existiam muitos vídeos de acrobacias complexas na internet para treinar essas IAs (e os vídeos da internet têm problemas de direitos autorais).

Então, os autores construíram seu próprio estúdio virtual usando o software Blender. Eles criaram 2.000 vídeos sintéticos de personagens fazendo acrobacias, controlando tudo: a roupa, o cenário e o movimento. É como se eles tivessem criado um banco de dados de "filmes de ação" perfeitos, sem ninguém real precisar se machucar ou se preocupar com privacidade, só para ensinar a IA a fazer o que é difícil.

Resumo da Ópera

Em suma, o papel propõe um sistema onde:

  1. Você fala o que quer.
  2. A IA planeja o movimento (como um coreógrafo).
  3. A IA executa o vídeo, mantendo a aparência da pessoa perfeita (como um ator de efeitos especiais com uma lupa mágica).

O resultado são vídeos de pessoas fazendo coisas insanas (como saltos mortais e artes marciais) que parecem reais, mantêm a roupa e o rosto consistentes, e são gerados apenas a partir de uma frase simples. É um grande passo para criar animações, treinadores virtuais de esportes e avatares que realmente se movem como humanos.