Human Video Generation from a Single Image with 3D Pose and View Control

O artigo apresenta o HVG, um modelo de difusão de vídeo latente que gera vídeos humanos de alta qualidade, consistentes no espaço e no tempo, a partir de uma única imagem, permitindo controle preciso de pose 3D e viewpoint através de modulação articulada de pose, alinhamento de viewpoints e amostragem espaço-temporal progressiva.

Tiantian Wang, Chun-Han Yao, Tao Hu, Mallikarjun Byrasandra Ramalinga Reddy, Ming-Hsuan Yang, Varun Jampani

Publicado 2026-02-25
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma única foto de uma pessoa. Agora, imagine que você quer transformar essa foto estática em um vídeo onde essa pessoa dança, corre e gira, mas com um superpoder: você pode escolher de onde assistir a cena (como se você estivesse andando ao redor dela) e como ela se move, mesmo que a foto original fosse apenas de frente.

Fazer isso é como tentar adivinhar como as dobras de uma camisa mudam quando alguém vira o corpo, sem ter visto o corpo de lado antes. É um pesadelo para a inteligência artificial, que costuma criar monstros com membros tortos ou roupas que se dissolvem no ar.

Este artigo apresenta o HVG (Geração de Vídeo Humano em 4D), uma nova tecnologia que resolve esse problema. Vamos usar algumas analogias para entender como ela funciona:

1. O Problema: O "Boneco de Palito" vs. O "Manequim de Roupas"

Antes do HVG, existiam duas formas principais de tentar animar pessoas:

  • O Esqueleto 2D (Boneco de Palito): A IA olhava apenas para os ossos desenhados em cima da foto. O problema? Um boneco de palito não tem volume. Se a pessoa cruzar os braços, a IA não sabe qual braço está na frente e qual está atrás. O resultado? Braços que parecem se atravessar como fantasmas ou joelhos que dobram para o lado errado.
  • A Malha 3D (Manequim de Roupas): A IA usava um modelo matemático do corpo humano (como um manequim de loja). O problema? Esse manequim é muito rígido. Ele não entende roupas largas, acessórios ou corpos únicos. Quando a pessoa se move, a roupa parece "vazar" ou se deformar de forma estranha, como se fosse feita de gelatina.

2. A Solução Mágica: O "Mapa de Ossos com Volume"

O HVG cria algo novo chamado Mapa de Ossos Articulados.

  • A Analogia: Imagine que, em vez de desenhar apenas linhas finas (ossos) ou um manequim rígido, a IA desenha ovos elásticos (elipsoides) conectando as juntas do corpo.
  • Como funciona: Esses "ovos" têm espessura e direção. Eles dizem à IA: "Este braço é grosso e está aqui, bloqueando a visão daquele braço".
  • O Resultado: Quando a pessoa gira, a IA sabe exatamente como a roupa deve se dobrar e como o braço deve cobrir o corpo, porque ela "enxerga" o volume do corpo, não apenas a superfície ou a linha. É como ter um modelo 3D real, mas desenhado de forma que a IA consiga entender perfeitamente.

3. A Coreografia: Alinhamento e Sincronia

Para que o vídeo não fique tremendo ou com a pessoa "piscando" de um lugar para outro, o HVG usa duas técnicas inteligentes:

  • Alinhamento de Visão: Imagine que você está filmando uma pessoa com várias câmeras ao mesmo tempo. Se a pessoa andar um pouco para a esquerda, em uma câmera ela fica no centro e na outra ela vai para a borda. O HVG "centraliza" magicamente a pessoa em todas as câmeras antes de processar, garantindo que a IA saiba que é a mesma pessoa em todos os ângulos, sem se confundir com o fundo.
  • Amostragem Espacial-Temporal Progressiva: Gerar um vídeo longo de vários ângulos é como tentar pintar um mural gigante de uma só vez; é difícil manter a consistência. O HVG pinta o mural em "pedaços" que se sobrepõem. Ele gera um pedaço do tempo (ex: 24 quadros) e um pedaço do ângulo (ex: 6 câmeras), e depois une essas peças com cuidado, como um quebra-cabeça, garantindo que a transição seja suave e sem cortes bruscos.

4. O Resultado Final

Com essas ferramentas, o HVG consegue pegar uma foto estática e transformá-la em um vídeo de alta qualidade onde:

  • A pessoa pode ser vista de 360 graus (girando ao redor dela).
  • As roupas se movem de forma realista (dobras, tecidos).
  • Não há "fantasmas" ou membros que se atravessam.
  • A pessoa mantém a mesma cara e corpo o tempo todo.

Resumo da Ópera:
O HVG é como um diretor de cinema virtual que, ao receber apenas uma foto de um ator, consegue imaginar perfeitamente como o ator se move, como a roupa dele se comporta e como a luz muda quando você anda ao redor dele, tudo isso sem cometer os erros estranhos que as IAs antigas faziam. É um grande passo para criar personagens virtuais realistas para jogos, filmes e realidade virtual.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →