DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um diretor de cinema, mas em vez de usar câmeras e atores reais, você está criando vídeos mágicos no computador. O problema é que, até agora, fazer esses vídeos era como tentar ensinar um cachorro a fazer malabarismos apenas gritando "faça malabares!". Você podia pedir para o computador "fazer um homem pegar uma maçã", mas o resultado muitas vezes era estranho: a maçã podia flutuar, o braço podia atravessar a mesa ou a mão parecia um monstro de gelatina.

Aqui está a explicação do DISPLAY (o nome do novo método da equipe do Baidu) usando uma linguagem simples e analogias do dia a dia:

O Grande Problema: "Muita Informação, Pouca Liberdade"

Antes do DISPLAY, para criar um vídeo onde uma pessoa interage com um objeto (como pegar uma caneca), os computadores precisavam de instruções super detalhadas e complexas. Era como se você tivesse que desenhar cada osso da mão, cada curva do objeto e cada sombra da cena para o computador entender.

O resultado: Os vídeos ficavam rígidos. Se você quisesse trocar a caneca por um iPad, o computador travava porque não sabia como adaptar a mão à nova forma.

A Solução Mágica: O "Guia de Movimento Esparsos"

O DISPLAY introduz uma ideia genial: menos é mais. Em vez de dar ao computador um mapa completo e complexo, os usuários dão apenas pontos de referência simples.

Imagine que você está ensinando alguém a dançar. Em vez de desenhar cada passo em um papel, você apenas mostra:

O pulso da mão: Onde a mão começa e onde termina.
Uma caixa simples ao redor do objeto: Apenas um retângulo que diz "o objeto está aqui e tem este tamanho".

Isso é o que eles chamam de Guia de Movimento Esparsos. É como dar ao computador apenas as "pistas" principais e deixar a inteligência dele preencher os detalhes. Isso torna o processo muito mais fácil para o usuário e mais flexível para o computador criar coisas novas.

Os Três Superpoderes do DISPLAY

Para que essa simplicidade funcione sem criar erros, o DISPLAY usa três "superpoderes" (técnicas internas):

1. O "Foco no Objeto" (Object-Stressed Attention)

Às vezes, o computador fica tão focado no movimento da mão que esquece como o objeto deve parecer. É como um pintor que foca tanto no pincel que esquece de pintar o rosto do modelo.

A Solução: O DISPLAY usa um mecanismo chamado "Atenção Estressada ao Objeto". Pense nisso como um holofote que brilha intensamente no objeto. Isso força o computador a garantir que o objeto (seja uma caneca ou um iPad) mantenha sua forma e textura correta, mesmo enquanto a mão o segura e move.

2. O "Treinamento de Multi-Tarefas" (Multi-Task Auxiliary Training)

Como existem poucos vídeos na internet mostrando pessoas interagindo perfeitamente com objetos, treinar o computador só com esses vídeos é difícil. É como tentar aprender a cozinhar um prato complexo usando apenas 5 receitas.

A Solução: Os pesquisadores ensinaram o modelo a fazer outras coisas ao mesmo tempo, como apenas animar pessoas ou apenas preencher fundos. É como um aluno que estuda matemática, mas também pratica música e esportes; ele se torna mais inteligente e criativo. Isso permite que o modelo aprenda com mais dados e generalize melhor, criando interações realistas mesmo com objetos que ele nunca viu antes.

3. A "Interface de Autoria" (O Controle do Diretor)

O sistema vem com uma interface amigável. Você não precisa ser um programador.

Como funciona: Você abre o vídeo, clica em alguns pontos na tela para dizer "a mão começa aqui" e "termina ali", e escolhe qual objeto quer que apareça. O sistema então cria o vídeo inteiro, conectando os pontos de forma natural.

O Que Isso Permite Fazer?

Com o DISPLAY, você pode fazer três coisas incríveis:

Troca de Objetos: Pegar um vídeo de alguém segurando uma caneca e trocar magicamente por um iPad, e a mão se adapta perfeitamente ao novo formato.
Inserção de Objetos: Colocar um objeto que não existia no vídeo original (como uma bola de basquete) e fazer a pessoa pegá-la e jogá-la.
Interação Ambiental: Fazer a pessoa interagir com objetos que já estão na cena, mas que ela não estava tocando antes (como pegar uma xícara que estava na mesa).

Resumo Final

O DISPLAY é como dar ao computador um "mapa do tesouro" simplificado (apenas pontos de mão e uma caixa no objeto) em vez de um manual de instruções de 100 páginas. Com a ajuda de um "holofote" que foca no objeto e um treinamento inteligente que mistura várias tarefas, ele consegue criar vídeos onde humanos interagem com objetos de forma realista, física e controlável, permitindo que qualquer pessoa crie cenas mágicas com apenas alguns cliques.

É a evolução de "pedir para o computador adivinhar" para "dar ao computador as coordenadas certas e deixá-lo brilhar".

Each language version is independently generated for its own context, not a direct translation.

Título: DISPLAY: Geração de Vídeo de Interação Humano-Objeto Direcionável via Guia de Movimento Esparso e Auxílio Multi-Tarefa

1. Problema e Motivação

A geração de vídeos centrados em humanos avançou rapidamente, mas os métodos existentes enfrentam desafios significativos na criação de vídeos de Interação Humano-Objeto (HOI) que sejam ao mesmo tempo controláveis e fisicamente consistentes. As limitações principais identificadas pelos autores são:

Dependência de Prompts de Texto: Modelos grandes de geração de vídeo (LVGM) dependem excessivamente de prompts de texto complexos, resultando em processos não determinísticos e falta de controle espacial preciso (ex: fazer uma mão segurar um objeto em um local exato).
Sinais de Controle Densos e Desbalanceados: Métodos anteriores que utilizam controle explícito (como video-to-video inpainting ou animação guiada por pose) exigem sinais de controle complexos e de alta dimensão (ex: malhas 3D de mãos, mapas de profundidade de objetos). Isso cria um desequilíbrio na representação: as mãos têm representações estruturais fortes, enquanto os objetos muitas vezes carecem delas, levando a falhas como interpenetração geométrica, deformação de objetos e falta de generalização para novos objetos.
Escassez de Dados: Há uma falta crítica de dados de alta qualidade de HOI para treinamento, o que limita a capacidade de generalização dos modelos.

2. Metodologia: O Framework DISPLAY

O DISPLAY é um framework proposto para gerar vídeos de HOI de alta fidelidade a partir de referências zero-shot e guias de movimento esparsos definidos pelo usuário.

A. Guia de Movimento Esparso (Sparse Motion Guidance)
Em vez de usar malhas complexas ou vídeos de referência completos, o DISPLAY utiliza um guia de entrada extremamente leve:

Coordenadas dos Punhos: Apenas as coordenadas 2D dos punhos (esquerdo e direito) para guiar a trajetória da mão.
Caixa Delimitadora Agnóstica à Forma: Uma caixa delimitadora (bounding box) para o objeto, que indica sua localização e tamanho, mas não sua forma específica.
Vantagens: Isso alivia o desequilíbrio entre a representação da mão e do objeto, evita overfitting a formas específicas e permite que o usuário controle a interação com apenas alguns cliques em quadros-chave, sem depender de vídeos de direção externos.

B. Arquitetura e Mecanismos Chave
O modelo é construído sobre um modelo base de Texto-para-Vídeo (T2V) pré-treinado (baseado em Flow Matching e DiT - Diffusion Transformer), com uma Ramo de Condição (Condition Branch) adicionado:

Ramo de Condição: Clona algumas camadas do transformer do modelo pré-treinado para injetar as condições multimodais (texto, referência visual, referência do objeto, guia de movimento e fundo) sem congelar o modelo base, preservando sua capacidade generativa original.
Atenção Estressada ao Objeto (Object-Stressed Attention - OSA): Para lidar com a esparsidade do guia e garantir que o objeto gerado seja robusto, os autores introduzem um mecanismo de atenção modificado. Ele aplica coeficientes ponderados ( $\alpha$ ) para enfatizar os tokens de referência do objeto e suas interações durante o processo de atenção self-attention. Isso garante que o objeto gerado mantenha consistência física e de aparência com a cena e a pose humana.
Consistência de Cena: Utiliza um quadro de referência visual que captura a aparência humana e o fundo, permitindo a edição localizada e a animação de quadros de referência arbitrários.

C. Treinamento Multi-Tarefa Auxiliar (Multi-Task Auxiliary Training)
Para superar a escassez de dados de HOI de alta qualidade, o DISPLAY emprega uma estratégia de treinamento híbrida:

Pipeline de Curadoria de Dados: Filtra vídeos da web e dados próprios para criar um conjunto de dados limpo de HOI (usando filtros baseados em pontuação, detecção humana e VLMs).
Estratégia de Máscara Dinâmica: O modelo é treinado simultaneamente com:
1. Dados de HOI anotados (com interações claras).
2. Vídeos humanos com anotações fracas (sem interação de objeto explícita).
Máscara de Treinamento Multi-Tarefa: Aplica máscaras aleatórias nas sequências de movimento e nas sequências de vídeo mascarado (ex: ocultando o corpo ou partes do movimento). Isso força o modelo a aprender a sintetizar movimentos plausíveis de mãos e objetos a partir de dicas de início e fim, além de permitir a geração de vídeo a partir de imagens (Image-to-Video) e edição de vídeo durante a inferência.

3. Contribuições Principais

Framework DISPLAY: Uma nova arquitetura que permite a geração de HOI arbitrária, de alta fidelidade e robusta, suportando interação intuitiva do usuário através de guias de movimento esparsos.
Mecanismo de Atenção Estressada ao Objeto (OSA): Uma inovação que melhora a robustez da síntese de objetos sob condições de guia esparso, garantindo consistência física e de aparência.
Estratégia de Treinamento Multi-Tarefa: Uma abordagem completa com um pipeline de curadoria de dados projetado para superar o gargalo da escassez de dados de HOI de alta qualidade, melhorando a generalização para substituição, inserção e interação ambiental.

4. Resultados e Avaliação

Os autores avaliaram o DISPLAY em comparação com o estado da arte (SOTA), incluindo VACE, HunyuanCustom, HuMo, WanAnimate, Re-HOLD e AnchorCraft.

Métricas Quantitativas: O DISPLAY obteve os melhores resultados em FID (qualidade visual) e AES (estética), além de superar os concorrentes em FVD (consistência temporal) e CA (acordo de contato mão-objeto).
Fidelidade de Objetos: Métricas como O-CLIP e O-DINO (similaridade entre objeto de referência e gerado) foram significativamente superiores, validando a eficácia do mecanismo OSA na preservação da textura e forma do objeto.
Resultados Qualitativos:
- Substituição de Objetos: O modelo substitui objetos originais por novos mantendo a fidelidade da textura e a interação realista com as mãos.
- Inserção de Objetos: Consegue adicionar objetos que não existiam no vídeo original, criando interações naturais (ex: pegar um copo).
- Interação Ambiental: Permite definir interações com objetos existentes na cena que não estavam sendo manipulados.
- Vídeos Longos: O modelo demonstra capacidade de gerar vídeos longos sem acúmulo notável de erros.

5. Significado e Impacto

O trabalho DISPLAY representa um avanço significativo na geração de vídeo controlável. Ao reduzir a complexidade da entrada do usuário (de malhas 3D complexas para apenas coordenadas de punho e caixas delimitadoras), o método democratiza o controle sobre interações complexas humano-objeto.

Aplicações Práticas: O framework é altamente relevante para cenários de e-commerce (demonstração de produtos), entretenimento (efeitos visuais e animação), mídia e educação.
Flexibilidade: A capacidade de realizar substituição, inserção e interação ambiental com um único modelo unificado oferece um paradigma mais flexível e intuitivo do que as abordagens anteriores baseadas em template ou vídeos de direção.
Superação de Limitações: Resolve o problema de desbalanceamento de representação entre mãos e objetos, que era uma barreira fundamental para a geração física consistente em modelos anteriores.

Em resumo, o DISPLAY estabelece um novo padrão para a geração de vídeos de interação humano-objeto, combinando controle intuitivo do usuário com mecanismos de aprendizado robustos para lidar com a escassez de dados e a complexidade física das interações.