InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer criar um filme animado onde várias pessoas diferentes conversam entre si, e cada uma delas tem sua própria voz, seu próprio rosto e suas próprias roupas, tudo isso gerado por uma inteligência artificial.

Até agora, fazer isso era como tentar organizar uma festa onde todos os convidados têm que usar a mesma máscara e falar a mesma coisa ao mesmo tempo. As tecnologias antigas conseguiam animar uma pessoa perfeitamente, mas quando você tentava colocar duas ou três, a IA ficava confusa: "Quem está falando? De quem é essa boca se movendo? A voz do João está saindo da boca da Maria?"

O paper InterActHuman (apresentado na conferência ICLR 2026) resolve esse problema com uma ideia genial. Vamos explicar como funciona usando uma analogia simples:

O Problema: A "Festa Confusa"

Antes, se você mandava para a IA: "Quero o João e a Maria conversando", a IA tentava misturar tudo. Era como se ela jogasse a voz do João e a voz da Maria em uma única panela gigante. O resultado era um caos: as bocas se moviam erradas, as vozes se misturavam ou a IA simplesmente ignorava quem era quem.

A Solução: O "Diretor de Cena com Óculos Mágicos"

O InterActHuman age como um diretor de cinema muito organizado que usa óculos mágicos. Em vez de tratar o vídeo como uma bagunça global, ele divide a tela em pequenos quadrados invisíveis (máscaras) para cada pessoa.

Aqui está como o processo funciona, passo a passo:

1. O Mapa do Tesouro (Previsão de Máscaras)

Imagine que você tem fotos de referência do João e da Maria. O sistema primeiro olha para o vídeo que está sendo criado e pergunta: "Onde o João está neste momento? E onde a Maria está?"

Ele cria um "mapa" (uma máscara) para cada pessoa.
O Pulo do Gato: Como o vídeo ainda não foi feito, ninguém sabe onde eles estarão. Então, o sistema usa um truque de "adivinhação iterativa". Ele faz uma previsão grosseira, usa essa previsão para começar a desenhar, e depois refina a previsão. É como esculpir uma estátua: você começa com um bloco de pedra bruto e vai removendo o excesso até que a forma apareça.

2. A Regra de Ouro: "Voz só para quem está falando"

Aqui está a mágica principal. Assim que o sistema sabe onde o João está (graças ao mapa/máscara), ele pega a voz do João e a joga apenas dentro da área do mapa do João.

A voz da Maria vai para o mapa da Maria.
Se o João está ouvindo, a voz dele fica "muda" (silenciosa) naquele pedaço do vídeo, enquanto a voz da Maria toca.
Isso evita que a voz de um personagem "vaze" para o outro. É como se cada pessoa tivesse seu próprio microfone direcional que só funciona quando ela está no centro do palco.

3. O Treinamento: A Biblioteca de 2,6 Milhões de Vídeos

Para aprender a fazer isso, os pesquisadores não usaram apenas alguns vídeos. Eles criaram um "super pipeline" (uma linha de montagem automática) que varreu a internet e organizou mais de 2,6 milhões de vídeos.

Eles usaram robôs inteligentes para identificar quem estava falando, cortar o áudio certo para cada pessoa e criar as "máscaras" de quem é quem.
Foi como ensinar o sistema a ver milhares de conversas reais para entender que "João fala com a boca do João" e "Maria fala com a boca da Maria".

Por que isso é importante?

Antes, se você quisesse um vídeo de um grupo de amigos conversando, teria que animar cada um separadamente e depois tentar juntar tudo, o que ficava artificial e estranho.

Com o InterActHuman:

Você pode subir fotos de 3 pessoas diferentes.
Você pode subir 3 áudios diferentes (ou um áudio de uma conversa).
A IA gera um vídeo onde elas interagem naturalmente, cada uma com sua própria voz e expressão facial, sincronizadas perfeitamente.

Resumo em uma frase

O InterActHuman é como um maestro que, em vez de fazer a orquestra inteira tocar a mesma nota, entrega a partitura certa para cada músico no momento exato, garantindo que o João toque seu violino e a Maria cante sua parte, sem que ninguém se misture.

Isso abre portas para criar filmes, animações e até vídeos educativos onde múltiplos personagens interagem de forma realista, algo que era quase impossível de fazer com qualidade antes.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: InterActHuman

1. Problema e Motivação

O campo de animação humana baseada em difusão (usando modelos como DiT - Diffusion Transformers) avançou significativamente na geração de vídeos de alta qualidade a partir de condições multimodais (texto, imagem e áudio). No entanto, a maioria dos métodos existentes opera sob uma hipótese de identidade única: todas as condições são injetadas globalmente no vídeo, assumindo que descrevem um único sujeito.

Isso cria limitações críticas em cenários complexos:

Interações Múltiplas: Dificuldade em gerar vídeos com duas ou mais pessoas interagindo, onde cada indivíduo possui sua própria aparência e voz.
Inconsistência de Áudio: Em métodos globais, o áudio de um falante pode ser erroneamente associado a todos os personagens ou ao fundo, resultando em sincronia labial incorreta (lip-sync) e interações não naturais.
Falta de Controle Local: Métodos de personalização de vídeo multi-conceito existentes (como Video-Alchemist ou ConceptMaster) focam em injetar referências visuais, mas falham ao lidar com condições locais específicas, como áudio direcionado a um indivíduo específico dentro de uma cena.

O objetivo do InterActHuman é superar essas limitações permitindo a animação humana end-to-end com múltiplos conceitos, onde cada entidade (pessoas ou objetos) é controlada por suas próprias condições de aparência e áudio, alinhadas espacialmente.

2. Metodologia

O InterActHuman é um framework de difusão de vídeo que introduz um mecanismo de injeção de condições locais alinhadas ao layout. A arquitetura baseia-se em modelos de difusão Transformer pré-treinados (DiT) e utiliza uma abordagem iterativa para resolver o dilema de "ovo e galinha" (precisar de máscaras para injetar áudio, mas precisar do vídeo gerado para prever máscaras).

Componentes Principais:

Preditor de Máscaras (Mask Predictor):
- Um módulo leve (cabeça de predição) é acoplado às camadas do DiT.
- Ele prevê, passo a passo, máscaras espaciotemporais que indicam onde cada imagem de referência deve aparecer no vídeo gerado.
- O preditor utiliza atenção cruzada entre as características do vídeo ruidoso e as características das imagens de referência.
- Durante o treinamento, é supervisionado por máscaras reais (ground-truth) extraídas de dados.
Injeção de Áudio Local Iterativa:
- Estratégia de Cache: Durante a inferência, como o vídeo final não existe, o modelo usa uma estratégia iterativa. A máscara prevista no passo de desruído $k$ é armazenada (cache) e usada para guiar a injeção de áudio no passo $k+1$ .
- Atenção Cruzada com Máscara: O áudio de cada falante é injetado apenas nos tokens de latência do vídeo que correspondem à região da máscara daquele falante. Áudio "mudo" (ou neutro) é injetado nas regiões de fundo ou de outros personagens.
- Isso garante que o áudio de um falante afete apenas os lábios e expressões desse indivíduo específico.
Pipeline de Dados:
- Os autores criaram um pipeline escalável para curar um dataset de mais de 2,6 milhões de pares vídeo-entidade.
- O pipeline utiliza modelos de visão-linguagem (Qwen2-VL, Gemini) para legendagem densa e Grounding-SAM2 para extrair máscaras temporais consistentes e imagens de referência de pessoas e objetos.

3. Contribuições Chave

Novo Framework de Animação Multi-Concepto: O primeiro método a suportar a geração de vídeos de interação humana (2-3 pessoas) e humano-objeto, condicionado a múltiplas imagens de referência e entradas de áudio por identidade.
Injeção de Condição Local Explícita: Introduz um design simples, mas eficaz, que quebra a dependência de injeção global. O modelo aprende a localizar automaticamente o layout de cada conceito e injeta áudio localmente, resolvendo o problema de atribuição de voz errada.
Resolução do Dilema de Inferência: Propõe uma estratégia de predição de máscara iterativa que permite o alinhamento espacial preciso sem a necessidade de máscaras fornecidas pelo usuário durante a geração.
Dataset de Grande Escala: A criação de um corpus massivo de dados de animação humana centrada em múltiplos conceitos, essencial para treinar modelos que entendam interações complexas.

4. Resultados Experimentais

Os autores compararam o InterActHuman com o estado da arte (SOTA), incluindo modelos comerciais (Kling 1.6, Vidu 2.0, Pika) e modelos de pesquisa (OmniHuman, CyberHost, Phantom).

Sincronização Labial (Lip-Sync): Em testes de animação multi-pessoal, o InterActHuman superou significativamente os baselines. Enquanto métodos globais falhavam em atribuir o áudio ao falante correto (gerando sincronia labial em todos ou em ninguém), o InterActHuman alcançou métricas de Sync-D (distância de sincronia) muito superiores (6.670 vs >8.4 em concorrentes).
Qualidade Visual e Fidelidade: O modelo manteve alta fidelidade de identidade (CLIP-I, DINO-I) e qualidade estética (AES, IQA), superando métodos de personalização multi-conceito que não suportam áudio.
Estudo de Usuário: Em uma avaliação humana, o método obteve a maior taxa de preferência (Top-1) tanto para sincronização labial quanto para consistência de múltiplos conceitos.
Ablação: Estudos mostraram que a injeção de áudio global ou o uso de máscaras fixas resultam em falhas graves de alinhamento ou artefatos de movimento, validando a necessidade da predição dinâmica de máscaras.

5. Significado e Impacto

O InterActHuman representa um avanço fundamental na geração de vídeo centrada em humanos. Ao permitir o controle preciso de múltiplas identidades e suas respectivas vozes dentro de uma única cena, ele abre caminho para:

Criação de diálogos realistas entre personagens gerados por IA.
Personalização de vídeos publicitários com múltiplos produtos e apresentadores.
Geração de conteúdo de entretenimento (como animações estilo anime) com interações complexas.

O trabalho estabelece uma nova linha de base (baseline) para a comunidade, demonstrando que a alinhamento espacial explícito é crucial para a evolução de modelos de difusão de vídeo multimodais, indo além da simples fusão global de condições.

Disponibilidade: Demos de vídeo e código reimplementado estão disponíveis no repositório do projeto (link fornecido no resumo original).

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

O Problema: A "Festa Confusa"

A Solução: O "Diretor de Cena com Óculos Mágicos"

1. O Mapa do Tesouro (Previsão de Máscaras)

2. A Regra de Ouro: "Voz só para quem está falando"

3. O Treinamento: A Biblioteca de 2,6 Milhões de Vídeos

Por que isso é importante?

Resumo em uma frase

Resumo Técnico: InterActHuman

1. Problema e Motivação

2. Metodologia

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses