MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

O artigo apresenta o MAViD, um novo framework multimodal que utiliza uma arquitetura Conductor-Creator combinando modelos autoregressivos e de difusão para superar as limitações de sistemas existentes e gerar diálogos interativos de longa duração com áudio e vídeo sincronizados, coerentes e de alta qualidade.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer criar um filme onde um personagem digital não apenas fala, mas também gesticula, ri, chora e interage com o ambiente de forma totalmente natural, como se fosse uma pessoa real. Até hoje, fazer isso era como tentar montar um quebra-cabeça com peças de tamanhos diferentes: o áudio saía de um lugar, o vídeo de outro, e eles nunca se encaixavam perfeitamente.

O MAViD é a nova solução apresentada neste artigo que resolve esse problema. Pense nele como um diretor de cinema inteligente que consegue entender o que você diz (ou mostra) e criar uma resposta completa em vídeo e áudio, tudo de uma só vez.

Aqui está como ele funciona, usando analogias simples:

1. A Arquitetura: O Maestro e o Artista

O segredo do MAViD é dividir o trabalho em duas partes principais, como se fosse uma orquestra:

  • O Maestro (Conductor):
    Imagine um maestro de orquestra que não toca nenhum instrumento, mas sabe exatamente o que cada músico deve fazer. O Maestro do MAViD é o "cérebro" que entende o que você pediu. Se você mandar um áudio, uma foto ou um texto, ele analisa tudo e cria um roteiro detalhado.

    • O que ele faz de novo? Ele não diz apenas "fale isso". Ele separa o roteiro em duas instruções:
      1. O que falar: O conteúdo da voz (tom, emoção, palavras).
      2. O que fazer: Os movimentos do corpo (acenar a cabeça, sorrir, gesticular).
        Isso garante que, quando o personagem diz "sim", ele realmente balance a cabeça, não apenas mova a boca.
  • O Artista (Creator):
    Se o Maestro é o cérebro, o Artista é as mãos e a voz. Ele pega o roteiro do Maestro e transforma em realidade.

    • O desafio: Criar vídeos longos (como 30 segundos) é difícil. Métodos antigos faziam vídeos de 5 segundos e tentavam colar um no outro, o que causava erros (o personagem mudava de rosto ou a voz ficava estranha).
    • A solução do Artista: Ele usa uma técnica híbrida. Pense nele como um marceneiro que usa tanto uma régua precisa (para sequências longas) quanto um pincel artístico (para a qualidade da imagem). Ele gera o áudio e o vídeo juntos, garantindo que a voz e o rosto do personagem sejam consistentes do início ao fim, sem "pulos" ou mudanças bruscas.

2. O Problema do "Vídeo Longo"

Imagine que você está assistindo a um filme e, a cada 5 segundos, a tela pisca e o ator muda ligeiramente de roupa ou de voz. Isso é o que acontecia com as tecnologias antigas (chamadas de "DiT duplo"). Elas geravam um clipe, paravam, geravam o próximo e tentavam juntar.

O MAViD usa um fio contínuo. Ele gera os 30 segundos de uma só vez. Para fazer isso funcionar, ele usa um Módulo de Fusão (uma espécie de "cola mágica").

  • A Analogia: Imagine que você está escrevendo um livro. Se você esquecer o que escreveu na página 1 enquanto escreve a página 10, a história fica confusa. O Módulo de Fusão do MAViD garante que o personagem lembre de quem ele é, como sua voz soa e como ele se moveu no segundo anterior, mantendo a história coerente do início ao fim.

3. O Resultado Prático

Com o MAViD, você pode:

  • Enviar uma foto de alguém e pedir: "Faça essa pessoa contar uma piada com uma risada alta".
  • O sistema entende a foto, gera a voz (com a risada certa) e cria o vídeo (com a pessoa rindo e gesticulando) sincronizado perfeitamente.
  • Tudo isso acontece em uma única "invenção" (processamento), gerando cerca de 30 segundos de vídeo de alta qualidade, algo que antes exigia várias etapas e resultava em vídeos curtos e robóticos.

Resumo em uma frase

O MAViD é como ter um diretor de cinema e um ator digital trabalhando em perfeita sintonia: o diretor entende sua ideia e divide em "fala" e "movimento", e o ator executa tudo de uma vez só, criando um vídeo longo, natural e sincronizado, sem parecer um robô travando.

É um grande passo para criar assistentes virtuais, personagens de jogos e avatares que realmente parecem e soam humanos.