Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

O artigo apresenta o Tele-Omni, um framework unificado multimodal que integra modelos de linguagem e geradores baseados em difusão para realizar geração e edição de vídeo sob instruções diversas (texto, imagens e vídeos de referência) em um único modelo, superando as limitações de abordagens específicas de tarefa.

Jialun Liu, Tian Li, Xiao Cao, Yukuo Ma, Gonghu Shang, Haibin Huang, Chi Zhang, Xiangzhen Chang, Zhiyong Huang, Jiakui Hu, Zuoxin Li, Yuanzhi Liang, Cong Liu, Junqi Liu, Robby T. Tan, Haitong Tang, Qizhen Weng, Yifan Xu, Liying Yang, Xiaoyan Yang, Peng Yu, Shiwen Zhang, Xuelong Li

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um diretor de cinema mágico chamado Tele-Omni. Antes dele, para fazer um filme, você precisava contratar um diretor diferente para cada tipo de cena: um só para criar histórias do zero, outro só para mudar a roupa de um ator, e um terceiro só para apagar um objeto da tela. Cada um tinha suas próprias regras e não conversava com os outros.

O Tele-Omni é como se você tivesse contratado um único diretor superinteligente que sabe fazer tudo isso de uma só vez, entendendo qualquer tipo de pedido que você fizer.

Aqui está como ele funciona, explicado de forma simples:

1. O Cérebro e o Mãos (Como ele funciona)

Pense no Tele-Omni como uma equipe de dois:

  • O "Cérebro" (O MLLM): É um super-inteligente que entende o que você diz. Se você mandar um texto, uma foto ou até um vídeo de exemplo, ele entende a sua intenção. Ele não desenha o filme; ele apenas escreve o "roteiro" detalhado para o próximo passo.
  • As "Mãos" (O Gerador de Vídeo): É o artista que realmente cria as imagens. Ele recebe o roteiro do Cérebro e começa a pintar quadro a quadro, garantindo que o movimento seja suave e natural.

A mágica: Eles trabalham juntos. O Cérebro diz: "Mude o chapéu do homem para um de palha", e as Mãos fazem isso sem bagunçar o resto do vídeo.

2. O Que ele consegue fazer? (A Caixa de Ferramentas)

O Tele-Omni é como uma "faca suíça" para vídeos. Você pode pedir coisas muito diferentes e ele entende todas:

  • Criar do Nada (Texto para Vídeo): Você diz: "Um dragão voando sobre uma cidade cyberpunk", e ele cria o vídeo.
  • Dar Vida a Fotos (Imagem para Vídeo): Você mostra uma foto de um gato dormindo e diz: "Faça ele acordar e espreguiçar". O vídeo nasce da foto.
  • Preencher o Meio (Primeiro e Último Quadro): Você mostra uma foto de alguém sentado e outra de alguém pulando. O Tele-Omni cria todo o vídeo do meio, mostrando a pessoa se levantando e pulando, como se fosse um filme de animação.
  • Editar com Precisão (Edição de Contexto): Você pode pedir para trocar a cor do carro, apagar um poste de luz ou colocar um chapéu novo em uma pessoa, e ele faz isso mantendo a consistência do resto da cena.
  • Copiar o Estilo: Você pode mostrar um vídeo normal e dizer: "Faça parecer um desenho animado" ou "Faça parecer um filme de terror", e ele muda o estilo visual de todo o vídeo.

3. O Segredo: A "Receita" Unificada

O grande problema dos sistemas antigos era que eles eram como cozinheiros que só sabiam fazer um prato. Se você pedisse um bolo, eles faziam; se pedisse uma sopa, eles travavam.

Os criadores do Tele-Omni tiveram a ideia brilhante de criar uma "Receita Universal". Eles ensinaram o modelo a entender que, seja para criar um vídeo novo ou editar um antigo, o processo é o mesmo:

  1. Leia o pedido (seja texto ou imagem).
  2. Entenda o que precisa mudar.
  3. Execute a tarefa.

Isso significa que você não precisa mais de softwares diferentes para criar e editar. Tudo acontece no mesmo lugar, com a mesma inteligência.

4. Por que isso é importante?

Antes, se você quisesse fazer um vídeo complexo, precisava de várias ferramentas e muito trabalho manual. Com o Tele-Omni, é como se você tivesse um assistente pessoal de cinema que entende sua linguagem natural.

  • É flexível: Você pode misturar pedidos (texto + foto + vídeo de exemplo).
  • É consistente: O vídeo não fica tremido ou estranho; os personagens e cenários mantêm a mesma aparência do início ao fim.
  • É fácil: Você não precisa ser um especialista em computação gráfica; basta falar o que você quer ver.

Resumo da Ópera:
O Tele-Omni é o primeiro "super-homem" dos vídeos. Ele unifica a criação e a edição em um único sistema inteligente, permitindo que qualquer pessoa, com apenas um comando, transforme ideias, fotos ou vídeos antigos em novas obras cinematográficas, tudo com uma qualidade e fluidez impressionantes. É como dar a todos nós o poder de um estúdio de Hollywood na palma da mão.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →