Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

O artigo apresenta o Kiwi-Edit, uma nova arquitetura unificada e um pipeline escalável de geração de dados que, ao criar o conjunto de dados RefVIE, supera as limitações atuais na edição de vídeo baseada em instruções, permitindo um controle visual preciso e fiel através da combinação de instruções textuais e referências visuais.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um vídeo de férias e quer mudar a roupa da pessoa, trocar o fundo por uma praia tropical ou até substituir um cachorro por um robô. Antigamente, fazer isso exigia horas de trabalho manual em softwares complexos. Depois, surgiram as IAs que entendem comandos de texto, como "troque a camisa por uma vermelha". Mas, muitas vezes, a IA não entendia exatamente qual tom de vermelho ou qual estilo de camisa você queria.

É aqui que entra o Kiwi-Edit, um novo projeto de pesquisa que funciona como um "super-ajudante" para edição de vídeo. Vamos explicar como ele funciona usando algumas analogias simples:

1. O Problema: A Limitação do Texto

Pense em tentar descrever um vestido específico para um pintor apenas usando palavras. Você diz "um vestido azul com detalhes dourados". O pintor pode pintar um azul que você não gostou, ou os detalhes dourados podem ficar estranhos. O texto é bom, mas não é perfeito para descrever detalhes visuais complexos.

Muitas IAs de vídeo atuais só "ouvem" o texto. Elas tentam adivinhar o que você quer, mas muitas vezes erram o detalhe.

2. A Solução: O Poder da "Foto de Referência"

O Kiwi-Edit muda a regra do jogo. Em vez de apenas descrever o que você quer, você pode mostrar o que quer.

  • Analogia: É como se você fosse a um alfaiate e, em vez de apenas dizer "quero um terno azul", você mostrasse uma foto do terno exato que deseja. O alfaiate (a IA) olha para a foto e sabe exatamente o tecido, o corte e o tom.

No Kiwi-Edit, você dá dois comandos:

  1. O Texto: "Troque o fundo por uma floresta."
  2. A Foto de Referência: Uma imagem da floresta específica que você quer.

3. O Grande Desafio: Falta de "Alunos"

Para ensinar uma IA a fazer isso, você precisa de milhares de exemplos de "antes e depois" onde alguém já fez a troca usando uma foto de referência. O problema é que esses exemplos eram raros e caros de criar (como ter apenas 10 alunos em uma escola gigante).

4. A Invenção: A "Fábrica de Exemplos" (RefVIE)

A equipe criou um sistema inteligente chamado RefVIE.

  • Como funciona: Eles pegaram milhões de vídeos antigos (onde a IA já fazia edições apenas com texto) e usaram outra IA poderosa para "inventar" as fotos de referência que faltavam.
  • A Analogia: Imagine que você tem um livro de receitas (os vídeos antigos). O sistema pega uma receita de "bolo de chocolate" e, usando um chef robô, cria uma foto linda e perfeita de como esse bolo deveria parecer, transformando a receita simples em um "kit completo de ensino" com foto e texto.
  • Resultado: Eles criaram um banco de dados gigante com quase meio milhão de exemplos perfeitos para treinar a IA.

5. O Cérebro do Sistema: Kiwi-Edit

Com esses dados, eles treinaram o modelo Kiwi-Edit.

  • O Arquiteto (MLLM): É como um tradutor que entende o que você diz (texto) e o que você mostra (foto). Ele pega essas duas informações e as mistura.
  • O Artista (DiT): É o motor que realmente cria o vídeo. Ele recebe as instruções misturadas do tradutor e começa a desenhar quadro a quadro.
  • O Truque Especial: O Kiwi-Edit tem um mecanismo inteligente para não estragar o vídeo original. Ele mantém a estrutura do vídeo (os movimentos das pessoas, a câmera) intacta, mas "pinta" por cima as novas texturas e objetos baseados na foto de referência. É como trocar a roupa de um ator em um filme sem precisar filmar a cena de novo.

6. Por que isso é incrível?

  • Precisão: Se você quer uma "gorra preta clássica", a IA não vai inventar uma gorra verde ou moderna. Ela olha para a foto de referência e copia exatamente aquele estilo.
  • Versatilidade: Funciona para mudar roupas, adicionar objetos, trocar fundos ou até remover pessoas.
  • Acesso: Eles liberaram tudo (dados, código e modelo) para que qualquer pessoa possa usar e melhorar, não apenas grandes empresas.

Resumo da Ópera:
O Kiwi-Edit é como dar à IA um "olho clínico" e um "álbum de recortes". Em vez de apenas ouvir o que você pede, ela olha para o que você mostra e consegue editar vídeos com uma precisão que parecia impossível antes, transformando ideias vagas em resultados visuais perfeitos. É um grande passo para que qualquer pessoa possa editar vídeos como um profissional, apenas com um clique e uma foto de referência.