VDCook:DIY video data cook your MLLMs

O artigo apresenta o VDCook, um sistema operacional de dados de vídeo autoevolutivo e configurável que permite a pesquisadores e equipes de domínio vertical gerar, atualizar e expandir continuamente conjuntos de dados especializados para MLLMs por meio de consultas em linguagem natural e síntese controlada.

Chengwei Wu

Publicado Mon, 09 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa ensinar um robô superinteligente a entender o mundo, mas o robô só aprende vendo vídeos. O problema é que os vídeos que já existem na internet são como uma biblioteca gigante e bagunçada: tem de tudo, mas muita coisa é inútil, repetitiva ou não serve para o que você quer ensinar (como vídeos de como consertar um motor de avião ou de como pintar no estilo de tinta chinesa).

Aqui entra o VDCook.

Pense no VDCook não como uma "biblioteca de vídeos" pronta, mas como uma cozinha inteligente e autossuficiente para dados. Em vez de você ter que ir ao supermercado, comprar 100 mil sacos de ingredientes, lavar, cortar e misturar tudo manualmente (o que é caro e demorado), o VDCook é um chef de cozinha robótico que você contrata.

Aqui está como funciona, passo a passo, com analogias simples:

1. O Pedido (Você é o Chef)

No passado, os cientistas tinham que baixar um "pacote de dados" fixo. Era como pedir uma pizza pronta: se você quisesse sem cebola, não podia mudar.
Com o VDCook, você faz um pedido em linguagem natural, como se estivesse falando com um garçom:

  • "Quero 10.000 vídeos de caminhões em obras, mas só os que mostram chuva, com boa qualidade de imagem e sem textos na tela."
  • Você pode ajustar o "tempero": quanto vídeo real usar versus quanto vídeo criar com inteligência artificial, o tamanho do arquivo, etc.

2. A Compra e a Preparação (O Sistema)

Assim que você dá o comando, o VDCook vai à ação:

  • O Garçom (MCP): Ele usa um protocolo inteligente para vasculhar a internet e encontrar os vídeos que você pediu.
  • O Chefe de Cozinha (Processamento): Em vez de jogar fora os vídeos que não são perfeitos imediatamente, ele etiqueta tudo. Ele anota: "Este vídeo tem muita chuva", "Aqui tem um caminhão", "Aqui tem pouco texto".
    • A mágica: Ele não descarta o ingrediente, ele apenas o coloca na prateleira certa. Isso significa que, se amanhã você mudar de ideia e quiser "vídeos com texto", você não precisa refazer tudo, basta pegar os que já foram etiquetados.

3. A Criação de Ingredientes (Sintetização)

E se você pedir algo que é muito raro na natureza? Como "um urso polar dançando tango"? Não existem vídeos assim na internet.
O VDCook tem um assistente de criação (IA generativa). Ele pega vídeos reais de urso polar e de dança, e usa a inteligência artificial para "cozinhar" um novo vídeo que mistura os dois. Ele cria dados que não existiam antes, preenchendo as lacunas onde a realidade é escassa.

4. O Prato Final (O Dataset)

No final, você não recebe apenas um monte de arquivos soltos. Você recebe:

  • O Prato Pronto: Um pacote de vídeos perfeito para o seu objetivo específico.
  • A Receita (Reprodutibilidade): Um livro de receitas (Notebook) que mostra exatamente como o prato foi feito, para que qualquer pessoa possa repetir o processo e obter o mesmo resultado.
  • Histórico (Proveniência): Você sabe exatamente de onde veio cada ingrediente (qual site, qual vídeo original).

Por que isso é revolucionário?

Antes, criar um conjunto de dados era como construir uma casa de tijolos: uma vez pronta, ela era estática. Se você quisesse mudar a cor da parede, tinha que demolir e começar de novo.

O VDCook transforma isso em um jardim vivo.

  • Ele cresce sozinho: novos vídeos são adicionados automaticamente.
  • Ele se adapta: se a comunidade descobre um novo tipo de vídeo útil, o sistema aprende a procurá-lo.
  • Ele é democrático: qualquer pesquisador, mesmo sem um supercomputador, pode "pedir" seu próprio conjunto de dados personalizado.

Resumo em uma frase

O VDCook é um sistema que transforma a construção de dados de vídeo de uma tarefa manual e estática em um serviço sob demanda, onde você pede o que quer, e a máquina "cozinha" um conjunto de dados personalizado, rico e sempre atualizado, pronto para treinar suas inteligências artificiais.