Harvest Video Foundation Models via Efficient Post-Pretraining

Este artigo apresenta um método eficiente e simples para criar modelos fundamentais de vídeo a partir de modelos de imagem, utilizando o descarte aleatório de patches e o mascaramento de texto durante o pós-pré-treinamento para alcançar desempenho de ponta em diversas tarefas de vídeo-idioma com baixo custo computacional e dados limitados.

Yizhuo Li, Kunchang Li, Yinan He, Yi Wang, Yali Wang, Limin Wang, Yu Qiao, Ping Luo

Publicado 2026-03-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a entender filmes inteiros, não apenas fotos. Normalmente, isso seria como tentar aprender a tocar uma sinfonia inteira apenas ouvindo cada nota individualmente, repetidamente, por anos. É caro, demorado e exige muita energia.

Este artigo apresenta uma ideia genial e simples: "Por que reinventar a roda se podemos apenas adaptá-la?"

Os autores propõem um método chamado "Colheita de Modelos de Vídeo" (Harvest Video Foundation Models). A ideia central é pegar um "gênio" que já aprendeu a entender fotos e texto (chamado de CLIP) e dar a ele um "curso intensivo" rápido para que ele também entenda vídeos.

Aqui está como funciona, usando analogias do dia a dia:

1. O Problema: Vídeos são "Gordos" e Caros

Vídeos são como um sanduíche gigante com muitas camadas repetidas. Se você tem um vídeo de 10 segundos, ele tem 240 quadros (imagens). Mas, muitas vezes, o quadro 100 é quase idêntico ao quadro 101.

  • O custo: Treinar um modelo do zero com todos esses quadros é como tentar ler um livro inteiro letra por letra, sem pular nenhuma página. Custa muito dinheiro e tempo de computador.
  • O dado: Também faltam livros de qualidade (datasets de vídeo-texto) comparados aos de fotos.

2. A Solução: O "Curso Intensivo" (Pós-Pré-treinamento)

Em vez de começar do zero, eles pegam o modelo que já sabe tudo sobre fotos (o CLIP) e fazem um ajuste fino. Eles usam duas técnicas principais, que são como truques de mágica:

Truque A: "Pular Quadros" (Patch Dropping)

Imagine que você está assistindo a um filme de ação. Em vez de assistir a cada segundo, você decide assistir apenas a cada 10 segundos.

  • O que fazem: Eles jogam fora (ignoram) 90% dos quadros do vídeo durante o treino.
  • Por que funciona: Como os quadros consecutivos são muito parecidos, o robô ainda entende a história, mas o computador gasta 90% menos energia. É como ler apenas os capítulos principais de um livro para entender o enredo, em vez de ler cada palavra. Isso torna o treino extremamente rápido (menos de um dia!).

Truque B: "Esconder Palavras" (Text Masking)

Agora, imagine que você está descrevendo uma cena para um amigo, mas você esconde algumas palavras-chave e ele tem que adivinhar o que faltou.

  • O que fazem: Eles cobrem algumas palavras do texto que descreve o vídeo e forçam o modelo a usar o que ele "vê" no vídeo para adivinhar as palavras faltantes.
  • Por que funciona: Isso força o robô a conectar o que ele vê (vídeo) com o que ele lê (texto) de forma muito profunda. Não é apenas "isso parece um gato"; é "o gato está comendo bambu". Isso cria uma fusão poderosa entre visão e linguagem.

3. O Resultado: Um "Super-Modelo" Barato

O resultado é impressionante:

  • Velocidade: Enquanto outros modelos levam semanas e centenas de computadores potentes para treinar, este método faz tudo em menos de 24 horas com apenas 8 computadores.
  • Qualidade: Mesmo sendo simples e rápido, o modelo compete de igual para igual com os "gigantes" que foram treinados por meses com dados massivos.
  • Versatilidade: Ele funciona bem em várias tarefas:
    • Zero-shot: Você pergunta "O que está acontecendo neste vídeo?" e ele responde, mesmo nunca tendo visto aquele vídeo específico antes.
    • Perguntas e Respostas: Ele entende detalhes como "De que cor é a camisa do homem que cai?".
    • Busca: Você digita "cachorro correndo na praia" e ele encontra o vídeo exato.

4. A Lição Principal

A descoberta mais interessante é que vídeos podem ser aprendidos quase tão bem quanto fotos, desde que você use um modelo de fotos já inteligente e dê a ele um pequeno "empurrão" (pós-treinamento).

Isso sugere que, talvez, os dados de vídeo que temos hoje não sejam tão ricos em informações temporais quanto imaginávamos, e que o "cérebro" de linguagem (o texto) é tão importante quanto a visão.

Resumo em uma frase

Os autores criaram um método "faça você mesmo" e super-rápido para transformar um especialista em fotos em um especialista em vídeos, economizando tempo, dinheiro e energia, sem perder qualidade. É como pegar um carro de corrida de Fórmula 1 e, em vez de construir um novo, apenas trocar os pneus e o motor para que ele corra na lama (vídeo) com a mesma eficiência.