UniVBench: Towards Unified Evaluation for Video Foundation Models

O artigo apresenta o UniVBench, um novo benchmark unificado e uma avaliação agêntica (UniV-Eval) projetados para superar as limitações dos métodos atuais ao avaliar de forma integrada e rigorosa as capacidades de compreensão, geração, edição e reconstrução de vídeo em modelos de fundação de vídeo, utilizando um conjunto de dados diversificado e complexo criado por humanos.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Fundação de Vídeo são como "chefes de cozinha" do futuro. Eles prometem fazer de tudo: entender o que está acontecendo em um filme, criar novos filmes do zero, editar cenas existentes e até recriar um filme que já viram, como se fosse um "desenho de memória".

O problema é que, até agora, não tínhamos uma maneira justa de testar se esses chefs realmente sabem fazer tudo isso de uma vez só. As provas antigas eram como testar um chef apenas em "fazer bolo" ou apenas em "cortar legumes", mas nunca ver se ele consegue fazer um banquete completo.

Aqui está o que o paper UniVBench propõe, explicado de forma simples:

1. O Problema: Provas Desconexas

Antes, existiam muitos testes separados:

  • Um teste para ver se a IA entende o vídeo (como um professor de cinema).
  • Outro para ver se a IA cria vídeos (como um diretor de cinema).
  • Outro para edição.

O problema é que esses testes usavam vídeos curtos, simples ou até vídeos da internet que podiam ter direitos autorais (o que é perigoso). Além disso, cada teste usava uma régua de medição diferente. Era como tentar comparar a velocidade de um carro, a força de um cavalo e a inteligência de um cachorro usando apenas uma régua de madeira. Não fazia sentido!

2. A Solução: O "Exame Final" Unificado (UniVBench)

Os autores criaram o UniVBench, que é como um Olimpíada Completa para IAs de Vídeo.

  • A Arena (O Dataset): Eles criaram 200 vídeos novos, feitos por humanos profissionais (como cineastas de verdade), sem problemas de direitos autorais.
    • Analogia: Em vez de usar clipes de TV antigos, eles construíram um estúdio de cinema do zero, com atores, cenários e roteiros complexos.
  • Os 4 Desafios Principais: O modelo precisa passar em quatro provas ao mesmo tempo:
    1. Entender: Descrever o que está no vídeo.
    2. Criar: Fazer um vídeo novo a partir de um texto.
    3. Editar: Mudar algo no vídeo (ex: "troque a roupa do personagem").
    4. Reconstruir (A novidade!): O modelo vê um vídeo, descreve-o com palavras e depois tenta recriar o vídeo original apenas usando essa descrição.
    • Analogia: É como se você mostrasse um quadro para um pintor, ele descrevesse o quadro com palavras, e depois tentasse pintar uma cópia perfeita apenas lendo a descrição dele. Se a cópia ficar ruim, significa que ele não entendeu bem o original ou não sabe pintar bem.

3. O Juiz Inteligente (UniV-Eval)

Como avaliamos se o vídeo ficou bom? Antigamente, usavam números simples (como uma nota de 0 a 10). Mas um vídeo pode ser ótimo em cores e ruim em movimento.

O UniVBench usa um Sistema de Avaliação Agente (o "Juiz Robô"):

  • Ele não dá apenas uma nota. Ele analisa o vídeo quadro a quadro (shot-level).
  • Ele verifica 8 dimensões de cinema: Estilo, Personagem, Ação, Cenário, Câmera, Iluminação, Cor e Posição Espacial.
  • Analogia: Em vez de um professor dar um "7" na redação, é como ter um crítico de cinema que aponta exatamente: "A iluminação está errada no segundo 3, o personagem sumiu no segundo 5, mas a cor está perfeita". Isso ajuda os criadores da IA a saberem exatamente onde melhorar.

4. O Que Descobriram?

Ao testar várias IAs famosas, eles descobriram que:

  • Especialistas vs. Generalistas: As IAs que são boas em apenas criar vídeos são péssimas em entendê-los, e vice-versa.
  • A Lacuna da Unificação: Nenhuma IA atual consegue fazer tudo bem ao mesmo tempo. Elas ainda têm "pontos cegos". Por exemplo, muitas conseguem criar cores lindas, mas falham miseravelmente em fazer os personagens se moverem de forma lógica (como uma pessoa andando sem tropeçar).
  • O Teste de Reconstrução: Foi o mais difícil. Quando a IA tenta recriar um vídeo baseada apenas na sua própria descrição, a qualidade cai muito. Isso mostra que elas ainda não "entendem" o vídeo de verdade, apenas estão chutando o que fazer.

Resumo em uma Frase

O UniVBench é o primeiro "teste de direção" completo para IAs de vídeo, usando um cenário de cinema real e um juiz detalhista para descobrir que, embora essas IAs sejam talentosas em fazer uma coisa de cada vez, elas ainda estão longe de serem os "diretores de cinema" completos e inteligentes que prometem ser.

Por que isso importa? Porque para termos assistentes de IA que realmente entendam e criem vídeos para nós no futuro, precisamos de um teste que meça tudo isso junto, e não apenas pedaços soltos.