NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a contar histórias em vídeo. Até hoje, os robôs eram ótimos em fazer vídeos curtos e bonitos, como um clipe de 3 segundos de um gato pulando. Mas agora, eles estão tentando fazer filmes inteiros, cheios de enredo, personagens mudando de lugar e cenas que evoluem.

O problema? Como a gente sabe se o robô está contando a história direito?

Até agora, os "testes" que usávamos eram como pedir para o robô desenhar "uma maçã". Se a maçã ficasse bonita, ele passava. Mas isso não testa se ele consegue desenhar uma história complexa, como "uma maçã cai, vira um suco, e depois vira um sorvete".

É aí que entra o NarrLV, o novo "exame de redação" para vídeos longos, criado por pesquisadores da Alibaba e da Academia Chinesa de Ciências.

Aqui está como eles fizeram isso, explicado de forma simples:

1. O Conceito: "Átomos de História" (TNA)

Os pesquisadores olharam para o cinema e pensaram: "O que faz uma história ser rica?". Eles decidiram medir a história em Átomos Narrativos Temporais (TNA).

A Analogia: Pense em um vídeo como um colar de contas.
- Um vídeo simples (como os antigos testes) tem apenas 1 conta: "Um homem anda".
- Um vídeo rico tem 5 ou 6 contas: "O homem anda -> ele para -> ele olha para o céu -> ele sorri -> ele corre".
Cada mudança de ação, cada nova cena ou cada mudança de cor é um "átomo". O NarrLV cria prompts (pedidos) que exigem muitos desses átomos para ver se o robô consegue manter a história coesa.

2. O Laboratório de Criação de Histórias

Como criar milhares de histórias diferentes para testar? Fazer isso manualmente seria como tentar escrever um livro inteiro à mão para cada robô. Muito lento!

A Solução: Eles usaram uma Inteligência Artificial (um "chef de cozinha" de texto) para criar automaticamente milhares de receitas de vídeos.
Eles pegaram cenas do mundo real (uma praia, um escritório, um jogo de futebol) e pediram para a IA criar variações: "E se o tempo mudar de sol para chuva? E se o personagem pegar um objeto e depois largar?".
Isso gerou um banco de dados gigantesco com histórias de diferentes níveis de complexidade, desde "simples" até "épico".

3. O Juiz Robô (O Examinador)

Agora, como corrigir esses vídeos? Assistir a milhares de vídeos e dar nota é impossível para humanos.

A Analogia: Imagine um professor muito inteligente que não apenas olha o vídeo, mas faz perguntas específicas sobre ele.
O sistema do NarrLV usa um "olho digital" (uma IA multimodal) que assiste ao vídeo gerado pelo robô e responde a perguntas como:
1. Fidelidade: "O robô realmente mostrou a cena da praia que eu pedi?" (Ele não inventou uma floresta?).
2. Cobertura: "Ele mostrou todas as partes da história? (O homem andou, parou, olhou e sorriu? Ou ele só andou e sorriu?)"
3. Coerência: "As partes se conectam bem? A transição de 'andar' para 'parar' foi suave ou pareceu um corte de filme ruim?"

4. O Que Eles Descobriram?

Ao testar os melhores robôs de vídeo do mundo com esse novo exame, eles descobriram algumas coisas interessantes:

O "Efeito Memória Curta": Quanto mais complexa a história (mais "átomos" de ação), pior o robô se sai. Eles conseguem gerar a cena inicial perfeitamente, mas quando a história avança, eles começam a esquecer o que aconteceu antes ou misturar as ações. É como um ator que esquece o roteiro no meio do filme.
A Base Importa: Os robôs que fazem vídeos longos são construídos em cima de robôs que fazem vídeos curtos. Se a "base" (o vídeo curto) é fraca, o filme longo também será. Melhorar o vídeo curto é o primeiro passo para melhorar o longo.
Ação é Difícil: Os robôs são bons em mostrar objetos estáticos, mas têm muita dificuldade em mostrar uma sequência de ações diferentes (como pegar algo, usar e largar) sem que o vídeo fique estranho.

Resumo Final

O NarrLV é como um novo "Oscar" para a inteligência artificial. Em vez de apenas dar um prêmio pelo vídeo mais bonito, ele pergunta: "Você consegue contar uma história longa, com começo, meio e fim, sem esquecer os detalhes?"

Isso ajuda os cientistas a saberem exatamente onde estão os buracos na tecnologia de hoje e o que precisam consertar para que, no futuro, possamos pedir para uma IA: "Crie um filme de 5 minutos sobre um astronauta perdendo o foguete e tentando salvá-lo" e receber um filme que faça sentido do início ao fim.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O campo de geração de vídeo tem evoluído rapidamente, com modelos de base (foundation models) capazes de criar vídeos de alta fidelidade. No entanto, a geração de vídeos longos apresenta desafios distintos: o objetivo não é apenas estender a duração, mas expressar conteúdo narrativo rico e complexo ao longo do tempo.

Limitação Atual: A avaliação de modelos de geração de vídeo longos depende atualmente de benchmarks genéricos (como o VBench) que utilizam prompts com narrativas simples e poucas unidades de ação.
Defasagem: Não existem benchmarks específicos que avaliem a capacidade dos modelos de manter a coerência narrativa em vídeos longos com múltiplas mudanças de cena, objeto ou ação.
Necessidade: É necessário um sistema de avaliação que quantifique a "riqueza narrativa" e verifique se os modelos conseguem gerar sequências temporais complexas e coerentes, alinhando-se melhor com o julgamento humano.

2. Metodologia: O Benchmark NarrLV

Os autores propõem o NarrLV, o primeiro benchmark projetado para avaliar a capacidade de expressão narrativa de modelos de geração de vídeo longo. A metodologia é inspirada na teoria da narrativa cinematográfica e divide-se em três componentes principais:

A. Definição do Átomo Narrativo Temporal (TNA)

Para quantificar a riqueza narrativa, o paper define o Temporal Narrative Atom (TNA) como a menor unidade narrativa que mantém uma apresentação visual contínua.

Fatores de Mudança: Baseado nos princípios de 6D da narrativa cinematográfica, o TNA muda devido a três fatores principais:
1. Atributos da Cena (ex: mudar de dia para noite).
2. Atributos do Objeto (ex: mudar de cor).
3. Ações do Objeto (ex: caminhar, pular).
Métrica de Riqueza: O número de TNAs em um prompt serve como medida quantitativa da complexidade narrativa.

B. Suite de Prompts Extensível e Automatizada

Para superar a limitação de prompts manuais, os autores desenvolveram um pipeline automatizado baseado em LLMs (Large Language Models):

Coleta de Dados: Extração de pares "Cena-Objeto" de datasets reais (VideoUFO e DropletVideo).
Geração de Prompts: O pipeline usa um LLM para gerar prompts de teste que variam flexivelmente no número de TNAs (de 1 a 6 ou mais) e nos fatores de mudança (satt, tatt, tact).
Diversidade: A suite cobre 14 categorias principais de cenas (ex: esportes, residencial, natureza) e garante uma distribuição uniforme de complexidade narrativa, preenchendo a lacuna deixada por benchmarks anteriores que focavam apenas em 1-2 TNAs.

C. Métrica de Avaliação Progressiva (MLLM-based)

A avaliação não é baseada em métricas cegas (como FID), mas em um framework de Geração e Resposta de Perguntas baseado em MLLM (Multimodal Large Language Models). A métrica avalia três dimensões progressivas:

Fidelidade do Elemento Narrativo ( $R_{fid}$ ): Verifica se os elementos básicos (cena, objetos, atributos iniciais) presentes no prompt foram gerados corretamente.
Cobertura da Unidade Narrativa ( $R_{cov}$ ): Avalia se o vídeo gerado contém todas as unidades narrativas (TNAs) solicitadas no prompt.
Coerência da Unidade Narrativa ( $R_{coh}$ ): Avalia se as transições entre as unidades narrativas adjacentes ocorrem de forma lógica e temporalmente coerente.

Processo: Para cada vídeo gerado, o MLLM gera perguntas binárias específicas para cada dimensão e responde a elas analisando o vídeo. Para lidar com a incerteza do MLLM, cada pergunta é respondida 5 vezes e a proporção de respostas positivas é usada como pontuação final.

3. Contribuições Principais

Novo Benchmark (NarrLV): Primeira avaliação abrangente focada especificamente na expressão narrativa de vídeos longos, introduzindo a unidade TNA.
Pipeline de Geração de Prompts: Um sistema automatizado capaz de criar prompts com riqueza narrativa flexível e expansível, permitindo testar os limites dos modelos.
Métrica Alinhada ao Humano: Uma métrica baseada em MLLM que demonstra alta correlação com o julgamento humano, superando métricas tradicionais que falham em capturar a qualidade narrativa.
Avaliação Exaustiva: Análise detalhada de modelos de geração de vídeo longos e seus modelos de base (foundation models), revelando fronteiras de capacidade específicas.

4. Resultados Experimentais

Os autores avaliaram diversos modelos, incluindo fundações (Wan2.1, HunyuanVideo, CogVideoX) e extensões para vídeos longos (FreeNoise, FreeLong, RIFLEx, etc.).

Queda de Desempenho com Complexidade: À medida que o número de TNAs aumenta, a capacidade dos modelos de representar unidades narrativas ( $R_{cov}$ e $R_{coh}$ ) cai drasticamente, embora a fidelidade dos elementos básicos ( $R_{fid}$ ) permaneça estável. Isso indica que os modelos conseguem gerar objetos, mas falham em orquestrar sequências temporais complexas.
Limite de TNAs: Os modelos atuais conseguem expressar efetivamente apenas um número muito limitado de unidades narrativas (recomenda-se não exceder 2 TNAs por prompt para resultados confiáveis).
Dependência do Modelo de Base: A capacidade narrativa de modelos de vídeo longo derivados de uma base específica (ex: modelos baseados no VideoCraft) é fortemente limitada pelo desempenho do modelo de base. Melhorias nos módulos de extensão trazem ganhos marginais comparados ao modelo de base.
Fatores de Mudança: Os modelos têm melhor desempenho na fidelidade de ações iniciais, mas lutam para gerar variações diversas de ações ao longo do tempo (fator de mudança de ação).
Alinhamento Humano: A métrica proposta apresentou alta consistência com anotações humanas (até 0.81 de precisão em casos de consenso total), superando benchmarks existentes como VBench e StoryEval.

5. Significado e Impacto

O NarrLV estabelece um novo padrão para a avaliação de geração de vídeo, deslocando o foco de métricas puramente visuais ou de consistência estática para a coerência narrativa temporal.

Para a Pesquisa: Oferece uma ferramenta diagnóstica clara para identificar as limitações atuais dos modelos de IA na criação de histórias visuais complexas.
Para o Desenvolvimento: Orienta o futuro design de modelos, sugerindo que a melhoria na geração de vídeos longos depende menos de apenas estender o tempo e mais de melhorar a compreensão e execução de estruturas narrativas progressivas.
Aplicabilidade: A metodologia é extensível e pode ser aplicada a futuros modelos de geração de vídeo, facilitando o desenvolvimento de ferramentas de criação de conteúdo cinematográfico e simulação de mundos mais realistas.

Em resumo, o paper demonstra que, embora os modelos de vídeo tenham avançado na qualidade visual, a expressão narrativa complexa permanece uma fronteira crítica não resolvida, e o NarrLV fornece as ferramentas necessárias para medir e impulsionar o progresso nessa área.