MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation
O artigo apresenta o MSVBench, o primeiro benchmark abrangente para avaliação de geração de vídeos multi-cena, que utiliza um framework híbrido de modelos multimodais e especialistas para demonstrar que os métodos atuais carecem de coerência narrativa e oferece um sinal supervisionado escalável para alinhar o desempenho dos modelos com julgamentos humanos.