UniVBench: Towards Unified Evaluation for Video Foundation Models

Ce papier présente UniVBench, un benchmark unifié et un système d'évaluation agentic (UniV-Eval) conçus pour évaluer de manière holistique les capacités des modèles de fondation vidéo dans la compréhension, la génération, l'édition et la reconstruction de vidéos complexes, comblant ainsi le fossé des évaluations fragmentées existantes.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 UniVBench : Le "Grand Oral" pour les IA qui font des vidéos

Imaginez que vous êtes un réalisateur de cinéma très exigeant. Jusqu'à présent, vous aviez deux types d'acteurs très spécialisés :

  1. Les "Rédacteurs" : Ils sont excellents pour regarder une vidéo et écrire un résumé parfait de ce qui s'y passe (compréhension).
  2. Les "Peintres" : Ils sont géniaux pour prendre une description écrite et créer une magnifique vidéo à partir de rien (génération).

Mais aujourd'hui, une nouvelle génération d'acteurs arrive sur le plateau : les "IA Fondamentales Vidéo". Ce sont des super-héros capables de faire les deux : ils peuvent regarder une vidéo, comprendre l'histoire, et ensuite recréer ou modifier cette vidéo sur commande.

Le problème ? Comment les juger ?

🚧 Le Problème : Des examens trop simplistes

Jusqu'à présent, pour tester ces IA, on utilisait des "examens" séparés et imparfaits :

  • Pour la compréhension, on leur donnait des vidéos volées sur internet (problème de droits d'auteur) et on leur demandait juste de dire "il y a un chat".
  • Pour la génération, on leur demandait de faire des vidéos de 2 secondes très simples.
  • Pour le montage, on testait seulement des images fixes, pas des scènes complexes.

C'est comme si vous vouliez évaluer un chef cuisinier capable de tout faire (cuisiner, servir, nettoyer), mais que vous le testiez uniquement sur sa capacité à éplucher une pomme, ou uniquement sur sa capacité à faire une omelette, sans jamais lui demander de préparer un vrai repas complet. De plus, les notes étaient souvent juste un chiffre unique (ex: "7/10"), ce qui ne vous disait pas il avait échoué (est-ce l'assaisonnement ? la cuisson ? la présentation ?).

✨ La Solution : UniVBench (Le Grand Concours Cinéma)

Les auteurs de cet article ont créé UniVBench, un nouveau terrain de jeu pour évaluer ces IA de manière globale. Voici comment ça marche, avec des analogies simples :

1. Une salle de cinéma privée et légale (Le Dataset)
Au lieu d'utiliser des vidéos volées sur YouTube, ils ont fait appel à 15 experts humains (des scénaristes et réalisateurs) pour créer 200 vidéos originales.

  • L'analogie : Imaginez un studio de cinéma privé où l'on a écrit 200 scénarios complexes, avec plusieurs scènes (pas juste un plan fixe), des changements de lumière, des mouvements de caméra précis, et des personnages qui interagissent. Tout est fait main, sans droits d'auteur, pour être sûr que l'IA ne triche pas en ayant déjà vu ces vidéos sur internet.

2. Le "Défi des 6 Missions" (Les Tâches)
Au lieu de tester une seule compétence, UniVBench lance l'IA dans 6 défis différents :

  • V2T (Vidéo vers Texte) : "Regarde cette vidéo et écris un scénario détaillé."
  • T2V (Texte vers Vidéo) : "Voici un texte, fais la vidéo."
  • R2V (Image vers Vidéo) : "Voici une photo de référence, crée une vidéo qui ressemble à ça."
  • TV2V / RV2V (Édition) : "Prends cette vidéo et change le personnage en un robot" ou "Change la couleur du ciel en rouge."
  • V2V (Reconstruction - La nouveauté !) : C'est le test ultime. L'IA doit d'abord comprendre une vidéo (écrire un texte), puis recréer la vidéo à partir de ce texte.
    • L'analogie : C'est comme si vous deviez décrire un tableau à un ami, puis lui demander de le peindre. Si le tableau final est moche, c'est soit que vous avez mal décrit (mauvaise compréhension), soit que l'ami est un mauvais peintre (mauvaise génération). Cela permet de savoir exactement où l'IA bloque.

3. Le Juge Robotique Ultra-Détaillé (UniV-Eval)
Au lieu de donner une note globale, le système utilise un agent IA intelligent (un "Juge Robot") qui agit comme un critique de cinéma très pointu.

  • L'analogie : Au lieu de dire "Le film est moyen (5/10)", le Juge Robot vous donne une checklist :
    • Le personnage principal a-t-il gardé ses vêtements ? (Oui/Non)
    • La lumière est-elle cohérente ? (Oui/Non)
    • Le mouvement de la caméra est-il fluide ? (Oui/Non)
    • L'ambiance est-elle triste ou joyeuse comme demandé ?
    • Il pointe les erreurs spécifiques : "Attention, dans la 3ème scène, le chien a changé de couleur !"

🏆 Ce que l'on a appris (Les Résultats)

En testant les meilleures IA actuelles avec ce nouveau système, les chercheurs ont découvert des choses surprenantes :

  • Les spécialistes sont toujours meilleurs : Les IA faites uniquement pour écrire des vidéos (comme Seedance) sont meilleures que les IA "tout-en-un" pour la génération.
  • Le maillon faible : La plupart des IA ont du mal avec les actions complexes (ex: un chat qui ouvre une boîte de conserve). Elles comprennent bien les couleurs et les styles, mais échouent souvent sur la logique du mouvement.
  • Le fossé de l'unification : Aucune IA actuelle ne maîtrise parfaitement tout (comprendre, générer, éditer) en même temps. Elles sont encore comme des apprentis qui doivent choisir leur spécialité.

En résumé

UniVBench est comme un examen de conduite complet pour les voitures autonomes de demain. Au lieu de juste vérifier si la voiture sait freiner (tâche unique), on la fait rouler sur une piste avec de la pluie, des piétons, des virages serrés et des panneaux de signalisation, tout en notant précisément chaque erreur de direction.

C'est un outil essentiel pour aider les développeurs à comprendre exactement où leurs IA ont besoin d'entraînement pour devenir de véritables réalisateurs de cinéma intelligents.