A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

Publié 2026-02-25

📖 5 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un enfant comment résoudre des énigmes. Jusqu'à présent, vous lui avez donné des livres de mots (texte) pour apprendre à raisonner. Mais la vraie vie, c'est du mouvement, des objets qui tombent, des portes qui s'ouvrent et des chemins qui changent. C'est là que le VBVR (Very Big Video Reasoning) entre en jeu.

Voici l'explication de ce projet révolutionnaire, racontée comme une histoire, en français simple.

1. Le Problème : Un génie qui ne voit pas le monde

Les intelligences artificielles actuelles sont comme des bibliothécaires prodigieux : elles connaissent tous les mots, mais elles ne comprennent pas vraiment comment le monde fonctionne physiquement. Elles peuvent écrire un poème sur une pomme qui tombe, mais elles ne savent pas prévoir comment elle va rebondir ou comment elle va rouler sur une table.

Le problème ? Pour apprendre à une IA à "penser" en vidéo, il faut des millions d'exemples. Or, jusqu'à aujourd'hui, les chercheurs n'avaient que quelques milliers d'exemples, comme essayer d'apprendre à nager avec une seule goutte d'eau.

2. La Solution : Une "Usine à Énigmes" Géante

L'équipe derrière VBVR a construit quelque chose d'incroyable : une usine à générer des énigmes vidéo.

L'Échelle : Imaginez que les autres bases de données sont un petit aquarium. VBVR, c'est l'océan Pacifique. Ils ont créé 2 millions d'images et plus d'un million de clips vidéo. C'est 1 000 fois plus gros que tout ce qui existait avant.
La Méthode : Au lieu de filmer des humains (ce qui prendrait des siècles), ils ont créé des "robots programmeurs" (des générateurs). Ces robots peuvent créer des millions de variations d'une même énigme.
- Exemple : Si l'énigme est "Fais rouler la balle jusqu'à la porte", le robot peut changer la couleur de la balle, la taille de la porte, ajouter des obstacles, changer la gravité, etc., des milliers de fois, sans jamais se répéter exactement.

3. Les 5 Super-Pouvoirs de l'Esprit

Pour que l'IA apprenne vraiment, ils n'ont pas juste jeté des vidéos au hasard. Ils ont organisé l'apprentissage autour de 5 piliers de l'intelligence humaine, inspirés par des philosophes comme Aristote et Kant :

La Perception (Les yeux) : Reconnaître les formes, les couleurs, distinguer un chat d'un chien.
La Transformation (Les mains) : Pouvoir imaginer un objet qui tourne, qui change de taille ou qui se déplace dans l'espace.
La Spatialité (La carte mentale) : Comprendre où sont les choses, comment naviguer dans un labyrinthe, savoir que si je tourne à gauche, je suis toujours à gauche.
L'Abstraction (Le détective) : Trouver des règles cachées. Si A devient B, et B devient C, alors A devient C ? (Comme les puzzles de logique).
La Connaissance (La mémoire) : Savoir que l'eau coule vers le bas, que les dominos tombent en chaîne, ou lire un chiffre.

4. Le Test : Le "Banc d'Essai" Infaillible

Comment savoir si l'IA a vraiment appris ? Souvent, on demande à une autre IA de juger les réponses, ce qui est comme demander à un élève de noter son camarade.

VBVR a créé un juge robotique infaillible.

L'analogie : Imaginez un jeu de cache-cache. Si l'IA dit "J'ai trouvé le trésor", le juge ne se contente pas de croire l'IA. Il vérifie mathématiquement : "Est-ce que l'objet est vraiment là ? Est-ce que le chemin était le plus court ?".
Ce système est si précis qu'il correspond à 99% à ce qu'un humain jugerait correct.

5. Les Résultats : Un Saut de Géant

Ils ont pris une IA existante (Wan2.2) et l'ont entraînée avec cette "usine à énigmes".

Avant l'entraînement : L'IA était comme un enfant de 3 ans qui regarde passer les voitures sans comprendre la circulation.
Après l'entraînement : Elle est devenue un conducteur expérimenté. Elle a appris à suivre des règles strictes, à ne pas "halluciner" (inventer des objets qui n'existent pas) et à planifier ses mouvements.

Le résultat le plus fascinant ?
L'IA a commencé à montrer des signes de généralisation. C'est-à-dire qu'elle a appris à résoudre des énigmes qu'elle n'avait jamais vues auparavant, en utilisant les règles qu'elle avait apprises sur les autres. C'est comme si, après avoir appris à faire du vélo sur une route plate, elle pouvait soudainement rouler sur un chemin de terre sans qu'on lui ait jamais appris.

En Résumé

Ce papier nous dit que pour créer une vraie intelligence artificielle capable de comprendre le monde, il ne suffit pas de lui donner plus de texte. Il faut lui donner des millions d'expériences visuelles structurées.

VBVR est la première "école" de ce type pour les vidéos. C'est une fondation massive qui permet aux chercheurs de dire : "Maintenant, nous avons assez de données pour vraiment enseigner aux machines comment raisonner, pas seulement comment imiter."

C'est un pas immense vers des robots qui ne se contentent pas de regarder, mais qui comprennent et agissent intelligemment dans notre monde en mouvement.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les progrès récents dans les modèles vidéo se sont principalement concentrés sur la qualité visuelle et le réalisme, laissant les capacités de raisonnement sous-exploitées. Contrairement au texte, la vidéo offre un environnement spatio-temporel cohérent capable de capturer la continuité, les interactions physiques et la causalité, ce qui en fait un substrat idéal pour étudier l'intelligence ancrée dans le monde physique.

Cependant, l'étude systématique du raisonnement vidéo et de ses comportements d'échelle (scaling) est entravée par trois lacunes majeures :

L'absence de données d'entraînement à grande échelle et diversifiées.
Le manque d'outils d'évaluation vérifiables et reproductibles (la plupart des benchmarks actuels reposent sur des jugements de modèles de langage ou sont trop petits).
L'absence d'études d'échelle initiales pour observer l'émergence de capacités de généralisation dans les modèles vidéo.

2. Méthodologie

L'équipe propose la suite VBVR (Very Big Video Reasoning), qui se compose de trois piliers interconnectés :

A. VBVR-Dataset (Données)

Échelle sans précédent : Le dataset contient 2 015 000 images et 1 007 500 clips vidéo, soit environ 1 000 fois plus grand que les benchmarks existants combinés.
Architecture Cognitive : Les tâches sont organisées selon une taxonomie basée sur les facultés cognitives humaines (inspirée d'Aristote et de Kant), divisées en cinq piliers :
1. Perception : Extraction de représentations structurées (bords, couleurs, formes).
2. Transformation : Manipulation et synthèse de représentations mentales (rotation mentale, occlusion).
3. Spatialité : Représentation des lieux et des relations géométriques (navigation, cartes cognitives).
4. Abstraction : Distillation de connaissances généralisables (motifs, règles logiques).
5. Connaissance : Vérités propositionnelles (physique, objets permanents, logique).
Génération Procédurale : Au lieu de collecter des vidéos existantes, les auteurs ont développé 200 générateurs de tâches paramétrés. Ces générateurs produisent des instances aléatoires et vérifiables de manière distribuée via une infrastructure cloud (AWS Lambda), garantissant une diversité infinie et une solution unique pour chaque tâche.
Séparation Train/Test : 100 tâches sont utilisées pour l'entraînement (10k échantillons par tâche) et 100 pour le test (dont 50 hors distribution - OOD).

B. VBVR-Bench (Évaluation)

Critères Vérifiables : Contrairement aux jugements basés sur des LLM ("VLM-as-a-judge"), VBVR-Bench utilise des scoreurs basés sur des règles (rule-based). Chaque tâche possède une réponse unique et vérifiable (position, couleur, trajectoire, logique).
Alignement Humain : Les scores automatiques montrent une forte corrélation avec les préférences humaines ( $\rho > 0.9$ ), validant la fiabilité du benchmark.
Métriques Granulaires : L'évaluation décompose la performance en dimensions interprétables : précision spatiale, validité de la trajectoire, cohérence temporelle et validité logique.

C. Étude d'Échelle (Scaling Study)

Les auteurs ont utilisé le modèle open-source Wan-2.2 comme base et l'ont entraîné sur le dataset VBVR (jusqu'à 500k échantillons) pour créer VBVR-Wan2.2.
L'objectif était d'observer comment l'augmentation des données affecte les performances en domaine (In-Domain - ID) et hors domaine (Out-of-Domain - OOD).

3. Résultats Clés

Performances des Modèles

Écart avec l'Humain : Même les meilleurs modèles propriétaires (Sora 2, Veo 3.1) obtiennent des scores globaux bien inférieurs à ceux des humains (0.546 vs 0.974 pour Sora 2).
Amélioration par Entraînement : Le modèle VBVR-Wan2.2 (Wan-2.2 fine-tuné sur VBVR) atteint un score de 0.685, soit une amélioration relative de 84,6 % par rapport à la base. Il surpasse tous les autres modèles, y compris Sora 2, sur la plupart des catégories.
Corrélations de Capacités : L'analyse révèle des dépendances structurelles intéressantes :
- Forte corrélation positive entre Connaissance et Spatialité (suggérant un rôle commun de l'hippocampe).
- Forte corrélation négative entre Connaissance et Perception.
- L'Abstraction semble découplée des autres facultés, suggérant une modularité préfrontale.

Comportements d'Échelle (Scaling Laws)

Généralisation Émergente : L'augmentation des données améliore simultanément les performances ID et OOD, indiquant l'émergence de capacités de raisonnement transférables.
Plafonnement (Saturation) : Les performances finissent par stagner (plateau) même avec plus de données, laissant un écart persistant avec les humains. Cela suggère des limitations fondamentales de l'architecture actuelle des modèles de génération vidéo pour le raisonnement complexe.
Écart ID-OOD : Bien que la généralisation OOD s'améliore, un écart de ~15 % subsiste entre les tâches vues et non vues, soulignant la difficulté d'une généralisation robuste "dans la nature".

Analyse Qualitative

Contrôlabilité avant Raisonnement : Le principal avantage de VBVR-Wan2.2 est sa capacité à maintenir la stabilité de la scène (identité des objets, arrière-plan) tout en exécutant des manipulations précises. Les modèles de base échouent souvent car ils réécrivent la scène de manière incontrôlée, rendant le raisonnement invérifiable.
Comportements Émergents : Le modèle fine-tuné développe des stratégies multi-étapes et une capacité à "rationaliser" des scènes (ajuster des éléments intermédiaires pour correspondre à une narration interne), bien que des échecs de fidélité procédurale (réussir la réponse mais par la mauvaise méthode) persistent.

4. Contributions Principales

VBVR-Dataset : La première ressource d'entraînement massive et diversifiée dédiée au raisonnement vidéo, surpassant les benchmarks existants de plusieurs ordres de grandeur.
VBVR-Bench : Un cadre d'évaluation reproductible, déterministe et aligné sur l'humain, éliminant le bruit des jugements subjectifs des LLM.
Infrastructure de Génération : Un pipeline distribué capable de générer des millions d'échantillons de raisonnement vidéo vérifiables via des générateurs procéduraux.
Preuve de Concept d'Échelle : Une étude systématique démontrant que l'augmentation des données entraîne une généralisation émergente, tout en identifiant les limites actuelles des architectures de diffusion vidéo pour le raisonnement logique complexe.

5. Signification et Impact

Ce travail marque un tournant dans la recherche sur l'intelligence vidéo. Il déplace le focus de la simple génération esthétique vers la génération raisonnée et contrôlée.

Infrastructure Fondamentale : VBVR fournit l'infrastructure nécessaire pour la prochaine étape de la recherche sur le raisonnement vidéo généralisable.
Limites Architecturales : Les résultats suggèrent que la simple mise à l'échelle (scaling) des données ne suffit pas à combler l'écart avec l'intelligence humaine pour les tâches de raisonnement long terme ; de nouvelles architectures intégrant un suivi d'état explicite ou des modules de raisonnement structuré sont nécessaires.
Ouverture : Le dataset, les outils d'évaluation et les modèles sont publiés publiquement sur video-reason.com, favorisant la reproductibilité et l'avancement communautaire.

En résumé, VBVR établit que la contrôlabilité est la pierre angulaire du raisonnement vérifiable et ouvre la voie à des modèles capables de comprendre et de manipuler la dynamique spatio-temporelle du monde physique de manière logique.