A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

Gepubliceerd 2026-02-25

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind leert lopen. Eerst leert het kind om te kijken (perceptie), dan om te rennen en te draaien (transformatie), en daarna om te begrijpen waarom het een obstakel moet omzeilen (redeneren). Tot nu toe waren de slimste computers (AI) vooral heel goed in het "kijken" en het "lopen" – ze kunnen prachtige video's maken die er realistisch uitzien. Maar ze waren nog niet zo goed in het "denken" tijdens het lopen. Ze wisten niet altijd hoe ze een deur moesten openen, een puzzel moesten oplossen of een kettingreactie moesten voorspellen.

Dit paper introduceert VBVR (Very Big Video Reasoning), wat je kunt zien als een gigantische, nieuwe school voor deze AI's, speciaal ontworpen om ze te leren redeneren in plaats van alleen maar te kopiëren.

Hier is de uitleg in drie simpele stappen:

1. De Bibliotheek met 200.000 Puzzels (Het Dataset)

Stel je voor dat je tot nu toe alleen maar 100 plaatjes had om een kind te leren wat een hond is. Dat is niet genoeg om echt te begrijpen wat een hond is. VBVR heeft een bibliotheek gebouwd met 200 verschillende soorten "denkopdrachten" en meer dan 1 miljoen video-voorbeelden.

Ze hebben deze opdrachten niet zomaar uitgezocht. Ze hebben gekeken naar hoe het menselijk brein werkt (filosofen als Aristoteles en Kant hadden hier al over nagedacht) en hebben vijf hoofdcategorieën gemaakt:

Waarnemen: Zie je de kleuren en vormen?
Ruimtelijkheid: Begrijp je waar dingen zijn en hoe ze bewegen?
Transformatie: Kun je in je hoofd een object draaien of verplaatsen?
Abstractie: Kun je een regel ontdekken uit een patroon?
Kennis: Gebruik je feiten (zoals zwaartekracht of logica) om iets te begrijpen?

Deze bibliotheek is zo groot dat hij 1000 keer groter is dan alle andere vergelijkbare verzamelingen die er nu zijn. Het is alsof je van een klein schooltje bent verhuisd naar een universiteit.

2. De Onpartijdige Jager (De Benchmark)

Vroeger keek je naar een AI-video en zei je: "O, dat ziet er mooi uit!" of "O, dat ziet er raar uit." Dat is subjectief. VBVR heeft een nieuw systeem bedacht: VBVR-Bench.

Stel je voor dat je een video maakt van iemand die een sleutel in een slot doet.

De oude manier: Een andere AI (of een mens) kijkt er naar en zegt: "Ja, dat lijkt wel op een sleutel."
De VBVR-methode: Het systeem heeft een strikte checklist. "Is de sleutel blauw? Ja. Is hij in het slot gegaan? Ja. Is het slot opengegaan? Ja."

Het is als een automatische scheidsrechter die niet kijkt naar de "sfeer" van de video, maar puur naar de regels. Als de AI de verkeerde sleutel pakt, krijgt hij een nul, zelfs als de video er heel mooi uitziet. Dit zorgt ervoor dat we echt kunnen meten of de AI denkt of dat hij alleen maar plakt.

3. De Grote Leerervaring (De Resultaten)

De onderzoekers hebben een bestaande AI (genaamd Wan2.2) getraind met deze enorme bibliotheek. Het resultaat was opwindend:

Het "Klik"-moment: De AI werd niet alleen beter in de dingen die hij al kende, maar begon ook problemen op te lossen die hij nooit eerder had gezien. Dit noemen ze "emergente generalisatie". Het is alsof je een kind leert een blokje te stapelen, en plotseling kan het ook een brug bouwen zonder dat je dat specifiek hebt geleerd.
De "Controle"-leerles: De grootste ontdekking was dat de AI eerst moet leren controle hebben over de wereld voordat hij kan redeneren. Als de AI tijdens het maken van de video de achtergrond verandert of de objecten laat verdwijnen, kan hij niet redeneren. VBVR leerde de AI om de wereld stabiel te houden, zodat hij echt kon "nadenken" over wat er gebeurt.
Nog niet perfect: Hoewel de AI veel beter werd (van een 0,37 naar een 0,68 op een schaal van 1), is hij nog steeds niet zo slim als een mens (die haalt 0,97). De AI kan soms nog wel de juiste oplossing vinden, maar de manier waarop hij er komt is soms raar of onlogisch.

Samenvattend

Dit paper is als het bouwen van een gigantisch trainingscentrum voor videobots. Het zegt: "We stoppen met alleen maar mooie plaatjes maken. Laten we ze leren hoe de wereld werkt, hoe regels werken en hoe ze logisch kunnen nadenken."

Het is een enorme stap in de richting van AI die niet alleen kijkt, maar ook echt begrijpt. De data, de testmethodes en de modellen zijn nu openbaar beschikbaar, zodat iedereen mee kan bouwen aan deze slimme toekomst.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel er grote vooruitgang is geboekt in videomodellen, concentreert de huidige research zich voornamelijk op visuele realisme en kwaliteit, terwijl de redeneercapaciteiten (reasoning capabilities) van deze modellen onderbelicht blijven. Video's bieden een uniek medium voor intelligentie omdat ze spatiotemporale consistentie, fysieke dynamiek en causale relaties bevatten die tekst niet natuurlijk kan vastleggen.

De belangrijkste belemmering voor systematisch onderzoek naar videoredeneren is het ontbreken van:

Een grootschalige en diverse dataset voor training, die voldoende omvang heeft om schalingseffecten (scaling laws) te bestuderen.
Een verifieerbaar en reproduceerbaar evaluatiekader dat verder gaat dan model-gebaseerde beoordeling (LLM-as-a-judge), die vaak subjectief is.
Een initiële schalingsstudie die de opkomende generalisatiecapaciteiten van videomodellen in kaart brengt.

Methodologie

De auteurs introduceren de VBVR-suite (Very Big Video Reasoning), die bestaat uit drie kerncomponenten:

1. VBVR-Dataset: Een cognitief gestructureerde dataset

Cognitieve Architectuur: De taken zijn niet willekeurig, maar gebaseerd op een principes taxonomie van vijf fundamentele cognitieve vermogens, afgeleid van filosofie (Aristoteles, Kant) en neurowetenschap:
- Perceptie: Extractie van gestructureerde representaties uit zintuiglijke input.
- Transformatie: Manipulatie en synthese van mentale representaties (bijv. mentale rotatie).
- Ruimtelijkheid (Spatiality): Representatie van locaties en geometrische relaties.
- Abstractie: Distillatie van generaliseerbare kennis uit specifieke ervaringen.
- Kennis: Propositionele waarheden (inherent of aangeleerd).
Schaal en Diversiteit: De dataset bevat 2.015.000 afbeeldingen en 1.007.500 videoclips, verdeeld over 200 gecureerde redeneertaken. Dit is ongeveer 1.000 keer groter dan bestaande benchmarks.
Generatiepijplijn: Taken worden geïmplementeerd als geparametriseerde generatoren. Een cloud-gebaseerd systeem (AWS Lambda) genereert distributief duizenden variaties per taak, waarbij elke sample een startframe, instructie, doelstaat en grondwaarheid (ground truth) video bevat.
Kwaliteitsborging: Taken moeten voldoen aan strikte criteria zoals deterministische oplosbaarheid, video-afhankelijkheid (niet oplosbaar met één frame) en visuele helderheid.

2. VBVR-Bench: Een verifieerbaar evaluatiekader

In plaats van te vertrouwen op LLM's voor beoordeling, gebruikt VBVR-Bench regelgebaseerde, deterministische scorers.
De evaluatie is gebaseerd op verifieerbare criteria zoals ruimtelijke nauwkeurigheid, trajectcorrectheid, temporele consistentie en logische validiteit.
De benchmark gebruikt een dubbele splitsing:
- In-Domain (ID): Taken die lijken op de trainingstaken maar met nieuwe parameters.
- Out-of-Domain (OOD): Volledig nieuwe taakstructuren om generalisatie te testen.
Er is een sterke correlatie ( $\rho > 0.9$ ) aangetoond tussen de automatische scores en menselijke voorkeuren, wat de validiteit van het systeem bevestigt.

3. Schalingsstudie en Modeltraining

De auteurs trainden het open-source model Wan-2.2-I2V-A14B op de VBVR-Dataset (tot 500k samples) om VBVR-Wan2.2 te creëren.
Ze analyseerden hoe prestaties evolueren bij toenemende dataschaal en vergeleken dit met toonaangevende gesloten modellen (zoals Sora 2, Veo 3.1, Kling 2.6).

Belangrijkste Resultaten

Prestatieverbetering door Schaling:
- Het op VBVR getrainde model (VBVR-Wan2.2) behaalde een totale score van 0.685, een verbetering van 84,6% ten opzichte van het basismodel (0.371).
- Het presteerde beter dan alle bestaande open-source en gesloten modellen (inclusief Sora 2 en Veo 3.1) op de meeste cognitieve categorieën, vooral op Ruimtelijkheid en Perceptie.
Emergent Generalisatie:
- Er is een duidelijke verbetering zichtbaar in zowel In-Domain als Out-of-Domain taken naarmate de dataschaal groeit. Dit suggereert dat het model niet alleen patronen memoriseert, maar transfererbare redeneerprimitieven leert.
- Echter, er blijft een persistent gat bestaan tussen modelprestaties en menselijke prestaties (mens: ~0.974), zelfs bij schaling. Dit wijst op fundamentele beperkingen in de huidige architecturen voor langdurige temporele redenering.
Kwalitatieve Inzichten:
- Controleerbaarheid is cruciaal: Het paper concludeert dat "controleerbaarheid voor redenering" (controllability before reasoning) de basis is. Modellen die de scène niet stabiel houden (bijv. objectidentiteit veranderen), kunnen geen betrouwbare redenering uitvoeren. VBVR-Wan2.2 toont een emergent vermogen om strikt de instructies te volgen zonder onnodige scene-wijzigingen.
- Foutpatronen: Hoewel het model beter is in het volgen van regels, faalt het soms bij het behoud van identiteit over lange tijdshorizons (bijv. agent-verdubbeling) en bij het trouw blijven aan het exacte proces (soms een "goed antwoord" met een "verkeerde methode").
Cognitieve Correlaties:
- Er werden interessante correlaties gevonden tussen de cognitieve vermogens. Bijvoorbeeld, Kennis en Ruimtelijkheid correleren sterk positief (ondersteunend voor theorieën over hippocampale plaatscellen), terwijl Kennis sterk negatief correleert met Perceptie.

Bijdragen en Significantie

Eerste Grootschalige Dataset: VBVR is, voor zover bekend, de eerste dataset die specifiek is ontworpen voor het trainen van videoredeneren, met een omvang die drie ordes van grootte groter is dan eerdere benchmarks.
Nieuwe Evaluatiestandaard: Door de verschuiving van "LLM-as-a-judge" naar regelgebaseerde, verifieerbare scoring, biedt VBVR-Bench een betrouwbaarder en reproduceerbaar fundament voor het vergelijken van videomodellen.
Fundament voor Toekomstig Onderzoek: De suite legt de basis voor de volgende fase van onderzoek naar generaliseerbare videoredenering. Het toont aan dat schaling van data leidt tot vroege tekenen van emergente generalisatie, maar ook dat er fundamentele architecturale verbeteringen nodig zijn om menselijke niveaus van redenering te bereiken.
Open Source: De dataset, het evaluatiekader (EvalKit) en de getrainde modellen zijn publiek beschikbaar gesteld via video-reason.com, wat de gemeenschap in staat stelt om verder te bouwen op deze infrastructuur.

Kortom, dit paper markeert een verschuiving in het veld van videomodellen: van puur creatieve generatie naar systematische, verifieerbare redenering, ondersteund door een ongeëvenaarde schaal aan data en een robuust evaluatiekader.

A Very Big Video Reasoning Suite

1. De Bibliotheek met 200.000 Puzzels (Het Dataset)

2. De Onpartijdige Jager (De Benchmark)

3. De Grote Leerervaring (De Resultaten)

Samenvattend

Probleemstelling

Methodologie

1. VBVR-Dataset: Een cognitief gestructureerde dataset

2. VBVR-Bench: Een verifieerbaar evaluatiekader

3. Schalingsstudie en Modeltraining

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation