A Very Big Video Reasoning Suite

Deze paper introduceert VBVR, een ongeëvenaard groot dataset en evaluatieframework voor video-redenering dat de basis legt voor schaalstudies en het ontdekken van emergente generalisatie in videomodellen.

Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind leert lopen. Eerst leert het kind om te kijken (perceptie), dan om te rennen en te draaien (transformatie), en daarna om te begrijpen waarom het een obstakel moet omzeilen (redeneren). Tot nu toe waren de slimste computers (AI) vooral heel goed in het "kijken" en het "lopen" – ze kunnen prachtige video's maken die er realistisch uitzien. Maar ze waren nog niet zo goed in het "denken" tijdens het lopen. Ze wisten niet altijd hoe ze een deur moesten openen, een puzzel moesten oplossen of een kettingreactie moesten voorspellen.

Dit paper introduceert VBVR (Very Big Video Reasoning), wat je kunt zien als een gigantische, nieuwe school voor deze AI's, speciaal ontworpen om ze te leren redeneren in plaats van alleen maar te kopiëren.

Hier is de uitleg in drie simpele stappen:

1. De Bibliotheek met 200.000 Puzzels (Het Dataset)

Stel je voor dat je tot nu toe alleen maar 100 plaatjes had om een kind te leren wat een hond is. Dat is niet genoeg om echt te begrijpen wat een hond is. VBVR heeft een bibliotheek gebouwd met 200 verschillende soorten "denkopdrachten" en meer dan 1 miljoen video-voorbeelden.

Ze hebben deze opdrachten niet zomaar uitgezocht. Ze hebben gekeken naar hoe het menselijk brein werkt (filosofen als Aristoteles en Kant hadden hier al over nagedacht) en hebben vijf hoofdcategorieën gemaakt:

  • Waarnemen: Zie je de kleuren en vormen?
  • Ruimtelijkheid: Begrijp je waar dingen zijn en hoe ze bewegen?
  • Transformatie: Kun je in je hoofd een object draaien of verplaatsen?
  • Abstractie: Kun je een regel ontdekken uit een patroon?
  • Kennis: Gebruik je feiten (zoals zwaartekracht of logica) om iets te begrijpen?

Deze bibliotheek is zo groot dat hij 1000 keer groter is dan alle andere vergelijkbare verzamelingen die er nu zijn. Het is alsof je van een klein schooltje bent verhuisd naar een universiteit.

2. De Onpartijdige Jager (De Benchmark)

Vroeger keek je naar een AI-video en zei je: "O, dat ziet er mooi uit!" of "O, dat ziet er raar uit." Dat is subjectief. VBVR heeft een nieuw systeem bedacht: VBVR-Bench.

Stel je voor dat je een video maakt van iemand die een sleutel in een slot doet.

  • De oude manier: Een andere AI (of een mens) kijkt er naar en zegt: "Ja, dat lijkt wel op een sleutel."
  • De VBVR-methode: Het systeem heeft een strikte checklist. "Is de sleutel blauw? Ja. Is hij in het slot gegaan? Ja. Is het slot opengegaan? Ja."

Het is als een automatische scheidsrechter die niet kijkt naar de "sfeer" van de video, maar puur naar de regels. Als de AI de verkeerde sleutel pakt, krijgt hij een nul, zelfs als de video er heel mooi uitziet. Dit zorgt ervoor dat we echt kunnen meten of de AI denkt of dat hij alleen maar plakt.

3. De Grote Leerervaring (De Resultaten)

De onderzoekers hebben een bestaande AI (genaamd Wan2.2) getraind met deze enorme bibliotheek. Het resultaat was opwindend:

  • Het "Klik"-moment: De AI werd niet alleen beter in de dingen die hij al kende, maar begon ook problemen op te lossen die hij nooit eerder had gezien. Dit noemen ze "emergente generalisatie". Het is alsof je een kind leert een blokje te stapelen, en plotseling kan het ook een brug bouwen zonder dat je dat specifiek hebt geleerd.
  • De "Controle"-leerles: De grootste ontdekking was dat de AI eerst moet leren controle hebben over de wereld voordat hij kan redeneren. Als de AI tijdens het maken van de video de achtergrond verandert of de objecten laat verdwijnen, kan hij niet redeneren. VBVR leerde de AI om de wereld stabiel te houden, zodat hij echt kon "nadenken" over wat er gebeurt.
  • Nog niet perfect: Hoewel de AI veel beter werd (van een 0,37 naar een 0,68 op een schaal van 1), is hij nog steeds niet zo slim als een mens (die haalt 0,97). De AI kan soms nog wel de juiste oplossing vinden, maar de manier waarop hij er komt is soms raar of onlogisch.

Samenvattend

Dit paper is als het bouwen van een gigantisch trainingscentrum voor videobots. Het zegt: "We stoppen met alleen maar mooie plaatjes maken. Laten we ze leren hoe de wereld werkt, hoe regels werken en hoe ze logisch kunnen nadenken."

Het is een enorme stap in de richting van AI die niet alleen kijkt, maar ook echt begrijpt. De data, de testmethodes en de modellen zijn nu openbaar beschikbaar, zodat iedereen mee kan bouwen aan deze slimme toekomst.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →