OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Deze paper introduceert OSCBench, een nieuwe benchmark die is opgezet om de prestaties van tekst-naar-video-modellen te evalueren op het gebied van object-staatveranderingen, en onthult dat huidige modellen ondanks sterke algemene prestaties moeite hebben met het nauwkeurig en consistent genereren van deze veranderingen, vooral in nieuwe en samengestelde scenario's.

Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische filmkast hebt die elk verhaal dat je in woorden beschrijft, direct in een video omzet. Je zegt: "Snijd een appel in plakjes," en de kast tovert een filmpje.

Tot nu toe hebben wetenschappers vooral gekeken of die film er mooi uitziet en of de tekst erbij past. Maar er was een groot gat in de test: Verandert het voorwerp echt?

Dit artikel introduceert OSCBench, een nieuwe test die precies kijkt naar die verandering. Hier is de uitleg in simpele taal:

1. Het Probleem: De "Magische" Appel

Stel, je vraagt de computer om een appel te snijden.

  • De oude test: Kijkt of er een man op het scherm staat, of er een appel ligt, en of het eruitziet als een echte film.
  • Het nieuwe probleem: Vaak ziet de film er perfect uit, maar gebeurt er niets met de appel. De appel blijft heel, of hij verandert plotseling in een banaan, of hij verdwijnt en komt later weer terug alsof er niets gebeurd is. De computer "weet" niet wat snijden betekent voor een appel; hij maakt alleen maar een mooie plaatjesreeks.

OSCBench is de test die vraagt: "Heeft die appel nu echt plakjes, of is het nog steeds een hele appel?"

2. De Oplossing: Een Kookschool voor Robots

De onderzoekers hebben een nieuwe "school" gebouwd voor deze videocomputers, gebaseerd op kookvideo's. Waarom koken? Omdat koken vol zit met veranderingen: een aardappel wordt geschild, een ei wordt gebroken, deeg wordt gekneed.

Ze hebben drie soorten "examens" bedacht:

  • De Gewone Oefening (Regular): "Snijd een citroen." Dit is iets dat de computer vaak heeft gezien.
  • De Nieuwe Uitdaging (Novel): "Pel een bes." Dit is iets raars. De computer heeft dit nooit echt gezien en moet het zelf bedenken.
  • De Samengestelde Taak (Compositional): "Pel en snijd een peer." Hier moet de computer twee dingen achter elkaar doen zonder de tussenstap te vergeten.

3. De Proefpersonen: De Videobotjes

Ze hebben zes van de slimste videocomputers ter wereld (zowel gratis open-source als dure betaalde modellen) op deze test gezet. Het was als een olympiade voor AI.

Het verdict:
De robots zijn fantastisch in het maken van mooie achtergronden en het laten bewegen van mensen. Maar zodra het gaat om het veranderen van een voorwerp, zakken ze door de vloer.

  • Soms wordt een aardappel gesneden, maar blijven de plakken aan elkaar plakken.
  • Soms verdwijnt een stukje fruit halverwege het filmpje.
  • Soms verandert een hele appel in plakjes, maar dan springt hij in de volgende seconde weer terug naar een hele appel.

Het is alsof je een film ziet van iemand die een taart snijdt, maar de taart blijft heel en de messen bewegen er alleen maar omheen.

4. De Scheidsrechters: Mensen en Slimme Computers

Om te weten of de robots het goed deden, hebben ze twee soorten scheidsrechters ingezet:

  1. Mensen: Die keken naar de filmpjes en gaven cijfers.
  2. Slimme AI-assistenten (MLLMs): Dit zijn computers die heel goed kunnen kijken en redeneren. In plaats van ze alleen te laten tellen, gaven de onderzoekers hen een stappenplan (een "Chain of Thought"). Ze zeiden: "Kijk eerst naar de appel, check of hij verandert, zoek naar bewijs, en geef dan pas een cijfer."

Het resultaat: De slimme AI-assistenten met het stappenplan deden het bijna net zo goed als de mensen. Dit is een groot nieuws, want mensen kijken is duur en langzaam. AI kan nu helpen om deze tests in grote schaal te doen.

5. Waarom is dit belangrijk?

Als we willen dat robots in de echte wereld helpen (bijvoorbeeld in een fabriek of om een recept te demonstreren), moeten ze niet alleen mooie films maken. Ze moeten begrijpen wat er gebeurt als je iets doet.

  • Als een robot een deur moet openen, moet de deur echt open gaan.
  • Als een robot een ei moet breken, moet het ei echt breken.

OSCBench is de eerste meetlat die ons laat zien waar deze robots nog vastlopen. Het is als een diagnose: "Je bent goed in het uiterlijk, maar je begrijpt de fysica van verandering nog niet."

Samenvatting in één zin

Deze paper introduceert een nieuwe test die laat zien dat onze slimste videocomputers nog steeds "doven" zijn als het gaat om het echt veranderen van voorwerpen in een video, en biedt een nieuwe manier om ze hierin te trainen.