UniVBench: Towards Unified Evaluation for Video Foundation Models

Dit paper introduceert UniVBench, een nieuw benchmark en evaluatiesysteem dat is ontworpen om de geïntegreerde capaciteiten van video-fundatiemodellen op het gebied van begrip, generatie, bewerking en reconstructie te beoordelen aan de hand van complexe, mensgemaakte video's en gestandaardiseerde instructies.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat video-AI's de nieuwe regisseurs van de toekomst zijn. Sommige zijn gespecialiseerd in het kijken en begrijpen van films (wat gebeurt er? wie is dat?), terwijl anderen gespecialiseerd zijn in het maken van films (schrijf een script en ik maak de beelden).

De grote droom is nu een "Universele Regisseur": één AI die zowel kan kijken, begrijpen, schrijven, maken én bewerken. Maar hoe testen we of zo'n AI écht goed is in alles?

Hier komt UniVBench om de hoek kijken. Het is als een nieuwe, super-uitgebreide rijbewijstest voor video-AI's.

Het Probleem: De "Gespecialiseerde" Tests

Tot nu toe waren de tests voor video-AI's als volgt:

  • Je had een test alleen voor het herkennen van auto's (maar niet voor het maken van een auto).
  • Je had een test alleen voor het maken van een zonsondergang (maar niet voor het begrijpen van de sfeer).
  • De films die ze gebruikten waren vaak kort, simpel, of zelfs gestolen (auteursrechtproblemen).

Het was alsof je een auto testte door alleen te kijken of de wielen ronddraaien, zonder te testen of hij ook kan remmen, sturen of over een heuvel kan rijden. Je kreeg geen echt beeld van de totale prestatie.

De Oplossing: UniVBench (De "Masterclass" voor AI)

De onderzoekers hebben UniVBench bedacht. Dit is de eerste test die een AI op vier belangrijke vaardigheden meet, allemaal in één keer:

  1. Begrijpen: De AI kijkt naar een video en vertelt je wat er gebeurt.
  2. Maken: De AI krijgt een tekst en maakt een video.
  3. Bewerken: De AI krijgt een bestaande video en een opdracht (bijv. "verander de kleding van de man in een jas") en past het toe.
  4. Opbouwen (De nieuwe uitdaging): Dit is de meest interessante test. De AI moet eerst een video kijken, het verhaal eruit halen, en die video daarna opnieuw maken op basis van wat ze hebben onthouden. Als de AI de video niet goed begrijpt, zal de nieuwe versie er raar uitzien. Het is als een spelletje "verpest de tekening": teken iets, leg het weg, laat iemand anders het beschrijven, en laat een derde persoon het tekenen op basis van die beschrijving. Hoe meer het lijkt op het origineel, hoe beter de AI is.

Waarom is dit zo speciaal?

Stel je voor dat je een filmregisseur wilt testen. De oude tests keken alleen of de acteurs goed stonden (kwaliteit van één shot). UniVBench kijkt naar de hele film:

  • Meerdere scènes: De video's in deze test bestaan uit meerdere shots (scènes) die naadloos in elkaar overlopen, net als een echte film.
  • Geen gestolen materiaal: Alle video's zijn speciaal gemaakt voor deze test door mensen. Geen auteursrechtproblemen, geen "geleende" beelden.
  • Cinema-gevoel: Ze testen niet alleen of er een hond in beeld is, maar ook: Is het licht warm of koud? Is de camera laag of hoog? Is de sfeer spannend of rustig? Ze kijken naar 8 grote categorieën (zoals licht, kleur, camera-beweging) en 21 kleine details.

De "Rechter" (UniV-Eval)

Hoe beoordel je of een video goed is? Vroeger keken ze alleen naar cijfers (bijv. "80% gelijkheid"). Dat zegt je niet waarom het fout ging.

UniVBench gebruikt een slimme AI-Rechter (genaamd UniV-Eval).

  • Deze kijkt niet alleen naar het eindresultaat, maar maakt een gedetailleerde checklist.
  • Hij zegt niet alleen: "Fout". Hij zegt: "De kleding van de vrouw klopt, maar het licht is te fel, en de camera beweegt te snel."
  • Dit helpt ontwikkelaars om precies te zien waar hun AI nog moet oefenen.

Wat leerden we uit de test?

Toen ze de huidige top-AI's op deze test zetten, bleek het volgende:

  • Er is nog geen enkele AI die in alles even goed is.
  • AI's die goed zijn in het maken van video's, zijn vaak slecht in het begrijpen van complexe acties (bijv. "de kat springt op de tafel en landt op zijn kop").
  • De "Opbouwen"-test (Video -> Tekst -> Video) was het moeilijkst. Veel AI's verloren belangrijke details onderweg. Het is alsof je een verhaal hoort, het doorgeeft aan iemand anders, en die het weer doorgeeft: aan het eind is het verhaal vaak verdraaid.

Conclusie

UniVBench is als een nieuwe, eerlijke olympische wedstrijd voor video-AI's. Het stopt met het testen van losse onderdelen en begint de AI te testen op zijn totale vermogen om een film te begrijpen, te maken en te verbeteren. Dit helpt ontwikkelaars om de volgende generatie "Universele Regisseurs" te bouwen die echt kunnen doen wat we van hen verwachten.