NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Each language version is independently generated for its own context, not a direct translation.

🎬 De Grote Droom: Van een Foto naar een Hele Film

Stel je voor dat video-generatie AI (zoals de bekende tools die je online ziet) tot nu toe alleen maar foto's kon maken die een seconde bewogen. Ze waren mooi, maar kort. Nu proberen onderzoekers deze AI's te leren lange films te maken.

Maar hier zit een probleem: tot nu toe keken we alleen of de AI een mooie "foto" kon maken. We keken niet of het verhaal klopte. Het is alsof je een filmrecensie schrijft die alleen zegt: "De kleuren zijn mooi," maar vergeet te zeggen of de hoofdpersoon wel doet wat hij moet doen in het verhaal.

De auteurs van dit paper (uit ICLR 2026) zeggen: "Stop met alleen kijken naar de foto's. Laten we kijken naar het verhaal!" Ze hebben een nieuwe testbed (een benchmark) bedacht die ze NarrLV noemen.

🍎 De "Temporale Narratieve Atoma" (TNA): Het Blokje van het Verhaal

Hoe meet je of een verhaal "rijk" is? De auteurs hebben een slimme term bedacht: de TNA (Temporale Narrative Atom).

De Vergelijking: Denk aan een TNA als een enkel LEGO-blokje in een bouwwerk.
- Als je zegt: "Een man loopt," is dat 1 blokje (1 TNA).
- Als je zegt: "Een man loopt, stopt, en rent weg," zijn dat 3 blokjes (3 TNAs).
- Hoe meer blokjes (TNAs) je hebt, hoe complexer en rijker het verhaal is.

De meeste oude tests (zoals VBench) gaven de AI alleen maar simpele opdrachtjes met 1 of 2 blokjes. Dat is makkelijk voor de AI, maar het leert je niets over hoe goed ze een echte film kunnen maken. NarrLV daarentegen geeft opdrachtjes met 5, 6 of zelfs meer blokjes achter elkaar.

🎭 De Drie Delen van de Test

Om te testen of de AI een goed verhaal kan vertellen, hebben ze de test opgedeeld in drie delen, net als bij het kijken naar een film:

De Elementen (Fidelity):
- Vraag: Zie je de dingen die er zouden moeten zijn?
- Vergelijking: Als de opdracht is "Een man in een rode jas op een fiets," en de AI maakt een video van een vrouw in een blauwe jurk, dan faalt deze test. De AI moet de basisstukken (de "ingrediënten") goed hebben.
De Dekking (Coverage):
- Vraag: Zie je alle gebeurtenissen die in de opdracht stonden?
- Vergelijking: Als de opdracht is: "De man loopt, stopt, en rent," maar de video toont alleen het lopen en het stoppen, dan is de dekking onvolledig. De AI heeft een stukje van het verhaal "vergeten".
De Samenhang (Coherence):
- Vraag: Gaat het verhaal logisch van A naar B?
- Vergelijking: Dit is het moeilijkst. Stel je voor dat de AI een film maakt waar de man eerst loopt, en dan plotseling in de lucht zweeft zonder reden. De "overgang" is raar. NarrLV kijkt of de AI de overgangen tussen de blokjes (de TNAs) soepel kan laten verlopen, alsof het een echte filmregisseur is.

🤖 Hoe werkt de test eigenlijk?

Ze hebben een slimme machine gebouwd die dit automatisch doet:

De Opdrachtgever (LLM): Een slimme tekst-AI (zoals GPT-4) bedenkt duizenden creatieve verhalen met verschillende aantallen blokjes (TNAs).
De Maker: De video-AI's (zoals Wan, Hunyuan, FreeNoise) proberen deze verhalen te maken.
De Criticus (MLLM): Een andere slimme AI (een "Multimodal Large Language Model") kijkt naar de gegenereerde video en beantwoordt vragen als een filmcriticus.
- Voorbeeldvraag: "Zie je de man die van de fiets springt?"
- Antwoord: Ja/Nee (of een percentage).

Deze "Criticus" kijkt niet één keer, maar vijf keer naar dezelfde video om zeker te weten dat het antwoord betrouwbaar is (net als een jury die drie keer stemt om een fout te voorkomen).

📉 Wat hebben ze ontdekt? (De Resultaten)

Toen ze alle populaire video-AI's op deze test zetten, kwamen ze tot interessante conclusies:

De "Korte Film" vs. "Lange Film": De AI's zijn goed in het maken van de basis (de ingrediënten). Als je zegt "Een hond," maken ze een hond. Maar zodra je zegt "Een hond loopt, stopt, en blaast op een hoorn," beginnen ze in de war te raken.
Het "Vergeten" Probleem: Hoe langer het verhaal (hoe meer TNAs), hoe meer de AI details vergeet. Het is alsof je iemand iets vertelt en na drie zinnen vergeet hij het begin al.
De Basis is Koning: De langere video's worden gemaakt door de "korte" video's (de basismodellen) een beetje aan te passen. Als de basis slecht is in verhalen, is de lange versie ook slecht. Je kunt een slechte bakker niet een betere taart laten bakken door de oven groter te maken.
Actie is lastig: AI's zijn goed in het veranderen van de achtergrond (bijv. van dag naar nacht), maar heel slecht in het laten veranderen van acties (bijv. iemand die eerst loopt en dan rent).

🏁 Conclusie

NarrLV is als een nieuwe, strenge filmcriticus die niet meer vraagt: "Is het beeld mooi?" maar vraagt: "Vertelt dit verhaal iets zinnigs, en klopt de volgorde?"

Het paper laat zien dat we nog een lange weg te gaan hebben voordat AI's echte, lange films met complexe verhalen kunnen maken. Maar met deze nieuwe meetlat weten we nu precies waar de zwakke plekken zitten, zodat onderzoekers die kunnen verbeteren.

Kortom: We zijn niet meer alleen op zoek naar mooie plaatjes, maar naar goede regisseurs. 🎬🚀

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Met de snelle ontwikkeling van fundamentele video-generatiemodellen is de focus verschoven van het genereren van korte clips naar lange video-generatie. Hoewel bestaande modellen (zoals Wan, CogVideoX) steeds langere video's kunnen produceren, ontbreekt het aan geschikte evaluatiebenchmarks om de narratieve expressie in deze langere video's te beoordelen.

Huidige tekortkomingen: Bestaande benchmarks (zoals VBench, TC-Bench) gebruiken vaak prompts met slechts één of twee narratieve eenheden (bijv. "een persoon rijdt op een fiets"). Deze zijn te simpel om de complexiteit van langere video's te testen, waar rijkere verhalen en meerdere opeenvolgende gebeurtenissen nodig zijn.
Het doel: Er is een behoefte aan een benchmark die specifiek is ontworpen om te evalueren hoe goed modellen complexe, tijd-gebaseerde verhalen kunnen genereren met meerdere narratieve elementen die logisch op elkaar volgen.

Methodologie: NarrLV Framework

De auteurs stellen NarrLV voor, een nieuwe benchmark die is geïnspireerd op de filmnarratologie. Het framework bestaat uit drie kerncomponenten:

1. Temporal Narrative Atom (TNA)

Om narratieve rijkheid kwantitatief te meten, definiëren de auteurs de Temporal Narrative Atom (TNA).

Definitie: De kleinste narratieve eenheid die een continue visuele presentatie in een video behoudt.
Aantal TNA's: Het aantal TNA's in een prompt fungeert als maatstaf voor de rijkdom van het verhaal. Een prompt met 5 TNA's beschrijft bijvoorbeeld een reeks opeenvolgende acties of veranderingen, terwijl een prompt met 1 TNA slechts één statische scène beschrijft.
Factoren: Op basis van filmtheorie (6D-principes) identificeren ze drie factoren die het aantal TNA's beïnvloeden:
1. Scène-attributes (bijv. verandering van dag naar nacht).
2. Object-attributes (bijv. verandering van kleur of vorm).
3. Object-acties (bijv. een reeks bewegingen).

2. Uitbreidbare Prompt Suite (Automatische Generatie)

In plaats van handmatig prompts te schrijven, hebben de auteurs een automatische prompt-generatiepijplijn ontwikkeld met behulp van Large Language Models (LLM's).

Data: Ze gebruiken datasets zoals VideoUFO en DropletVideo om een uitgebreide verzameling "scène-object"-paren te extraheren.
Generatie: Voor een gegeven scène en object kan de LLM prompts genereren met een flexibel aantal TNA's (van 1 tot 6 in de experimenten) en variërende verandervactoren. Dit zorgt voor een breed scala aan testcases, van simpele tot zeer complexe verhalen.

3. Progressieve Evaluatiemetric (MLLM-based)

Om de gegenereerde video's te evalueren, gebruiken ze een MLLM-gebaseerd vraag- en antwoordframework (Multi-Modal Large Language Model). De evaluatie vindt plaats op drie progressieve niveaus:

Narrative Element Fidelity ( $R_{fid}$ ): Beoordeelt of de basis-elementen (scène, objecten, attributen) correct zijn gegenereerd.
Narrative Unit Coverage ( $R_{cov}$ ): Beoordeelt of alle specifieke TNA's (gebeurtenissen) uit de prompt in de video voorkomen.
Narrative Unit Coherence ( $R_{coh}$ ): Beoordeelt of de overgangen tussen opeenvolgende TNA's logisch en vloeiend zijn.

Implementatie: Het MLLM genereert specifieke ja/nee-vragen op basis van de prompt en beantwoordt deze voor de gegenereerde video. Om onzekerheid te minimaliseren, wordt het model vijf keer geïnterviewd per vraag en wordt de meerderheidsuitslag gebruikt.

Belangrijkste Bijdragen

Eerste Narratieve Benchmark: NarrLV is de eerste benchmark die specifiek is ontworpen om de narratieve expressie van lange video-generatiemodellen te evalueren, in plaats van alleen visuele kwaliteit of korte clips.
Theoretisch Onderbouwd Framework: Het introduceert het concept van de "Temporal Narrative Atom" (TNA) en koppelt dit aan filmtheorie, waardoor narratieve complexiteit kwantificeerbaar wordt.
Automatisering en Schaalbaarheid: De pipeline voor promptgeneratie en evaluatie is volledig geautomatiseerd en schaalbaar, waardoor het mogelijk is om modellen te testen op een breed scala aan narratieve complexiteiten.
Menselijke Alignering: De ontwikkelde metrics tonen een hoge correlatie met menselijke oordelen, wat bewezen wordt door uitgebreide menselijke annotatie.

Experimentele Resultaten

De auteurs hebben NarrLV gebruikt om zowel fundamentele video-modellen (bijv. Wan2.1, HunyuanVideo) als gespecialiseerde lange video-modellen (bijv. FreeNoise, RIFLEx, FIFO-Diffusion) te evalueren.

Afname in prestaties bij complexiteit: Naarmate het aantal TNA's in de prompt toeneemt, daalt de prestatie van de modellen aanzienlijk op het gebied van Coverage en Coherence. Modellen kunnen basis-elementen vaak goed genereren, maar falen bij het construeren van een logisch evoluerend verhaal.
Beperkte narratieve capaciteit: De meeste huidige modellen kunnen effectief slechts 1 of 2 TNA's per prompt verwerken. Boven dit aantal neemt de kwaliteit van de narratieve eenheid drastisch af.
Invloed van het Fundamentele Model: Lange video-modellen die zijn gebaseerd op hetzelfde fundamentele model (bijv. VideoCraft) vertonen vergelijkbare narratieve beperkingen. Dit suggereert dat de basisarchitectuur de bovengrens bepaalt voor narratieve expressie, ongeacht de toegevoegde modules voor langere duur.
Actie vs. Attributen: Modellen presteren beter bij het genereren van initiële object-acties dan bij het handhaven van diverse actievariaties of complexe attribuutveranderingen over tijd.

Betekenis en Impact

Standaardisatie: NarrLV biedt een gestandaardiseerde manier om de "verhaalkracht" van video-AI te meten, wat essentieel is voor toepassingen in filmproductie, simulatie en educatie.
Richtinggevend voor Onderzoek: De resultaten tonen duidelijk aan dat het simpelweg verlengen van video's niet genoeg is; de volgende stap in onderzoek moet gericht zijn op het verbeteren van de temporale consistentie en narratieve coherentie.
Betrouwbaarheid: Omdat de metrics sterk overeenkomen met menselijke voorkeuren, kan NarrLV dienen als een betrouwbaar hulpmiddel voor de gemeenschap om toekomstige modellen te vergelijken en te verbeteren zonder afhankelijk te zijn van tijdrovende menselijke evaluaties.

Kortom, NarrLV vult een kritieke leemte in het veld van video-generatie door de focus te verleggen van "hoe lang is de video?" naar "hoe goed wordt het verhaal verteld?".