Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een pasgeboren kunstenaar bent die net een magische pen heeft gevonden die films maakt op basis van wat je tegen hem zegt. Soms zijn die films prachtig, maar soms zijn ze raar: een fietser die door de lucht zweeft, een gezicht dat vervormt, of een scène die totaal niet past bij wat je hebt gevraagd.

De auteurs van dit paper, Q-Save, zeggen: "Hoe kunnen we deze kunstenaar helpen om beter te worden?" Om dat te doen, hebben ze twee dingen gebouwd: een groot testlab en een slimme beoordelaar.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Blinde" Beoordelaar

Vroeger keken computers naar AI-video's alsof ze door een sleutelgat keken. Ze zagen misschien wel of een plaatje scherp was, maar ze snapten niet of de beweging logisch was, of de film paste bij de tekst, of de actie natuurlijk leek. Het was alsof je een film beoordeelt op basis van slechts twee frames.

2. De Oplossing: Q-Save (De "Kwaliteits-Spaarbus")

De auteurs hebben een nieuw systeem bedacht dat we Q-Save noemen. Het werkt als een super-sterke, eerlijke jury die drie dingen tegelijk bekijkt:

De Kwaliteit van het Beeld (Visueel): Is het beeld scherp? Zien we rare vlekken of vervormingen? (Net als kijken of een schilderij netjes is ingelijst).
De Beweging (Dynamisch): Beweegt het logisch? Als een bal rolt, rolt hij dan echt of glijdt hij raar over de grond? (Net als kijken of een danser soepel beweegt of struikelt).
De Match met de Tekst (Alignement): Als je vraagt om "een kat die op een skateboard rijdt", krijg je dan een kat op een skateboard, of een hond die loopt? (Net als een bestelling bij een restaurant: als je pasta bestelt, krijg je dan pizza?).

3. De "Testbus" (Het Dataset)

Om deze jury te trainen, hebben ze 10.000 video's gemaakt met de slimste AI's van dit moment. Maar ze hebben niet alleen gekeken; ze hebben ook mensen ingeschakeld.

Mensen keken naar de video's en gaven een cijfer (van 1 tot 5).
Het nieuwe idee: Als een video een slecht cijfer kreeg, moesten de mensen ook uitleggen waarom. "De beweging is raar" of "De tekst klopt niet".
Dit is alsof je een leraar niet alleen een cijfer geeft, maar ook een rood potlood gebruikt om de fouten in de zin te markeren. Zo leert de computer niet alleen wat fout is, maar ook waarom.

4. De "Slimme Jury" (Het Model)

Ze hebben een computermodel getraind (op basis van een slimme AI genaamd Qwen) om deze video's te beoordelen. Maar ze hebben het slim aangepakt:

De SlowFast-methode: Stel je voor dat je een video bekijkt. Soms gebeurt er niets (een rustig landschap), soms gebeurt er heel veel (een ontploffing).
- De oude methoden keken naar elke seconde evenveel.
- Q-Save gebruikt een SlowFast-strategie: Het kijkt heel langzaam en gedetailleerd naar de spannende momenten (de "Slow" frames) en snel naar de rustige momenten (de "Fast" frames). Zo bespaart het energie, maar mist het geen enkele fout.
De Drie-Stappen Training:
1. Leren (SFT): De computer leert eerst de basisregels van beoordelen.
2. Oefenen met Feedback (RL): De computer krijgt een "rewardsysteem" (net als in een game). Als hij een goede beoordeling geeft, krijgt hij een punt. Als hij fouten maakt, moet hij het opnieuw proberen.
3. Stabiliseren (Cool-down): Om te voorkomen dat de computer te wild gaat doen, wordt hij nog een keer rustig getraind om zijn antwoorden consistent en betrouwbaar te houden.

5. Waarom is dit belangrijk?

Vroeger was het moeilijk om te weten welke AI-filmgenerator het beste was. Nu hebben we Q-Save, dat:

Betrouwbare cijfers geeft (geen gissen).
Uitleg geeft (je weet precies wat er mis is).
De AI's zelf kan helpen verbeteren. Als je de "slimme jury" gebruikt om de kunstenaar (de video-generator) te belonen voor goede films, wordt de kunstenaar vanzelf beter.

Kortom: Q-Save is als een meester-kritieker die niet alleen zegt "dit is een slechte film", maar ook uitlegt: "de beweging van de fietser is onnatuurlijk en de tekst klopt niet". Hierdoor kunnen de makers van AI-video's hun producten veel sneller en beter maken.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

De snelle opkomst van generatieve AI voor tekst-naar-video (T2V) heeft geleid tot een overvloed aan gegenereerde content, maar de kwaliteit varieert sterk. Bestaande methoden voor het automatisch evalueren van AI-genereren video's (AIGV) kampen met vijf belangrijke beperkingen:

Gebrek aan systematische definities: Er is geen eenduidige standaard voor de evaluatiedimensies.
Geïsoleerde behandeling: De drie kernaspecten (visuele kwaliteit, dynamische kwaliteit en tekst-video uitlijning) worden vaak door aparte modellen behandeld in plaats van gezamenlijk.
Kwaliteitsproblemen bij datasets: Veel bestaande datasets gebruiken prompts van openbare bronnen (vaak van lage kwaliteit) en ontberen strikte kwaliteitscontrole bij annotatie.
Ontbreken van attributie: De meeste systemen leveren alleen een numerieke score, zonder uitleg waarom een video goed of slecht is. Dit maakt het lastig om interpreteerbare evaluatoren te trainen.
Onvoldoende gebruik van VLM-capaciteiten: Bestaande pipelines gebruiken vaak te spaarzame video-voorbereiding (bijv. slechts 2 frames per seconde) en eenvoudige trainingsstrategieën die de potentie van moderne Vision-Language Models (VLM's) niet volledig benutten.

2. Methodologie

De auteurs introduceren Q-Save, een holistische benchmark en een unificatie-evaluatiemodel dat de volgende componenten omvat:

A. De Q-Save Dataset

Omvang: Bijna 10.000 video's gegenereerd door zes state-of-the-art T2V-modellen (o.a. Kling, Hunyuan, Veo2).
Promptkwaliteit: Prompts zijn handmatig geschreven en geoptimaliseerd voor een gebalanceerde verdeling over categorieën, acties en complexiteit.
Annotatie: Elke video is voorzien van Mean Opinion Scores (MOS) en fine-grained attributie-explanations (uitleg over de oorzaak van kwaliteitsdegradatie) voor drie dimensies:
1. Visuele Kwaliteit: Fidelity, scherpte, artefacten, esthetiek.
2. Dynamische Kwaliteit: Soepelheid, coherentie, fysieke plausibiliteit van beweging.
3. Tekst-Video Uitlijning: Semantische consistentie tussen de prompt en de gegenereerde video.
Kwaliteitscontrole: Strikte protocol met training van annotatoren, pilot-rondes en meerdere rondes van kalibratie. Testdata heeft minimaal 12 annotatoren per video.

B. Model Architectuur en Preprocessing

Backbone: Het model is gebaseerd op Qwen3-VL-8B-Instruct.
SlowFast Preprocessing: Om het token-budget van VLM's te respecteren terwijl dynamische informatie behouden blijft, wordt een SlowFast-strategie toegepast:
- Slow Pathway: Hoogwaardige frames (hoge resolutie) voor momenten met significante veranderingen.
- Fast Pathway: Meer frames met lagere resolutie voor statische momenten om tijdscontext te behouden.
Scoring Methode: Het model voorspelt discrete rating-woorden (Bad, Poor, Fair, Good, Excellent). Een Softmax over deze tokens wordt gebruikt om een verwachte continue score te berekenen, wat onzekerheid vastlegt en stabiliteit biedt.

C. Drie-staps Trainingsstrategie

Om de prestaties te maximaliseren, wordt een hybride trainingspipeline gebruikt:

Supervised Fine-Tuning (SFT) - Cold Start: Leren van basisformaat en instructievolging met Chain-of-Thought (CoT) data. Het model leert eerst een analyse te geven voordat het scoort.
Reinforcement Learning (RL) - Warm Up: Gebruik van Group Relative Policy Optimization (GRPO). Dit stap verbetert de uitlijning met menselijke voorkeuren en vermindert "shortcut"-gedrag. De beloning (reward) is gebaseerd op nauwkeurigheid en het correcte formaat (CoT + score).
SFT - Cool Off: Een laatste ronde van SFT om de stabiliteit te vergroten en variatie te reduceren die door RL kan worden geïntroduceerd, waardoor consistente scores ontstaan.

3. Belangrijkste Bijdragen

Q-Save Dataset: Een hoogwaardige dataset met strikte kwaliteitscontrole en attributie-explanaties die de nauwkeurigheid en interpreteerbaarheid van scores verbetert.
SlowFast Preprocessing: Een aangepaste strategie voor VLM's die tijdsafhankelijke bewijslast beter benut dan traditionele frame-sampling.
Geavanceerde Trainingspipeline: Een SFT $\rightarrow$ RL $\rightarrow$ SFT-strategie die de capaciteiten van moderne VLM's volledig ontsluit voor zowel scoring als attributie.
Unificatie: Een enkel model dat gelijktijdig scores geeft en uitlegt waarom, gedekt door drie kern-dimensies.

4. Resultaten

In-domein Prestaties: Q-Save behaalt state-of-the-art resultaten op de eigen testset voor alle drie de dimensies (Visueel, Dynamisch, Uitlijning), met name op model-niveau (het rangschikken van verschillende generatiemodellen).
Cross-dataset Validatie: Het model toont sterke transferleerprestaties op externe benchmarks zoals VideoGen-RewardBench, T2VQA-DB, en VideoPhy2, zowel voor voorkeur-taken (pairwise) als MOS-correlaties.
Ablatie Studies:
- SlowFast preprocessing verbetert de correlatie op alle dimensies.
- De RL-fase (GRPO) verbetert vooral de consistentie tussen verschillende generatiemodellen (model-level ranking).
- De laatste SFT-fase verhoogt de stabiliteit en vermindert variantie.
Toepassing als Reward Model: Wanneer Q-Save wordt gebruikt als beloningsmodel voor het trainen van T2V-generatoren (via RL), levert het betere resultaten op in menselijke evaluaties dan bestaande reward-modellen zoals HPSv3.

5. Significantie

Q-Save biedt een fundamentele doorbraak in de evaluatie van AI-genereren video's door:

Interpreteerbaarheid: Het verschuift van "zwarte doos" scores naar diagnostische feedback, wat essentieel is voor het verbeteren van generatieve modellen.
Efficiëntie en Nauwkeurigheid: Door de SlowFast-architectuur en de drie-staps training wordt een optimale balans gevonden tussen rekenkosten en prestaties.
Toekomstgerichtheid: De dataset en het model dienen als een robuust fundament voor de ontwikkeling van betrouwbaardere, mens-georiënteerde evaluatiesystemen in het snel evoluerende veld van generatieve video.

Het paper concludeert dat Q-Save niet alleen een betere evaluator is, maar ook een effectief instrument om generatieve modellen zelf te optimaliseren, hoewel ethische overwegingen (zoals bias en misbruik) blijven bestaan en aandacht vereisen.