Unified Reward Model for Multimodal Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme groep kunstenaars hebt die foto's en video's maken, en een groep detectives die deze beelden moeten analyseren. De uitdaging is: hoe leer je deze kunstenaars om betere werken te maken, en hoe leer je de detectives om eerlijker en slimmer te oordelen?

Tot nu toe hadden we voor elke taak een aparte "jury". Er was een jury die alleen keek naar of een foto mooi was, een andere die alleen keek of een video logisch was, en weer een andere die alleen keek of een kunstenaar de opdracht goed had begrepen. Dit was inefficiënt en soms verwarrend.

Dit paper introduceert UnifiedReward (Universele Beloning), een slimme oplossing die alles in één pakketje doet. Hier is hoe het werkt, vertaald naar alledaags taal:

1. De "Super-Jury" (Het Unified Reward Model)

Stel je voor dat je in plaats van drie aparte juryleden, één super-superjury hebt. Deze persoon is niet alleen een expert in het beoordelen van foto's, maar ook in het maken van video's, het begrijpen van verhalen in beelden en het detecteren van fouten.

Hoe werkt het? De onderzoekers hebben deze superjury getraind met een enorme verzameling van menselijke meningen over alles: van "is deze foto mooi?" tot "begrijpt deze AI wat er op de video gebeurt?".
Het geheim: Door deze jury alles tegelijk te laten leren, gebeurt er iets magisch. Als de jury beter wordt in het begrijpen van een verhaal in een foto, wordt hij ook beter in het beoordelen van of een gegenereerde foto dat verhaal goed weergeeft. Het is alsof een chef-kok die beter wordt in het proeven van ingrediënten, ook automatisch betere recepten bedenkt. De vaardigheden versterken elkaar.

2. De "Dubbele Filter" (Het Bouwen van de Leerstof)

Nu we deze superjury hebben, willen we hem gebruiken om de kunstenaars (de AI-modellen) te verbeteren. Maar hoe kies je de beste voorbeelden om te leren?

De auteurs gebruiken een slimme tweestaps-filter:

Stap 1: De Wedstrijd (Pair Ranking). De AI maakt 10 verschillende versies van een foto of video. De superjury kijkt naar twee versies en zegt: "Deze is beter dan die." Dit sorteert de goede van de slechte.
Stap 2: De Kwaliteitscontrole (Point Sifting). Nu heeft de jury nog steeds een lijst met "goede" versies. Maar welke is echt de allerbeste? De jury geeft nu een cijfer (een score) aan elke versie. De versie met het hoogste cijfer wordt de "winnaar" en de versie met het laagste cijfer de "verliezer".

Dit zorgt ervoor dat de AI niet zomaar leert van willekeurige voorbeelden, maar van de allerbeste en de aller slechtste voorbeelden die er zijn.

3. De "Oefensessie" (DPO - Direct Preference Optimization)

Met deze perfecte lijst van "winnaars" en "verliezers" gaan we de kunstenaars trainen.

De AI ziet de winnaar en de verliezer en krijgt de opdracht: "Probeer te doen wat de winnaar deed, en vermijd wat de verliezer deed."
Dit proces heet Direct Preference Optimization (DPO). Het is alsof je een student niet vertelt hoe je een som moet oplossen, maar hem twee antwoorden laat zien en zegt: "Dit antwoord is correct, dat is fout. Leer van het verschil."

Waarom is dit zo speciaal?

Vroeger moest je een AI trainen om alleen foto's te maken, en daarna een andere AI om alleen video's te begrijpen. Ze leerden niet van elkaar.

Met UnifiedReward is het alsof je een multitalent hebt.

Als de AI leert om een video beter te begrijpen (bijvoorbeeld: "die man rent naar de trein"), helpt die kennis hem ook om een foto van die man te beoordelen.
Als de AI leert om een mooie foto te maken, helpt die kennis hem om te begrijpen of een video logisch is.

Kortom:
Dit paper zegt: "Laten we stoppen met het maken van gespecialiseerde, beperkte jury's. Laten we één slimme, veelzijdige jury maken die van alles kan. Door alles tegelijk te leren, worden we overal beter in, en kunnen we AI-modellen sneller en slimmer trainen om te voldoen aan wat mensen echt willen zien."

Het is de overstap van een "specialist" naar een "alleskunner" die door zijn brede kennis op elk gebied een meester wordt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige staat van de kunst op het gebied van menselijke voorkeursuitlijning (human preference alignment) heeft aanzienlijke vooruitgang geboekt in multimodale generatie en begrip. Echter, bestaande aanpakken kampen met twee fundamentele beperkingen:

Taak-specifieke beperking: Bestaande reward modellen zijn vaak ontworpen voor specifieke taken (bijvoorbeeld alleen voor beeldgeneratie of alleen voor video-begrip). Dit beperkt hun aanpasbaarheid en generalisatie over diverse visuele toepassingen.
Gebrek aan synergie: Er wordt aangenomen dat visuele taken inherent met elkaar verbonden zijn. Een model dat meerdere taken leert te beoordelen, zou een wederkerig versterkend effect kunnen hebben (bijv. beter beeldbegrip leidt tot betere beoordeling van beeldgeneratie, en betere beeldbeoordeling verbetert videobeoordeling). Bestaande modellen missen deze cross-task synergie omdat ze gescheiden worden getraind.
Data-efficiëntie: Het verzamelen van grote hoeveelheden menselijke feedback is tijdrovend en duur. Er is behoefte aan een methode die synthetische voorkeursdata van hoge kwaliteit kan genereren om modellen te trainen zonder constante menselijke tussenkomst.

Methodologie: UnifiedReward

De auteurs stellen UNIFIEDREWARD voor, het eerste unified reward model dat zowel multimodale begrip (understanding) als generatie (generation) voor zowel afbeeldingen als video's beoordeelt. Het systeem werkt via een drie-staps pijplijn:

1. Unified Reward Model Training

Dataset Constructie: De auteurs hebben een groot, unificerend menselijk voorkeursdataset samengesteld van ongeveer 236.000 samples. Deze dataset dekt vier domeinen: beeldgeneratie, beeldbegrip, videogeneratie en videobegrip.
Architectuur: Het model is gebaseerd op een voorgeöefend Vision-Language Model (VLM), specifiek LLaVA-OneVision 7B. In plaats van het model vanaf nul te leren evalueren, wordt het aangepast om beoordeling als een extra discriminatieve vaardigheid te integreren.
Trainingsstrategie: Het model wordt getraind op twee soorten taken:
- Pairwise Ranking: Het kiezen van het beste antwoord uit een paar opties.
- Pointwise Scoring: Het toekennen van een absolute score aan een enkel antwoord.
  Het model leert zowel relatieve vergelijkingen als absolute kwaliteitsbeoordelingen, en genereert indien nodig uitleg voor zijn oordelen.

2. Constructie van Voorkeursdata (Preference Data Construction)
Om de uitdaging van het gebrek aan menselijke data voor nieuwe modellen op te lossen, gebruiken ze UnifiedReward om automatisch hoge kwaliteit voorkeursdata te genereren uit de output van bestaande visuele modellen (zoals VLMs en Diffusion-modellen). Dit gebeurt in een tweestapsstrategie:

Stap 1: Pair Ranking (Paar Ranking): Uit een set van $N$ gegenereerde outputs worden paren gevormd en gerangschikt door UnifiedReward. Dit resulteert in een lijst van "gekozen" (chosen) en "afgewezen" (rejected) items.
Stap 2: Point Sifting (Punt Sifting): Op de overgebleven "gekozen" en "afgewezen" lijsten worden absolute scores toegekend. Het uiteindelijke voorkeurspaar wordt gedefinieerd als het item met de hoogste score uit de gekozen lijst en het item met de laagste score uit de afgewezen lijst.
Deze combinatie zorgt voor robuustere en betrouwbaardere trainingsdata dan alleen ranking of alleen scoring.

3. Model Uitlijning (Model Alignment)
De gegenereerde voorkeursdata wordt gebruikt om visuele modellen te aligneren met menselijke voorkeuren via Direct Preference Optimization (DPO):

Voor generatiemodellen (Diffusion): De loss functie minimaliseert het denoising-fout voor geprefereerde samples en maximaliseert deze voor minder geprefereerde samples.
Voor begripsmodellen (VLMs): De loss functie verhoogt de waarschijnlijkheid van geprefereerde antwoorden en verlaagt die voor minder geprefereerde antwoorden.

Belangrijkste Bijdragen

Eerste Unified Reward Model: UnifiedReward is het eerste model dat in staat is om zowel beeld- als video-taken voor zowel begrip als generatie te beoordelen, ondersteunend voor zowel paar-ranking als punt-scorings.
Universele Pijplijn: Ze presenteren een generieke pijplijn voor voorkeursuitlijning die werkt voor zowel begrips- als generatiemodellen, een gebied dat eerder onderbelicht was.
Synergie van Multi-task Learning: Ze tonen aan dat het gezamenlijk leren van diverse visuele taken leidt tot wederzijdse verbeteringen. Het leren van beeldgeneratie verbetert bijvoorbeeld de beoordeling van beeldbegrip en vice versa.
Groot Dataset: De constructie van een schaalbaar, unificerend dataset van 236K samples dat diverse visuele taken bestrijkt.

Resultaten

Experimentele resultaten tonen overtuigende verbeteringen in alle domeinen:

Reward Model Performance: UnifiedReward presteert significant beter dan state-of-the-art baselines (zoals LLaVA-Critic, PickScore, VideoScore) op benchmarks zoals VLRewardBench, GenAI-Bench en ShareGPTVideo. Het behaalt bijvoorbeeld een macro-accuracy van 66,5% op beeldbegrip, wat hoger is dan gespecialiseerde modellen.
Synergie-effect: Ablatiestudies tonen aan dat het gezamenlijk trainen op beeld- en videotaken leidt tot betere prestaties dan het trainen op een enkele taak, zelfs wanneer het aantal trainingsstappen wordt aangepast (budget-matched control). Dit bewijst dat de verbetering komt door cross-task synergie en niet alleen door meer data.
DPO Uitlijning: Toepassing van DPO met UnifiedReward leidt tot consistente verbeteringen in:
- Beeldbegrip: Verbetering op benchmarks zoals LLaVABench en MMBench.
- Videobegrip: Significante verbeteringen op MSRVTT, MSVD en TGIF.
- Generatie: Verbeterde kwaliteit en semantische consistentie in zowel afbeeldingen (SDXL-Turbo) als video's (T2V-Turbo).
Robuustheid: Het model werkt goed op verschillende backbones (LLaVA-OneVision en Qwen2.5-VL) en is ook toepasbaar op GRPO (Group Relative Policy Optimization) voor FLUX.1-dev.

Betekenis en Impact

Dit werk markeert een belangrijke verschuiving in de ontwikkeling van reward modellen voor multimodale AI. Door de silo's tussen verschillende visuele taken (beeld vs. video, begrip vs. generatie) te doorbreken, bewijst UnifiedReward dat een geïntegreerde aanpak niet alleen efficiënter is (één model voor alles), maar ook effectiever door het benutten van synergie tussen taken.

De voorgestelde pijplijn vermindert de afhankelijkheid van dure menselijke annotaties door het gebruik van een geavanceerd reward model voor het automatisch genereren van hoogwaardige trainingsdata. Dit maakt het mogelijk om visuele modellen sneller en beter te aligneren met menselijke voorkeuren, wat essentieel is voor de ontwikkeling van betrouwbare en veilige multimodale AI-systemen. De openbaarmaking van de code en dataset (via de projectpagina) zal de gemeenschap verder stimuleren tot onderzoek in dit domein.

Unified Reward Model for Multimodal Understanding and Generation

1. De "Super-Jury" (Het Unified Reward Model)

2. De "Dubbele Filter" (Het Bouwen van de Leerstof)

3. De "Oefensessie" (DPO - Direct Preference Optimization)

Waarom is dit zo speciaal?

Probleemstelling

Methodologie: UnifiedReward

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation