Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij maakt, en je hebt een criticus die je telkens een cijfer geeft voor je werk.

In de oude manier van werken (wat de auteurs GRPO noemen), gaf de criticus het hele schilderij één enkel cijfer. Als er één klein vlekje op de neus van de portretfiguur verkeerd zat, maar de rest was perfect, kreeg het hele schilderij een lagere score. De kunstenaar wist dan niet waar hij moest verbeteren. Hij moest het hele schilderij opnieuw doen, wat vaak leidde tot rare fouten: misschien werd de neus beter, maar verdween de mond of veranderde de achtergrond in een warboel. Het was alsof je een heel huis moet herbouwen omdat er één losse tegel in de keuken zit.

De auteurs van dit paper, ViPO, zeggen: "Dit is niet slim. Mensen kijken niet naar een plaatje als één groot blok. We kijken naar details. We letten op de ogen, de handen, de beweging."

Hier is hoe hun nieuwe methode werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Grote Cijfer"-Methode

Tot nu toe behandelden computers een foto of video als één enkel, onbreekbaar blok. Als de computer een video van een dansende pop maakte, en de pop deed het goed maar de achtergrond zag er raar uit, kreeg de hele video een gemiddelde score. De computer leerde dan niet specifiek de achtergrond te verbeteren; hij probeerde alles een beetje te verbeteren, wat vaak resulteerde in vervormde ledematen of vreemde objecten.

2. De Oplossing: ViPO (De "Gedetailleerde Criticus")

ViPO is als een slimme criticus die niet alleen een cijfer geeft, maar een kaartje tekent op je schilderij.

De Oude Weg: "Je schilderij is een 6/10."
De ViPO Weg: "Je schilderij is een 6/10, maar kijk hier: de neus van de persoon is een 9/10 (perfect), maar de handen zijn een 2/10 (slecht) en de achtergrond is een 4/10."

3. Hoe werkt het? (De Magische Kaart)

De auteurs hebben een speciaal hulpmiddel bedacht, de Perceptual Structuring Module (PSM). Je kunt dit zien als een X-ray bril of een magnetische kompas.

Deze "bril" kijkt naar de foto en zegt: "Hier is een gezicht, dat is belangrijk. Hier is de lucht, dat is minder belangrijk. Hier is een dansende paard, dat is heel belangrijk."
Het maakt een warmtekaart (een kaartje met rode en blauwe plekken). Rood betekent: "Hier moet je je best doen!" Blauw betekent: "Hier is het al goed, laat het rustig."

4. Het Resultaat: Focussen op wat telt

Wanneer de computer nu leert, kijkt hij niet meer naar het hele plaatje, maar naar die kaart.

Als er een fout is in de ogen van een persoon, krijgt de computer een sterke signaal: "Fix de ogen!"
Als er een fout is in de lucht op de achtergrond, krijgt hij een zwak signaal: "Maak het niet zo'n probleem."

Dit zorgt ervoor dat de computer niet meer "in de war" raakt. Hij bouwt niet meer het hele huis om een losse tegel te repareren; hij repareert gewoon die ene tegel, terwijl de rest van het huis perfect blijft staan.

Waarom is dit cool?

Bij foto's: De mensen op de foto zien er realistischer uit. Geen dubbele armen of verdwenen neuzen meer.
Bij video's: Als een paard rent, bewegen de benen natuurlijk. Bij de oude methode konden de benen soms "glitchen" of verdwijnen omdat de computer niet wist welke beweging belangrijk was.
Flexibel: Het werkt voor zowel foto's als video's en is makkelijk toe te voegen aan bestaande systemen.

Kortom:
ViPO leert computers om te kijken zoals mensen kijken: niet naar het geheel als één saaie massa, maar naar de belangrijke details. Het is alsof je van een blinddoek afhaalt en de kunstenaar eindelijk precies weet waar hij moet werken om een meesterwerk te maken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Reinforcement Learning (RL), en specifiek Group Relative Policy Optimization (GRPO), is een krachtige methode geworden om visuele generatiemodellen (zoals diffusion- en flow-based modellen) af te stemmen op menselijke voorkeuren. Echter, de bestaande GRPO-pijplijnen hebben een fundamenteel tekortkoming bij visuele data:

Scalar Reward: Bestaande methoden toekennen één enkel scalair (getal) voor elke gegenereerde afbeelding of video. Hierdoor wordt het visuele materiaal behandeld als een holistisch geheel.
Gebrek aan Ruimtelijke en Temporele Structuur: Deze benadering negeert de rijke ruimtelijke (binnen een afbeelding) en temporele (binnen een video) structuur. Niet alle pixels dragen evenveel bij aan de perceptuele kwaliteit; sommige gebieden (zoals een gezicht of een bewegend object) zijn cruciaal, terwijl andere (zoals een uniforme achtergrond) minder belangrijk zijn.
Gevolgen: Deze grove supervisie leidt tot ongedifferentieerde gradiënten. Het model kan lokale artefacten niet corrigeren en negeert fijne perceptuele aanwijzingen, wat resulteert in suboptimale output die soms semantisch inconsistent is of visuele artefacten bevat.

Methodologie: Visual Preference Policy Optimization (ViPO)

Om deze beperkingen te overwinnen, stellen de auteurs ViPO voor. Dit is een variant van GRPO die scalair feedback omzet in gestructureerde, pixel-level voordelen (advantages). De kern van de methode bestaat uit drie onderdelen:

Perceptual Structuring Module (PSM):
- Deze module gebruikt een vooraf getrainde visuele backbone (zoals DINOv2, SAM of ResNet) om visuele voorkeursaanwijzingen te extraheren.
- Visual Preference Extractor (VPE): Genereert feature embeddings die ruimtelijke organisatie en hoog-level semantiek vastleggen.
- Visual Preference Allocator (VPA): Reduceert de dimensie van deze features en aggregeert ze tot een toewijzingskaart (allocation map). Deze kaart weerspiegelt de perceptuele relevantie van verschillende gebieden in de afbeelding of video.
- Het proces vereist geen pixel-voor-pixel annotaties; het leunt op de inherente perceptuele kennis van de vooraf getrainde modellen.
Gestructureerde Voordeeltoewijzing:
- In plaats van één scalair voordeel ( $A_i$ ) voor een hele sample, vermenigvuldigt ViPO dit scalair voordeel met de perceptuele toewijzingskaart ( $M$ ).
- Dit resulteert in een ruimtelijk opgelost voordeel ( $A^p_i = M(p) \cdot A_i$ ) voor elke positie $p$ in de latent space.
- Hierdoor wordt de optimalisatiedruk herverdeeld: gebieden met hoge perceptuele relevantie krijgen zwaardere gradiënten, terwijl minder belangrijke gebieden minder beïnvloed worden.
Doelfunctie:
- De ViPO-doelfunctie past de standaard GRPO-objective aan door de som over tijd en ruimte te nemen, waarbij elke positie zijn eigen gewogen voordeel krijgt. Dit behoudt de stabiliteit van GRPO maar voegt fijnmazige, semantisch bewuste optimalisatie toe.

Belangrijkste Bijdragen

ViPO Framework: Een nieuw GRPO-variant ontworpen specifiek voor visuele contentgeneratie, die de representatie van voordelen herschrijft om ruimtelijke en temporele structuren te benutten.
Perceptual Structuring Module (PSM): Een module die perceptuele relevantie extrahert uit bestaande visuele backbones, waardoor voordeelherverdeling mogelijk is zonder dure, dichte annotaties.
Verbeterde Generalisatie en Kwaliteit: Demonstratie dat ViPO niet alleen in-domein prestaties verbetert, maar ook robuuster is bij out-of-domain evaluaties vergeleken met standaard GRPO.

Resultaten

De auteurs hebben ViPO getest op zowel beeld- als videogenereermodellen (respectievelijk FLUX.1-dev en Wan2.1) en vergeleken met de state-of-the-art DanceGRPO.

Kwantitatieve Resultaten:
- Beeldgeneratie: ViPO (met name de variant met DINOv2 als backbone) overtrof consistent DanceGRPO en de basis-FLUX op metrics zoals HPSv2.1, PickScore en ImageReward, zowel binnen als buiten het trainingsdomein.
- Videogenereatie: ViPO verbeterde significant de visuele kwaliteit (VQ) en bewegingskwaliteit (MQ) op de VBench-metrics, en behaalde hogere scores op semantische consistentie en algemene kwaliteit.
Kwalitatieve Resultaten:
- ViPO produceerde realistischere en gedetailleerdere resultaten. Waar DanceGRPO soms semantische fouten introduceerde (bijv. een onnatuurlijk geplaatste biet naast een persoon of verdubbelde objecten), behield ViPO de semantische integriteit.
- In video's toonde ViPO betere dynamische realisme (natuurlijke beweging van paarden, vloeiend water) zonder structurele artefacten zoals gebroken ledematen.
Robuustheid: Bij een "roodheid-reward" (een regelgebaseerde reward die de rode kleur maximaliseerde), degradeerde DanceGRPO snel tot onherkenbare vormen, terwijl ViPO de semantische structuur (het gezicht van het meisje) behield, zelfs als de kleuren veranderden. Dit toont aan dat ViPO minder gevoelig is voor globale gradiëntinstorting.

Betekenis en Impact

ViPO vertegenwoordigt een belangrijke stap voorwaarts in het afstemmen van generatieve AI op menselijke perceptie.

Van Holistisch naar Gestructureerd: Het paper beweert dat de "one-size-fits-all" benadering van RL voor visuele data ontoereikend is. Door de "credit assignment" (toewijzing van verdiensten) te differentiëren op basis van perceptuele relevantie, kan het model leren wat er werkelijk toe doet in een afbeelding.
Architectuur-onafhankelijk: De methode is lichtgewicht en compatibel met bestaande GRPO-pijplijnen, waardoor het direct toepasbaar is op diverse generatieve modellen.
Toekomstperspectief: ViPO opent de deur voor meer geavanceerde, gebiedsgerichte beleidsleer (region-aware policy learning) en gestructureerde feedback in hoogdimensionale generatietaken, wat essentieel is voor het creëren van visueel overtuigende en semantisch consistente content.

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

1. Het Probleem: De "Grote Cijfer"-Methode

2. De Oplossing: ViPO (De "Gedetailleerde Criticus")

3. Hoe werkt het? (De Magische Kaart)

4. Het Resultaat: Focussen op wat telt

Waarom is dit cool?

Probleemstelling

Methodologie: Visual Preference Policy Optimization (ViPO)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation