BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

Each language version is independently generated for its own context, not a direct translation.

BeautyGRPO: De Slimme "Digitale Make-up" die je Gezicht niet Verandert

Stel je voor dat je een foto van jezelf maakt en je wilt er een paar kleine oneffenheden uit hebben: een pukkeltje, een vlekje, of wat vermoeide lijntjes. Maar je wilt ook dat je er nog steeds jij uitziet. Je wilt niet dat je huid eruitziet als plastic, en je wilt je moedervlekken niet kwijtraken.

Vroeger waren de programma's die dit deden, vaak te streng of te slordig. Of ze maakten je huid zo glad dat je eruit zag als een pop (te veel "plastic"), of ze lieten de vlekken gewoon staan.

De onderzoekers van BeautyGRPO hebben een nieuwe, slimme manier bedacht om dit op te lossen. Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Kopieerplaat" vs. De "Gokker"

Stel je voor dat je een schilderij wilt verbeteren.

De oude manier (Supervised Learning): Dit is alsof je een schilderij neemt en probeert het exact na te tekenen op een ander canvas. Je kijkt alleen naar de lijnen en kleuren van het origineel. Het resultaat is vaak saai en star, omdat de computer niet begrijpt wat mooi is, alleen wat gelijk is.
De nieuwe manier (Reinforcement Learning): Dit is alsof je een kunstenaar een opdracht geeft: "Maak het mooier, maar laat het eruitzien als een mens." De kunstenaar probeert van alles. Soms maakt hij een foutje, soms is het perfect. De computer leert van deze pogingen door te vragen: "Zag dit eruit zoals een mens het mooi zou vinden?"

Het probleem met de nieuwe manier was echter dat de kunstenaar te veel "gokte". Hij probeerde te veel nieuwe dingen, waardoor er ruis en vlekken in de foto kwamen. Het was alsof de kunstenaar te veel verf op zijn kwast deed en alles vettig maakte.

2. De Oplossing: BeautyGRPO

BeautyGRPO is de slimme combinatie van deze twee werelden. Het heeft twee superkrachten:

Kracht 1: De "Mooiheids-Expert" (De Reward Model)

Stel je voor dat je een jury hebt van 10.000 mensen die heel goed kunnen kijken naar gezichten. Ze kijken niet alleen naar de hele foto, maar naar details:

Is de huid glad maar nog wel echt?
Zijn de vlekken weg?
Zien de moedervlekken er nog natuurlijk uit?
Is de huid glanzend of juist vettig?

Deze "jury" (die in feite een slimme AI is) heeft een enorme database aangeleerd met voorbeelden van wat mensen mooi vinden. Deze AI fungeert als een mooiheids-expert die elke poging van de computer beoordeelt. Als de computer iets doet dat eruitziet als plastic, zegt de expert: "Nee, dat is niet goed."

Kracht 2: De "Anker-Strategie" (Dynamic Path Guidance)

Dit is het meest creatieve deel. Stel je voor dat je in een mistig landschap loopt (de computer probeert een nieuwe foto te maken). Je wilt een mooie route vinden, maar als je te veel dwingt, loop je de mist in en raak je de weg kwijt (de foto wordt wazig of ruisig).

BeautyGRPO gebruikt een anker.

Het kiest een heel mooi voorbeeld van een gemaakte foto (het anker).
Terwijl de computer probeert nieuwe, betere foto's te maken, houdt het een onzichtbare lijn vast naar dat anker.
Het laat de computer wel vrij om te zoeken naar iets nog mooiers dan het anker, maar het zorgt ervoor dat de computer niet de mist in loopt.

Het is alsof je een touw hebt dat aan een stevige paal (het anker) vastzit. Je mag het touw uitrekken om nieuwe plekken te verkennen, maar het touw zorgt ervoor dat je nooit helemaal de weg kwijtraakt. Zo blijft de foto scherp en natuurlijk, terwijl de computer toch creatief kan zijn.

Waarom is dit zo speciaal?

Geen plastic gezichten: De huid ziet er nog steeds echt uit, met poriën en natuurlijke glans.
Geen verdwenen kenmerken: Als je een moedervlek hebt, blijft die er. Als je een baard hebt, blijft die er. De computer weet het verschil tussen een "vlekje" en een "persoonlijk kenmerk".
Beter dan de mens: In tests bleek dat BeautyGRPO vaak mooiere resultaten gaf dan de beste menselijke fotobewerkers, omdat het precies weet wat de gemiddelde mens als "mooi" beschouwt.

Kortom: BeautyGRPO is als een digitale make-upartiest die niet alleen vlekken verwijdert, maar ook weet hoe je er natuurlijk en stralend uitziet, zonder dat je eruit ziet als een robot. Het combineert de precisie van een machine met het gevoel voor schoonheid van een mens.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Het doel van gezichtsbewerking (face retouching) is het verwijderen van subtiele onvolkomenheden (zoals puistjes en vlekken) terwijl unieke identiteitskenmerken (zoals moedervlekken, poriën en natuurlijke huidtextuur) behouden blijven om de algehele esthetiek te verbeteren. Bestaande methoden kampen met een fundamenteel compromis:

Supervised Learning (SFT): Methoden die gebruikmaken van gelabelde data zijn beperkt tot het nabootsen van pixel-niveau labels. Dit leidt vaak tot rigide resultaten die niet overeenkomen met complexe, subjectieve menselijke esthetische voorkeuren. Ze overfitten op specifieke stijlen en kunnen geen oplossingen vinden die beter zijn dan de trainingsdata.
Reinforcement Learning (RL): Online RL (zoals FlowGRPO) is uitstekend voor het afstemmen op menselijke voorkeuren door exploratie. Echter, de stochastische (willekeurige) aard van RL-exploratie botst met de hoge eisen aan trouwheid (fidelity) bij portretbewerking. De accumulatie van ruis tijdens het sampling-proces leidt tot zichtbare artefacten en een afwijking van de hoge-kwaliteit manifold, wat resulteert in onnatuurlijke of "plastic" uitziende gezichten.

Daarnaast ontbreekt het aan reward-modellen die gevoelig genoeg zijn voor de fijne, subtiel perceptuele verschillen die nodig zijn voor gezichtsbewerking (bijv. het balans tussen gladheid en textuur).

2. Methodologie: BeautyGRPO

De auteurs stellen BeautyGRPO voor, een reinforcement learning framework dat gezichtsbewerking afstemt op menselijke esthetische voorkeuren. De aanpak bestaat uit drie kerncomponenten:

A. FRPref-10K: Een Fijnkorrelig Voorkeursdataset

Om de ontbrekende data voor esthetische afstemming op te lossen, hebben de auteurs FRPref-10K gecreëerd.

Samenstelling: Een dataset van 10.000 paren hoge-resolutie beelden met gedetailleerde annotaties.
Dimensies: Elke afbeelding wordt beoordeeld op vijf kritieke dimensies:
1. Huidgladheid (Skin Smoothing)
2. Verwijdering van vlekken (Blemish Removal)
3. Kwaliteit van de textuur (Texture Quality)
4. Duidelijkheid (Clarity)
5. Behoud van identiteit (Identity Preservation)
Annotatie: Een hybride pipeline waarbij Vision-Language Models (VLMs) eerst redeneren en scores geven, gevolgd door menselijke verificatie en expert-arbitrage om de kwaliteit te garanderen.

B. Gespecialiseerd Reward Model

Op basis van FRPref-10K wordt een gespecialiseerd reward model getraind (gebaseerd op Qwen2.5-VL).

Training: Het model doorloopt drie fasen:
1. SFT: Structurering van redenering over de vijf dimensies.
2. Self-Training: Filteren op consistentie tussen redenering en beslissing.
3. GRPO: Robuustheid verbeteren door exploratie van diverse redeneerpaden.
Doel: Dit model kan subtiele perceptuele verschillen tussen bewerkte beelden detecteren en fungeert als een nauwkeurige signaalgever voor menselijke esthetiek.

C. Dynamic Path Guidance (DPG)

Dit is het kernalgoritme dat het conflict tussen exploratie (RL) en trouwheid (fidelity) oplost.

Het Probleem: Standaard FlowGRPO voegt ruis toe (SDE) om te exploreren, wat leidt tot drift en ruisartefacten in gezichten.
De Oplossing (DPG): DPG stabiliseert de stochastische trajecten door ze dynamisch te leiden naar een "anker" (een hoog-preferentie voorbeeld uit de dataset) zonder de exploratie volledig te onderdrukken.
- Anchoring: Bij elke stap in het sampling-proces wordt een ODE-pad berekend naar een ankerpunt.
- Gestuurde Correctie: Een correctievector wordt berekend om het huidige pad terug te leiden naar dit ankerpad.
- Gestuurde Stochasticiteit: In plaats van puur deterministisch te worden, wordt de correctievector gemengd met standaard Gaussische ruis. De mengverhouding ( $\lambda$ ) is tijdsafhankelijk: vroeg in het proces (structuurvorming) is de ankerleiding sterk om drift te voorkomen; later in het proces (fijnafstemming) is de ruis sterker om subtiele esthetische verbeteringen te vinden die beter zijn dan het anker zelf.
Resultaat: Dit zorgt voor een gebalanceerde regime waarbij het model buiten de trainingsdata kan exploreren voor betere esthetiek, maar wel binnen een hoge-fidelity manifold blijft om ruis en identiteitsverlies te voorkomen.

3. Belangrijkste Resultaten

Uitgebreide experimenten op zowel de FFHQR-dataset als "in-the-wild" datasets tonen aan dat BeautyGRPO superieur is aan:

Gespecialiseerde modellen: (bijv. RetouchFormer, VRetouchEr) die vaak over-gladde huid of onvolledige vlekverwijdering vertonen.
Algemene bewerkingsmodellen: (bijv. NanoBanana, SeedDream) die vaak identiteit veranderen of onnatuurlijke, kunstmatige texturen creëren.
Standaard RL-methoden: (FlowGRPO) die last hebben van ruisartefacten.

Kernresultaten:

Menselijke Voorkeur: BeautyGRPO wint in user studies met een winpercentage van 63,25%, aanzienlijk hoger dan concurrenten (die rond de 6-12% scoren).
Kwaliteitsmetrieken: Het behaalt de beste scores op no-reference perceptuele metrieken zoals NIMA, MUSIQ, MANIQA en TOPIQ, wat aangeeft dat de resultaten natuurlijker en esthetischer zijn.
Identiteitsbehoud: Hoewel het model de textuur aanpast, behoudt het een hoge ArcFace-score (>0.94), wat betekent dat de unieke identiteit van de persoon intact blijft.
Visuele Kwaliteit: Het verwijdert vlekken effectief terwijl het poriën, moedervlekken en natuurlijke huidglans behoudt, in tegenstelling tot de "plastic" look van andere methoden.

4. Bijdragen

FRPref-10K: De creatie van een groot, fijnkorrelig dataset voor gezichtsbewerking met multi-dimensionale menselijke voorkeuren.
Gespecialiseerd Reward Model: Een model dat in staat is tot fijnmazige, redenerende evaluatie van esthetische kwaliteit, specifiek voor portretten.
BeautyGRPO & DPG: Een nieuw RL-framework met Dynamic Path Guidance dat het fundamentele conflict tussen exploratie en trouwheid oplost, waardoor hoogwaardige, natuurlijke bewerkingsresultaten mogelijk worden die beter aansluiten bij menselijke smaak dan de trainingsdata zelf.

5. Betekenis

BeautyGRPO markeert een verschuiving in het veld van gezichtsbewerking van puur pixel-gebaseerd nabootsen naar menselijk esthetisch afstemmen. Door de integratie van een gespecialiseerd reward model en de innovatieve DPG-methode, slaagt het erin om de "uncanny valley" te vermijden die vaak optreedt bij AI-bewerking. De techniek biedt een robuuste oplossing voor het behoud van identiteit terwijl de huid esthetisch wordt verbeterd, wat van groot belang is voor toepassingen in sociale media, fotobewerking en digitale portretkunst. Het bewijst dat RL, wanneer correct gestabiliseerd, superieure resultaten kan leveren dan traditionele supervised learning voor subjectieve taken.