Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een oude, beschadigde familiefoto hebt. Er ontbreekt een groot stuk: misschien is de neus van je grootvader weggeveegd door een vlek, of is een deel van het gezicht van je tante volledig verdwenen. Je wilt die foto herstellen, maar je wilt niet dat het eruitziet alsof er een lelijke, vage vlek op is geplakt. Je wilt dat het eruitziet alsof het gezicht er altijd was.

Dit is precies wat kunstenaars en computers doen bij "Face Inpainting" (het invullen van ontbrekende delen van een gezicht). Het is echter een heel lastige klus voor een computer, omdat gezichten een heel specifieke structuur hebben. Als je de ogen niet op de juiste plek zet of de mond te krom tekent, ziet het er onnatuurlijk en eng uit.

In dit artikel presenteren de onderzoekers een nieuwe, slimme manier om dit probleem op te lossen. Ze noemen hun methode een "Semantisch Gids Twee-Stappen GAN" (een soort slimme kunstenaars-paar). Laten we het uitleggen alsof het een bouwproject is.

Het Probleem: De "Vage Vlek"

Tot nu toe waren de beste methoden voor het herstellen van gezichten vaak niet goed genoeg. Ze maakten twee grote fouten:

De "Vage Vlek": De herstelde delen waren vaak wazig, alsof ze door een mistglas waren getekend.
De "Raakwond": De overgang tussen het oude deel en het nieuwe deel zag eruit alsof er een lijn was getrokken, of de kleuren klopten niet.

De Oplossing: Twee Kunstenaars in Eén Team

De onderzoekers hebben een systeem bedacht dat werkt in twee duidelijke stappen, alsof je eerst een schets maakt en daarna pas gaat schilderen.

Stap 1: De Architect (De Schets)

Stel je voor dat je een huis wilt bouwen op een plek waar de muren zijn ingestort. Je begint niet direct met het aanbrengen van verf of het leggen van tegels. Nee, eerst teken je een plattegrond.

Wat doet de computer? De eerste stap van hun systeem kijkt naar het beschadigde gezicht en tekent een "geestelijke plattegrond". Het bepaalt: "Hier moet een oog komen, hier een neus, en hier een mond."
De Slimme Mix: Om deze plattegrond te maken, gebruiken ze een hybride techniek. Ze combineren twee soorten "hersenen":
- De CNN (De Kijkende Kijker): Deze kijkt naar de kleine details, zoals de textuur van de huid of de vorm van een wenkbrauw.
- De Transformer (De Grote Denker): Deze kijkt naar het hele plaatje en begrijpt de grote samenhang. Hij weet dat als er een oog links is, er waarschijnlijk ook een oog rechts moet zijn, ook al is dat deel weg.
Het Resultaat: In plaats van direct kleuren te kiezen, maakt deze stap een kleurrijke schets van hoe het gezicht eruit zou moeten zien. Dit zorgt ervoor dat de structuur perfect klopt.

Stap 2: De Schilder (De Textuur)

Nu je de plattegrond hebt, kun je pas gaan bouwen en schilderen.

Wat doet de computer? De tweede stap neemt die schets en begint het echte werk: het invullen van de ontbrekende stukken met realistische huid, haren en details.
De Magische Tool: Ze gebruiken een speciale techniek genaamd "Multi-Scale Contextual Attention". Dit is alsof de schilder niet alleen naar het lege stuk kijkt, maar ook naar de rest van het gezicht. Hij vraagt zich af: "Welke huidskleur heeft de wang hier? Hoe ziet het haar eruit op de achtergrond?" Hij haalt informatie uit de bekende delen en gebruikt die om het lege deel perfect in te vullen.
De Creatieve Vrijheid: Het systeem is slim genoeg om niet één vast antwoord te geven. Het kan een paar verschillende, realistische versies bedenken (net zoals een mens ook op verschillende manieren een gezicht zou kunnen tekenen), zodat het resultaat niet saai of repetitief wordt.

Waarom is dit zo goed?

De onderzoekers hebben hun systeem getraind met duizenden gezichten en een speciale "straf- en beloningssysteem" (verliesfuncties) gebruikt.

Als het gezicht er onnatuurlijk uitziet, krijgt het systeem een straf.
Als de overgangen glad zijn en de details scherp, krijgt het een beloning.

Door dit proces stap voor stap op te bouwen (eerst de schets, dan de verf), vermijden ze de "wazige vlekken" die andere methoden vaak hebben.

De Resultaten

Wanneer ze dit systeem testen op bekende datasets (zoals duizenden foto's van beroemdheden), werkt het beter dan eerdere methoden.

Scherpheid: De details zijn haarscherp.
Natuurlijkheid: Het gezicht ziet eruit alsof het nooit beschadigd is geweest.
Snelheid: Het systeem is snel genoeg om binnen een fractie van een seconde een foto te herstellen.

Conclusie

Kortom, deze onderzoekers hebben een slimme manier bedacht om beschadigde gezichten te herstellen door eerst een logische schets te maken en daarna pas realistische details toe te voegen. Het is alsof je eerst een architect vraagt om de blauwdruk te tekenen, en pas daarna een meester-schilder inschakelt om het werk af te maken. Het resultaat? Foto's die er weer perfect uitzien, alsof er nooit iets mis was.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het doel van gezichts-inpainting (het herstellen van ontbrekende of beschadigde gebieden in gezichtsbeelden) is het vullen van deze gebieden met betekenisvolle inhoud terwijl de identiteit, structurele consistentie en fotorealistische kwaliteit behouden blijven. Bestaande methoden kampen echter met ernstige beperkingen, vooral bij grote en onregelmatige maskers:

Semantische inconsistentie: Methoden die direct RGB-pixels voorspellen, leiden vaak tot onrealistische gezichtsstructuren (bijv. misplaatste ogen of vervormde contouren).
Textuurbuivigheid: Methoden die puur op reconstructieverliezen (zoals L1 of L2) vertrouwen, produceren vaak wazige resultaten zonder hoogfrequente details.
Randartefacten: Onvoldoende aandacht voor de grenzen van het masker zorgt voor zichtbare lijnen of kleurverschillen tussen het ingevulde en het bekende gebied.
Beperkte diversiteit: Veel modellen genereren steeds hetzelfde resultaat, wat de natuurlijke variatie in gezichten niet weergeeft.

Methodologie

De auteurs stellen een nieuw tweestaps-architectuur voor: Semantic-Guided Two-Stage GAN with Hybrid Perceptual Encoding. Het kernidee is het scheiden van het genereren van een semantische lay-out van de feitelijke textuursynthese.

1. Fase 1: Perceptie-bewuste Semantische Lay-out Generatie

In deze eerste fase wordt een probabilistische semantische kaart gegenereerd die de structuur van het gezicht definieert, voordat details worden toegevoegd.

Hybride CNN-Transformer Encoder: Om zowel lokale texturen als globale structuren te vangen, wordt een dual-branch encoder gebruikt:
- Een CNN-tak (Convolutional Neural Network) met residublokken extraheren lokale textuurpriors.
- Een Transformer-tak (Vision Transformer) modelleert lange-afstandsafhankelijkheden door het beeld als een reeks patches te behandelen.
- De features van beide takken worden gefuseerd via een 1x1 convolutie.
Semantische Generator: Een decoder voorspelt een semantische kaart $S$ met 20 klassen (gezichtscomponenten) op basis van de gefuseerde features.

2. Fase 2: Multi-Modale Textuur Generatie

Deze fase gebruikt de gegenereerde semantische kaart als leidraad om realistische texturen te synthetiseren.

Multi-Resolutie Contextuele Aandacht: Een module verzamelt informatie uit verschillende schalen en receptieve velden. Het zorgt ervoor dat informatie alleen stroomt vanuit bekende gebieden naar de gemaskeerde gebieden, waardoor coherentie wordt gewaarborgd.
Stochastische Textuursynthese: Om diverse en realistische uitkomsten mogelijk te maken, wordt Gaussisch ruis ( $\epsilon$ ) op meerdere lagen van de decoder geïnjecteerd. Dit stelt het model in staat om meerdere mogelijke oplossingen te genereren voor hetzelfde masker.

3. Discriminator Ontwerp

Het systeem maakt gebruik van drie discriminatoren om de kwaliteit te waarborgen:

Global Discriminator ( $D_g$ ): Controleert de algehele realisme van het beeld.
Local Discriminator ( $D_l$ , PatchGAN): Beoordeelt lokale textuurrealisme voor hoogfrequente details.
Semantisch Bewuste Discriminator ( $D_s$ ): Controleert of de gegenereerde structuur consistent is met de voorspelde semantische lay-out.

4. Trainingsstrategie en Verliesfuncties

Het model wordt getraind met een combinatie van verliesfuncties en een progressieve trainingsstrategie (3 fases) om stabiliteit te garanderen:

Verliesfuncties: Reconstructieverlies (L1), semantische consistentie, multi-schaal perceptueel verlies (gebaseerd op VGG-19), contextuele randverlies (voor gladde overgangen) en WGAN-GP adversariaal verlies.
Progressieve Training: De trainingscyclus begint met een focus op reconstructie en introduceert geleidelijk de complexere verliescomponenten (semantiek, perceptueel, adversariaal) om mode-collapse te voorkomen en convergentie te stabiliseren.

Belangrijkste Bijdragen

Hybride Encoder: Een innovatieve architectuur die de sterke punten van CNN's (lokale details) en Transformers (globale context) combineert voor robuuste feature-extractie, zelfs bij grote maskers.
Semantische Geleiding: Het genereren van een probabilistische semantische kaart als tussenstap, wat zorgt voor een duidelijke structurele richting en flexibiliteit voor diverse uitkomsten.
Multi-Resolutie Contextuele Aandacht: Een module die informatie op verschillende schalen integreert om zowel fijne details als globale structuur coherent te houden.
Stabiele Trainingsframework: Een progressieve trainingsstrategie met een zorgvuldig afgestemde combinatie van verliesfuncties (inclusief WGAN-GP) voor stabiele convergentie.

Resultaten

Het model is getest op de CelebA-HQ en FFHQ datasets (op 128x128 resolutie).

Kwantitatieve Prestaties: Het model behaalde verbeteringen ten opzichte van bestaande methoden met de volgende metrics op de validatieset:
- PSNR: 24,8 dB
- SSIM: 0,912
- FID: 15,3
- LPIPS: 0,08 (lager is beter, wat aangeeft dat de perceptuele gelijkenis hoog is).
Kwalitatieve Resultaten: Visuele vergelijkingen tonen aan dat het model scherper is, minder wazig, en betere semantische consistentie behoudt (bijv. correcte positie van ogen en mond) vergeleken met state-of-the-art methoden zoals DeepFill v2, LaMa en EdgeConnect.
Ablatie Studies: Experimenten bevestigden dat de combinatie van CNN en ViT (Vision Transformer) in de encoder, gecombineerd met de aandachtsmodule, de beste prestaties levert. Het verwijderen van de aandachtmodule leidde tot een lichte daling in textuurkwaliteit.
Efficiëntie: Het model heeft ongeveer 51,6 miljoen parameters en kan beelden verwerken met 88,53 FPS op een NVIDIA RTX 3060 GPU.

Betekenis en Toekomstperspectief

Dit paper biedt een significante doorbraak in het veld van gezichts-inpainting door het probleem van semantische inconsistentie en textuurbuivigheid aan te pakken via een gestructureerde, tweestaps-aanpak. De integratie van Vision Transformers in een GAN-architectuur voor dit specifieke doel is een belangrijke innovatie.

De belangrijkste beperkingen die worden erkend, zijn de uitdagingen bij zeer complexe gezichten met grote maskers en het reconstrueren van extreem fijne details (zoals individuele haren). De auteurs plannen om hun methode uit te breiden naar hogere resoluties (512x512) om directe vergelijkingen met andere state-of-the-art methoden mogelijk te maken en de toepasbaarheid verder te vergroten.