Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una vecchia fotografia di famiglia che è stata rovinata: c'è una macchia d'inchiostro o un pezzo strappato che copre il naso o un occhio di una persona. Il tuo obiettivo è ridisegnare quella parte mancante in modo che sembri originale, che la persona abbia ancora il suo viso riconoscibile e che i colori siano perfetti.

Fino a poco tempo fa, i computer facevano fatica a fare questo lavoro: spesso disegnavano nasi storti, occhi che non si guardavano o pelle che sembrava sfocata come una foto vecchia.

Gli autori di questo studio (Abhigyan, Hiranmoy e Debotosh) hanno creato un nuovo "artista digitale" chiamato GAN a due stadi guidato dal significato. Ecco come funziona, spiegato con una metafora culinaria e artistica.

1. Il Problema: Perché è difficile?

Pensa a quando cerchi di completare un puzzle mancante. Se guardi solo i pezzi vicini (i pixel), potresti sbagliare il colore. Se guardi troppo in alto, perdi i dettagli.
I vecchi metodi facevano due errori:

Disegnavano "a caso": Mettevano i pezzi senza capire che quello era un naso, non un orecchio.
Erano troppo sfocati: Come se avessero dipinto con l'acquerello invece che con colori a olio, perdendo i dettagli fini (come le ciglia o le rughe).

2. La Soluzione: L'Artista in Due Fasi

Il nuovo metodo divide il lavoro in due passaggi distinti, come se avessero due artisti che lavorano in sequenza.

Fase 1: L'Architetto (Il "Disegno a Matita")

Prima di dipingere, devi avere un progetto solido.

Cosa fa: Questo primo stadio non guarda i colori, ma guarda la struttura. Chiede: "Dove sono gli occhi? Dov'è la bocca? Come è fatta la forma del viso?".
Il trucco: Usa due "superpoteri" insieme:
1. CNN (I dettagli locali): Come un occhio che guarda da vicino i singoli mattoni.
2. Transformer (La visione globale): Come un occhio che guarda l'intero quadro per capire la prospettiva.
Risultato: Invece di disegnare subito la pelle, l'architetto crea una mappa semantica (un disegno a matita colorato) che dice al computer: "Qui c'è un occhio, qui c'è un naso". Questo assicura che il viso non venga distorto.

Fase 2: Il Pittore (Il "Dipingere con i Colori")

Ora che abbiamo la mappa, il secondo artista entra in gioco.

Cosa fa: Prende la mappa dell'architetto e inizia a riempire i buchi con texture realistiche (pelle, capelli, ombre).
Il trucco: Usa un sistema di "attenzione multi-scala". Immagina di avere una lente d'ingrandimento che ti permette di guardare sia i dettagli minuscoli (come un poro della pelle) sia l'insieme del viso per assicurarti che tutto combaci.
Risultato: Un'immagine nitida, con texture realistiche e senza bordi strani dove la parte riparata incontra quella originale.

3. L'Allenamento: Come imparano a farlo?

Per insegnare a questi artisti digitali, gli autori hanno usato una "palestra" molto severa con tre giudici (chiamati Discriminatori):

Il Giudice Globale: Guarda l'intera foto e dice: "Sembra una foto vera o un disegno?".
Il Giudice Locale: Guarda i piccoli pezzi e dice: "La pelle qui sembra vera o è sfocata?".
Il Giudice Strutturale: Guarda la mappa e dice: "Hai rispettato la forma del viso? L'occhio è al posto giusto?".

Se l'artista sbaglia, viene "punito" (perde punti) e deve riprovare. Dopo 250 giorni di allenamento (o 9 giorni reali su computer potenti), l'artista impara a non sbagliare quasi mai.

4. I Risultati: Cosa hanno ottenuto?

Hanno testato il loro sistema su migliaia di foto di volti famosi (CelebA-HQ e FFHQ).

Risultato: Il loro metodo è migliore di tutti gli altri esistenti.
Perché: Riesce a riempire grandi buchi (anche metà del viso) mantenendo l'identità della persona, senza creare mostri con tre occhi o nasi storti. Le immagini sono nitide e i bordi sono invisibili.

In Sintesi

Immagina di dover riparare un affresco antico.

I vecchi metodi provavano a riempire il buco mescolando i colori vicini, ottenendo una macchia confusa.
Il nuovo metodo prima disegna il progetto (capendo che lì c'è un occhio) e poi dipinge con precisione chirurgica, assicurandosi che ogni dettaglio sia perfetto.

È un passo avanti enorme per il restauro di foto, la rimozione di oggetti indesiderati dalle immagini e la creazione di contenuti visivi realistici.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il ripristino di immagini facciali (face inpainting) mira a ricostruire le regioni mancanti o corrotte di un'immagine preservando l'identità, la coerenza strutturale e la qualità fotorealistica. Nonostante i recenti progressi nei modelli generativi profondi, i metodi esistenti affrontano diverse sfide critiche, specialmente con maschere grandi e irregolari:

Incoerenza Semantica: I metodi che prevedono direttamente i pixel RGB tendono a violare le strutture anatomiche del viso (es. occhi disallineati, confini distorti).
Texture Sfocata: L'uso esclusivo di funzioni di perdita di ricostruzione (come $L_1$ o $L_2$ ) porta spesso a risultati eccessivamente lisci, privi di dettagli ad alta frequenza.
Artefatti ai Confini: Una gestione insufficiente dei bordi della maschera crea linee visibili o disallineamenti cromatici tra le regioni ricostruite e quelle note.
Limitata Diversità: Molti modelli producono risultati monotoni, fallendo nel generare le molteplici varianti realistiche possibili per un completamento.

2. Metodologia

Gli autori propongono un'architettura innovativa basata su un GAN a due stadi guidato semanticamente, che separa la generazione del layout semantico dalla sintesi della texture. L'approccio utilizza una Codifica Percettiva Ibrida (CNN + Transformer).

Architettura a Due Stadi

Stadio 1: Generazione del Layout Semantico (Semantic Layout Generation)
- Codificatore Ibrido CNN-Transformer: Per gestire input parzialmente mascherati, viene utilizzato un codificatore a due rami:
  - Ramo CNN: Estrae priorità di texture locali attraverso blocchi residui con convoluzioni.
  - Ramo Transformer (ViT): Modella le dipendenze a lungo raggio trattando l'immagine come una sequenza di patch, catturando la struttura globale.
- Le feature dei due rami vengono fuse e decodificate per generare una mappa semantica probabilistica ( $S$ ) che definisce la struttura del viso (es. posizione di occhi, naso, bocca) prima della generazione dei pixel.
Stadio 2: Generazione della Texture Multi-Modale
- Attenzione Contestuale Multi-Risoluzione: Un modulo di attenzione raccoglie informazioni da regioni note a diverse scale per riempire le aree mancanti, garantendo coerenza sia nei dettagli fini che nella struttura globale.
- Sintesi Stocastica: Vengono iniettati rumori gaussiani ( $\epsilon$ ) a più livelli del decoder per abilitare output multi-modali (diverse varianti realistiche per la stessa maschera).
- Il risultato finale è un'immagine completa ( $\hat{I}$ ) guidata dalla mappa semantica $S$ .

Discriminatori e Funzioni di Perdita

Il sistema utilizza tre discriminatori per garantire qualità e coerenza:

Discriminatore Globale ( $D_g$ ): Valuta il realismo dell'intera immagine.
Discriminatore Locale (PatchGAN, $D_l$ ): Valuta la realismo delle texture locali.
Discriminatore Consapevole Semantica ( $D_s$ ): Condizionato sul layout semantico per garantire la coerenza strutturale.

Le funzioni di perdita includono:

Perdita di Ricostruzione ( $L_1$ ).
Perdita di Coerenza Semantica (Cross-entropy sulle regioni note).
Perdita Percettiva Multi-Scala (basata su VGG-19).
Perdita di Bordo Contestuale (per blending fluido ai margini della maschera).
WGAN-GP: Per la stabilità dell'addestramento avversario.

Strategia di Addestramento Progressivo

L'addestramento avviene in tre fasi per evitare il collasso modale e garantire una convergenza stabile:

Fase 1: Focus sulla ricostruzione con pesi di perdita avversaria bassi.
Fase 2: Introduzione graduale delle perdite semantiche, percettive e di contesto.
Fase 3: Stabilizzazione con pesi fissi e aggiornamenti del discriminatore meno frequenti.

3. Contributi Chiave

Codificatore Ibrido CNN-Transformer: Un design che combina i vantaggi delle CNN (induttive bias locali) e dei Transformer (ragionamento globale) per estrarre feature robuste anche con parti mancanti.
Generazione Semantica Probabilistica: La creazione di mappe semantiche guida la sintesi della texture, fornendo una direzione strutturale chiara mantenendo la flessibilità per risultati diversi.
Modulo di Attenzione Contestuale Multi-Risoluzione: Capacità di aggregare informazioni a diverse scale per una coerenza globale e locale.
Robustezza alle Maschiere Arbitrarie: Il modello gestisce configurazioni di maschere arbitrarie tramite attenzione dinamica senza bisogno di addestramento specifico per ogni tipo di maschera.

4. Risultati Sperimentali

Il modello è stato valutato sui dataset CelebA-HQ e FFHQ (risoluzione 128x128).

Metriche Quantitative: Il modello ha ottenuto risultati superiori rispetto agli stati dell'arte (SOTA) su metriche chiave:
- PSNR: 24.8 dB
- SSIM: 0.912
- FID: 15.3 (valore più basso indica migliore qualità)
- LPIPS: 0.08 (valore più basso indica maggiore similarità percettiva).
Studi di Ablazione: Le sperimentazioni hanno dimostrato che la combinazione ibrida (CNN + ViT) con il modulo di attenzione supera le varianti che usano solo CNN o solo Transformer, offrendo il miglior compromesso tra dettaglio locale e struttura globale.
Qualità Visiva: I risultati mostrano una migliore preservazione semantica e texture più nitide rispetto ai metodi esistenti, specialmente in scenari di inpainting su grandi aree.
Efficienza: Il modello ha circa 51.6M di parametri e raggiunge un'inferenza di 88.53 FPS su una GPU RTX 3060.

5. Significato e Conclusioni

Questo lavoro rappresenta un avanzamento significativo nel campo del ripristino facciale affrontando il compromesso tra coerenza strutturale e dettaglio della texture.

Innovazione: La separazione esplicita tra la generazione del layout semantico e la sintesi della texture risolve il problema della "sfocatura" e delle strutture irrealistiche tipiche dei metodi end-to-end diretti.
Generalizzazione: Sebbene addestrato su volti, il modello mostra capacità di trasferimento su altri dataset facciali, sebbene la generalizzazione su scene generiche (Places2) rimanga una sfida.
Futuro: Gli autori intendono estendere il metodo a risoluzioni più elevate (512x512) per permettere confronti diretti con le migliori tecniche attuali e migliorare la gestione di dettagli fini (es. singoli capelli) e maschere molto ampie su volti complessi.

In sintesi, l'approccio proposto offre una soluzione robusta e di alta qualità per l'inpainting facciale, superando molte limitazioni dei metodi precedenti attraverso un'architettura ibrida e una guida semantica rigorosa.