Spread them Apart: Towards Robust Watermarking of Generated Content

Each language version is independently generated for its own context, not a direct translation.

🎨 Il "Firma Invisibile" per le Immagini create dall'IA

Immagina che le moderne intelligenze artificiali (come quelle che creano bellissimi quadri o foto da una semplice descrizione di testo) siano dei fornai magici. Chiedi loro: "Fammi un gatto nero in stile rinascimentale" e loro, bum, ti consegnano un capolavoro.

Il problema? Oggi questi quadri sono così perfetti che è impossibile dire se sono stati dipinti da un umano o generati da un computer. Inoltre, c'è un rischio: un utente disonesto potrebbe prendere un'immagine creata dall'IA, dire "È mia, l'ho dipinta io!" e venderla, rubando i diritti d'autore.

Gli autori di questo studio hanno inventato un metodo per risolvere il problema. Lo chiamano "Spread them Apart" (in italiano: Allontanateli).

Ecco come funziona, passo dopo passo, con delle metafore:

1. Il Concetto: L'Impronta Digitale Nascosta

Immagina che ogni volta che un utente chiede un'immagine al "fornaio magico" (il modello di IA), il sistema gli assegni una chiave segreta unica, come un codice fiscale invisibile.
L'obiettivo è inserire un filigrana digitale (un marchio d'acqua) dentro l'immagine stessa mentre viene creata, non dopo. È come se il fornaio, mentre impasta la pizza, inserisse un granello di sale speciale che solo lui sa dove cercare.

2. La Magia: "Allontanateli" (Spread them Apart)

Come inseriscono questo marchio? Non scrivono "Questo è di Mario" in piccolo. Usano un trucco matematico molto intelligente basato sul confronto tra due punti.

L'analogia della bilancia:
Immagina che l'immagine sia una bilancia con due piatti. Il sistema sceglie due pixel (due punti dell'immagine) a caso, diciamo un punto rosso e un punto blu.
- Se il codice segreto dice "0", il sistema assicura che il punto rosso sia più luminoso del blu.
- Se il codice dice "1", assicura che il punto rosso sia più scuro del blu.
Il trucco è che il sistema non si limita a farli diversi; li allontana l'uno dall'altro in modo significativo (come dice il titolo). Se il rosso è 100 e il blu è 50, il sistema li spinge a diventare 120 e 30.
Perché? Perché se qualcuno prova a modificare l'immagine (ad esempio, rendendola più luminosa o più scura), entrambi i punti cambieranno, ma la loro differenza relativa rimarrà intatta. È come se due amici camminassero tenendosi per mano: se un vento forte li spinge, si muovono insieme, ma la distanza tra loro resta la stessa.

3. Robustezza: Perché non si cancella?

Molti metodi di filigrana vengono cancellati se cambi la luminosità, il contrasto o se compri un filtro su Instagram.
Il metodo "Spread them Apart" è come un tatuaggio fatto sotto pelle invece di un adesivo sulla superficie.

Se provi a sbiadire l'immagine (ridurre il contrasto), la differenza tra i due punti rimane.
Se provi a capovolgerla (inversione dei colori), il sistema è progettato per riconoscere anche questo.
È così forte che resiste persino a tentativi molto sofisticati di "pulizia" dell'immagine fatti da hacker esperti.

4. La Rivelazione: Chi ha creato l'immagine?

Quando l'immagine finisce in giro su internet, il proprietario del modello (il "fornaio") può controllarla.

Prende la sua chiave segreta (che sa quali punti confrontare).
Guarda l'immagine: "Il punto A è più scuro del punto B? Sì. Quindi il bit è 1. Il punto C è più chiaro del punto D? No. Quindi il bit è 0".
Ricostruisce il codice segreto. Se il codice corrisponde a quello di "Mario", allora l'immagine è stata generata da Mario. Se non corrisponde a nessuno, è un falso o un'immagine non generata da quel sistema.

5. Il Trucco Finale: Tre Chiavi invece di una

Per rendere il sistema ancora più invincibile contro le rotazioni (girare l'immagine) o gli spostamenti, gli autori hanno aggiunto un livello extra.
Invece di guardare solo i pixel normali, guardano anche l'immagine attraverso "lenti speciali" matematiche (trasformate di Fourier) che non cambiano se l'immagine viene ruotata o spostata.
È come se avessero messo il marchio d'acqua:

Sulla superficie della torta (i pixel).
Nella ricetta della torta (la struttura matematica).
Nel profumo della torta (le invarianti matematiche).

Così, anche se qualcuno taglia la torta o la gira, il profumo e la ricetta rivelano sempre chi l'ha fatta.

In Sintesi

Questo paper ci dice: "Non preoccupatevi, possiamo mettere un'etichetta invisibile e indelebile dentro le immagini create dall'IA, direttamente mentre vengono create. È come se ogni immagine avesse un DNA segreto che rivela chi l'ha generata, anche se qualcuno prova a modificarla, sbiadirla o ruotarla."

Questo aiuta a combattere le truffe, proteggere il copyright e capire quando stiamo guardando una realtà o una finzione digitale.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'avvento di modelli generativi avanzati, in particolare i Modelli di Diffusione (come Stable Diffusion), ha permesso la creazione di immagini realistiche indistinguibili da quelle reali. Questa capacità solleva gravi preoccupazioni etiche e legali:

Falsificazione dell'identità: Gli utenti possono generare contenuti e rivendicare erroneamente la paternità o violare gli accordi di licenza.
Deepfake: La difficoltà nel distinguere tra contenuti reali e sintetici rende necessario uno strumento automatico per verificare l'origine di un'immagine.
Limiti delle soluzioni attuali: Molti metodi di filigrana (watermarking) esistenti richiedono il riaddestramento del modello generativo o non sono sufficientemente robusti contro attacchi di rimozione (es. modifiche di luminosità, compressione JPEG, attacchi avversari).

L'obiettivo del paper è sviluppare un metodo per inserire filigrane digitali direttamente durante il processo di generazione (inference) senza riaddestrare il modello, permettendo sia la rilevazione (l'immagine è generata da questo modello?) che l'attribuzione (quale utente ha generato l'immagine?).

2. Metodologia: "Spread them Apart"

Il framework proposto, chiamato "Spread them Apart", opera a livello di pixel e si basa sull'ottimizzazione della rappresentazione latente dell'immagine durante la fase di inferenza.

A. Concetto Fondamentale

Ogni utente $u_i$ riceve una coppia di chiavi:

Filigrana pubblica ( $w(u_i)$ ): Una stringa binaria di lunghezza $n$ .
Segreto privato ( $s(u_i)$ ): Una sequenza di coppie di indici di pixel $(a_j, b_j)$ .

Il metodo impone un vincolo logico basato sulla relazione di intensità tra coppie di pixel specifici:

Se il bit della filigrana è 0, allora l'intensità del pixel $a_j$ deve essere maggiore o uguale a quella del pixel $b_j$ ( $x_{a_j} \ge x_{b_j}$ ).
Se il bit della filigrana è 1, allora l'intensità del pixel $a_j$ deve essere minore di quella del pixel $b_j$ ( $x_{a_j} < x_{b_j}$ ).

Per garantire la robustezza, viene aggiunto un margine di sicurezza $\epsilon$ : la differenza tra i pixel deve essere almeno $\epsilon$ .

B. Implementazione nel Modello di Diffusione

Il metodo non modifica i pesi del modello (es. Stable Diffusion), ma ottimizza il vettore latente $z$ prima della decodifica finale.
Viene definita una funzione di perdita (Loss Function) totale:
$\mathcal{L} = \lambda_{wm} \mathcal{L}_{wm} + \lambda_{qual} \mathcal{L}_{qual}$

$\mathcal{L}_{wm}$ : Penalizza le violazioni dei vincoli imposti dalla filigrana (la differenza tra i pixel non rispetta la regola o è troppo piccola).
$\mathcal{L}_{qual}$ : Misura la degradazione della qualità dell'immagine (usando la metrica LPIPS) per garantire che l'immagine rimanga visivamente fedele al prompt.

L'ottimizzazione avviene tramite Adam per circa 700 step, cercando il vettore latente che soddisfi i vincoli della filigrana mantenendo alta la qualità.

C. Estensione per Robustezza Geometrica (Invarianti)

Per resistere a trasformazioni geometriche (rotazioni, traslazioni), il paper propone un'estensione che inserisce la filigrana non solo nello spazio dei pixel, ma anche in funzioni invarianti dello spazio delle frequenze:

Invarianti di traslazione: Modulo della Trasformata di Fourier ( $\gamma_t$ ).
Invarianti di rotazione: Modulo della Trasformata di Fourier-Mellin ( $\gamma_r$ ).
Il sistema ottimizza tre filigrane simultaneamente (pixel, $\gamma_t$ , $\gamma_r$ ). Durante la rilevazione, si estraggono tre filigrane e si attribuisce l'immagine all'utente che minimizza la distanza complessiva.

3. Contributi Chiave

Framework "Spread them Apart": Un metodo per incorporare filigrane in contenuti generati di natura continua senza riaddestrare il modello generativo.
Garanzia Teorica di Robustezza:
- Dimostrazione che la filigrana è robusta contro perturbazioni additive di norma limitata ( $\ell_\infty$ ).
- Dimostrazione che è intrinsecamente robusta contro perturbazioni moltiplicative e esponenziali (grazie alla natura dei vincoli di ordine).
Rilevazione e Attribuzione: Il sistema risolve simultaneamente il problema di rilevare se un'immagine è generata e identificare l'utente specifico che l'ha prodotta.
Estensione agli Invarianti: Un approccio innovativo che combina lo spazio dei pixel e gli invarianti di frequenza per resistere a rotazioni e traslazioni.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su Stable Diffusion v2 con un dataset di 1000 immagini generate da prompt unici. La filigrana ha una lunghezza di 100 bit (superiore alla maggior parte dei competitor).

Robustezza agli Attacchi

Il metodo è stato testato contro una vasta gamma di attacchi di rimozione:

Regolazioni di base: Luminosità, contrasto, gamma, saturazione, tonalità.
Elaborazione: Sharpening, rumore additivo, compressione JPEG.
Attacchi Avversari: Attacco PGD (White-box) che cerca di cancellare la filigrana ottimizzando l'immagine.

Risultati principali (Tabella 1 e 2):

Errore Bitwise (ABWE): Il metodo proposto ha mostrato un errore estremamente basso (es. 0.001-0.003) su luminosità, contrasto, gamma e sharpening, superando significativamente metodi come Stable Signature, SSL, AquaLora e WOUAF.
Attacco PGD: Il metodo mantiene un tasso di successo (TPR) del 99.3% contro l'attacco PGD, mentre Stable Signature crolla allo 0%.
Compressione JPEG: Sebbene ci sia un calo di performance (ABWE ~0.147), il metodo rimane competitivo.
Geometria: L'estensione con 3 filigrane (STA(3)) mantiene un'alta robustezza (TPR > 0.95) anche dopo rotazioni e traslazioni, dove il metodo base (STA(1)) fallisce completamente (TPR = 0.000).

5. Significato e Impatto

Il lavoro "Spread them Apart" rappresenta un passo significativo verso la sicurezza dei contenuti generati dall'IA:

Non invasivo: Non richiede il riaddestramento di modelli costosi e complessi, rendendolo applicabile a qualsiasi modello di diffusione esistente come servizio (SaaS).
Protezione Legale: Fornisce uno strumento tecnico per far rispettare i diritti d'autore e identificare gli utenti che abusano delle licenze, riducendo il rischio di rivendicazioni di proprietà fraudolente.
Robustezza Teorica: A differenza di molti approcci empirici, offre garanzie matematiche sulla resistenza a certi tipi di manipolazioni, rendendo le filigrane difficili da rimuovere senza distruggere l'immagine stessa.

In sintesi, il paper propone una soluzione pratica, robusta e teoricamente fondata per tracciare l'origine dei contenuti generati dall'IA, affrontando sia le sfide tecniche della rimozione delle filigrane che quelle legali dell'attribuzione della paternità.