ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

Il paper "ShapeMark" propone un nuovo metodo di watermarking per modelli di diffusione che codifica i bit del marchio in schemi di rumore strutturati anziché in singoli valori, garantendo così un'ottima robustezza contro le perturbazioni e preservando al contempo la diversità delle immagini generate.

Yuqi Qian, Yun Cao, Haocheng Fu, Meiyang Lv, Meineng Zhu

Pubblicato Wed, 11 Ma
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un'artista digitale geniale, un robot che può dipingere quadri meravigliosi partendo dal nulla (o meglio, dal "rumore" statico della TV). Questo robot è un Modello di Diffusione. Oggi, questi robot creano immagini così belle che è difficile distinguerle dalla realtà.

Ma c'è un problema: se tutti possono usare questo robot, come facciamo a sapere chi ha creato un'immagine specifica? Come possiamo proteggerne i diritti d'autore se qualcuno la ruba, la modifica o la comprime per inviarla su WhatsApp?

Gli scienziati hanno provato a nascondere un "codice segreto" (un filigrana) dentro l'immagine, ma i metodi vecchi avevano due grossi difetti:

  1. Erano fragili: Se l'immagine veniva modificata anche di poco (come un filtro Instagram o un cambio di luminosità), il codice segreto si rompeva e spariva.
  2. Rendevano tutto uguale: Per nascondere il codice, il robot era costretto a usare sempre gli stessi "passi" magici, così le immagini generate per lo stesso messaggio sembravano tutte uguali, perdendo la loro creatività naturale.

ShapeMark è la nuova soluzione proposta in questo articolo. È come se avessimo inventato un nuovo modo di nascondere il segreto che risolve entrambi i problemi.

Ecco come funziona, spiegato con delle analogie semplici:

1. Il vecchio metodo: Scrivere su un foglio di carta

I metodi precedenti cercavano di nascondere il messaggio modificando il valore esatto di ogni singolo pixel o di ogni singolo "granello di rumore" iniziale.

  • L'analogia: Immagina di scrivere una lettera su un foglio di carta usando un inchiostro molto leggero. Se qualcuno soffia sul foglio, lo piega o lo bagna (le modifiche all'immagine), l'inchiostro sbiadisce e il messaggio diventa illeggibile. Inoltre, per scrivere la lettera, devi sederti sempre nello stesso modo, rendendo la tua calligrafia sempre uguale e prevedibile.

2. Il metodo ShapeMark: Un puzzle che si riorganizza

ShapeMark non modifica i "valori" (i colori o i numeri), ma cambia l'ordine in cui sono disposti.

La prima magia: Il "Codice a Blocchi" (Structural Encoding)

Invece di guardare un singolo numero, ShapeMark prende un gruppo di numeri (un blocco) e guarda la loro forma o il loro ordine relativo.

  • L'analogia: Immagina di avere un mazzo di carte. Non ti importa se il "Re di Cuori" vale 13 o 14 punti. Ti importa solo che il "Re" sia prima della "Dama" nel mazzo.
    • Se qualcuno mescola le carte o ne toglie una (rumore o distorsione), l'ordine generale tra il Re e la Dama rimane spesso lo stesso.
    • ShapeMark scrive il messaggio segreto cambiando l'ordine di questi "blocchi" di carte. Anche se l'immagine viene distorta, il "codice a blocchi" (chi viene prima e chi dopo) resiste molto meglio di un singolo numero.

La seconda magia: Il "Mischiatore Segreto" (PDSR)

Qui risolviamo il problema della creatività. Se usiamo sempre lo stesso ordine per lo stesso messaggio, le immagini diventano tutte uguali.

  • L'analogia: Immagina di avere una ricetta segreta per un cocktail. Se mescoli sempre gli ingredienti nello stesso ordine, ogni cocktail avrà lo stesso sapore e aspetto.
    • ShapeMark aggiunge un "mischiatore magico" (chiamato PDSR). Dopo aver messo il codice segreto, mescola le carte (o gli ingredienti) in modo casuale, ma in modo che tu possa ri-mescolarle esattamente allo stesso modo se hai la chiave segreta.
    • Risultato: Ogni volta che generi un'immagine con lo stesso messaggio, il "mischiatore" la rende diversa. L'immagine finale è unica e creativa, ma il codice segreto è ancora lì, nascosto nella struttura, pronto per essere letto da chi ha la chiave.

Perché è importante?

ShapeMark è come un sigillo di cera indestruttibile che non cambia la forma della lettera.

  • Robustezza: Se l'immagine viene compressa, tagliata o filtrata, il "codice a blocchi" sopravvive. È come se il messaggio fosse scritto non sulla carta, ma nella struttura stessa del mazzo di carte.
  • Diversità: Le immagini generate restano belle, varie e naturali. Non sembrano tutte "stampate" dallo stesso modello perché il "mischiatore" le rende uniche ogni volta.

In sintesi, ShapeMark permette di dire: "Questa immagine è stata creata dal mio robot, e anche se qualcuno prova a modificarla, il mio marchio segreto rimarrà intatto, senza rovinare la bellezza dell'opera d'arte."