Spread them Apart: Towards Robust Watermarking of Generated Content

Each language version is independently generated for its own context, not a direct translation.

Titel: "Spreid ze uit": Een onzichtbare handtekening voor AI-afbeeldingen

Stel je voor dat je een magische schilderijmachine hebt (een AI zoals Stable Diffusion). Je zegt: "Teken een zwart katje in een neoclassicistische stijl," en poef, daar staat het. Het ziet er zo echt uit dat je het nauwelijks van een echte foto kunt onderscheiden.

Maar hier zit het probleem: Iedereen kan deze machine gebruiken. Wat als iemand een mooi plaatje maakt, het op zijn naam zet en zegt: "Dit heb ik getekend, het is van mij!"? Of wat als iemand een nepnieuwsfoto maakt en zegt dat het echt is? We hebben een manier nodig om te weten wie de maker is en of een plaatje door de AI is gemaakt.

De auteurs van dit paper hebben een slimme oplossing bedacht, die ze "Spread them Apart" (Spreid ze uit) noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het idee: Een onzichtbare vingerafdruk

Stel je voor dat je een brief schrijft. Normaal gesproken schrijf je gewoon de tekst. Maar deze nieuwe methode doet iets anders: terwijl de AI het plaatje "tekent", past ze heel subtiel de helderheid van twee specifieke pixels aan.

De sleutel: Elke gebruiker krijgt een geheime sleutel (een lijstje met getallen). Deze sleutel zegt de AI: "Vergelijk pixel A en pixel B. Als pixel A iets helderder is dan pixel B, dan betekent dat een '0'. Is pixel B helderder? Dan is het een '1'."
De code: Door duizenden van deze vergelijkingen te doen, ontstaat er een lang binair getal (een code van nullen en enen). Dit is de watermerk. Het is als een onzichtbare vingerafdruk die in de structuur van het plaatje zelf is gebakken, niet erop geplakt.

2. Hoe werkt het in de praktijk?

Normaal gesproken zou je een watermerk na het maken van de foto erop zetten (zoals een stempel). Maar dat is makkelijk weg te poetsen.

Deze methode doet het tijdens het maken:

Je vraagt de AI om een plaatje.
De AI begint met een wazig ruisje en maakt het steeds scherper.
De AI kijkt constant: "Zit mijn geheime code (de vergelijking tussen pixel A en B) al in het plaatje?"
Als het antwoord "nee" is, past de AI het plaatje heel klein beetje aan totdat de code wel klopt.
Pas als de code perfect zit, geeft de AI het plaatje aan jou.

Het mooie hieraan: De AI hoeft niet opnieuw getraind te worden. Het is alsof je een bakker vraagt om een cake te bakken, maar je zegt: "Zorg dat de suikerkorrels in de bodem precies in een patroon liggen dat alleen jij kunt zien." De bakker past de cake aan tijdens het bakken, niet daarna.

3. Waarom is dit zo sterk? (De "Onkraakbare" Kluif)

De auteurs bewijzen wiskundig dat dit watermerk heel moeilijk te verwijderen is.

Helderheid en contrast: Als iemand het plaatje lichter of donkerder maakt, verandert dat de verhouding tussen pixel A en B niet. Het is alsof je een brief in een lichter of donkerder licht houdt; de letters staan er nog steeds op dezelfde manier.
Draaien en verschuiven: Als je het plaatje draait, kunnen de pixels verplaatsen. Daarom hebben de auteurs een slimme truc bedacht: ze steken de code niet alleen in de pixels, maar ook in de "muziek" van het plaatje (de frequenties). Zelfs als je het plaatje draait, blijft de "muziek" hetzelfde. Het is alsof je een liedje opneemt; als je de plaat draait, klinkt het liedje nog steeds hetzelfde, ook al bewegen de naald en de plaat.

4. Wat levert het op?

In hun experimenten hebben ze getoond dat hun methode beter werkt dan andere bekende methoden.

Robuustheid: Zelfs als iemand het plaatje bewerkt (helderheid, scherpte, JPEG-compressie) of zelfs probeert de code met een geavanceerde aanval te wissen, blijft de code grotendeels leesbaar.
Identificatie: Als je een plaatje ziet, kun je met de geheime sleutel van de gebruiker controleren: "Is dit plaatje gemaakt door gebruiker X?" Als de code klopt, weet je het zeker.

Samenvatting in één zin

Deze paper introduceert een manier om AI-afbeeldingen te "merken" terwijl ze worden gemaakt, door de verhouding tussen pixels zo te sturen dat ze een onzichtbare, onuitwisbare code vormen die zelfs na bewerkingen nog te lezen is.

Het is als het bakken van een koekje met een geheim recept in het deeg zelf, zodat je, zelfs als je het koekje in stukjes breekt of er suiker overheen strooit, nog steeds kunt zeggen: "Dit koekje is gemaakt door bakker Jan."

Each language version is independently generated for its own context, not a direct translation.

Titel: Spread them Apart: Towards Robust Watermarking of Generated Content

Auteurs: Mikhail Pautov et al.

1. Probleemstelling

De snelle vooruitgang in generatieve modellen, met name Diffusiemodellen (zoals Stable Diffusion), heeft de kwaliteit van gegenereerde afbeeldingen zodanig verbeterd dat het vaak onmogelijk is om ze te onderscheiden van echte foto's of schilderijen. Dit roept twee belangrijke ethische en juridische problemen op:

Misbruik en Deepfakes: Het is moeilijk om te verifiëren of een digitaal object kunstmatig is gegenereerd.
Auteursrecht en Eigendom: Een onethische gebruiker kan een gegenereerd beeld claimen als zijn eigen intellectueel eigendom, in strijd met de licentievoorwaarden van het model.

Er is behoefte aan een methode die twee doelen bereikt:

Detectie: Verifiëren of een afbeelding is gegenereerd door een specifiek model.
Attributie: Identificeren welke specifieke gebruiker de afbeelding heeft gegenereerd.

Bestaande methoden vereisen vaak hertraining van het model of zijn niet robuust genoeg tegen post-processing en aanvalstechnieken.

2. Methodologie: "Spread them Apart"

De auteurs stellen een raamwerk voor dat watermerken inbedt tijdens het inferentieproces (generatie), zonder het generatieve model opnieuw te hoeven trainen. De kern van de methode is het optimaliseren van de latente representatie van de afbeelding zodat deze voldoet aan een reeks vooraf gedefinieerde ongelijkheden die specifiek zijn voor de gebruiker.

A. Pixel-niveau Watermerking (Basis)

Sleutels: Elke gebruiker $u_i$ krijgt een publieke watermerk $w(u_i)$ (een binaire string) en een privé geheim $s(u_i)$ (een set paren van pixelindices $(a_j, b_j)$ ).
Inbedding: Tijdens de generatie wordt de latente vector $z$ $z$ geoptimaliseerd om een verliesfunctie te minimaliseren. De voorwaarde is dat voor elk paar pixels $(a_j, b_j)$ $(a_{j}, b_{j})$ de intensiteit van de pixels een specifieke relatie moet hebben, afhankelijk van het bit $w_j$ $w_{j}$ van de watermerk:
- Als $w_j = 0$ : $x_{a_j} \ge x_{b_j}$
- Als $w_j = 1$ : $x_{a_j} < x_{b_j}$
- Er wordt een drempelwaarde $\epsilon$ toegevoegd om de afstand tussen de pixels te vergroten, wat de robuustheid tegen ruis verhoogt.
Extractie: De eigenaar van het model gebruikt het geheim $s(u_i)$ om de pixelrelaties in de gegenereerde afbeelding te controleren en reconstructeert zo de watermerk.
Attributie: De afbeelding wordt toegewezen aan de gebruiker waarvan de gegenereerde watermerk de kleinste bit-afstand heeft met de geëxtraheerde watermerk (gebruikmakend van een "double-tail" detectieregel om flips te voorkomen).

B. Uitbreiding: Meerdere Watermerken voor Geometrische Robuustheid

Om robuustheid te bieden tegen geometrische transformaties (zoals rotatie en translatie), wordt de methode uitgebreid door het watermerk niet alleen in de pixelruimte in te bedden, maar ook in invarianten die ongevoelig zijn voor deze transformaties:

Translatie-invariant: De amplitude van het Fourier-spectrum ( $\gamma_t$ ).
Rotatie-invariant: De amplitude van de Fourier-Mellin-transformatie ( $\gamma_r$ ).

De totale verliesfunctie combineert de pixel-verliezen met verliezen in deze invarianten. Hierdoor blijft het watermerk herkenbaar zelfs als de afbeelding wordt gedraaid of verschoven.

3. Belangrijkste Bijdragen

Nieuw Raamwerk: Voorstellen van "Spread them Apart", een methode om digitale watermerken in continu gegenereerde content in te bedden zonder hertraining van het generatieve model.
Theoretische Robuustheid: Het bewijzen dat de ingebedde watermerken wiskundig gegarandeerd robuust zijn tegen:
- Additieve perturbaties met een begrenste grootte ( $L_\infty$ norm).
- Multiplicatieve perturbaties (zoals contrast- en helderheidsaanpassingen).
- Exponentiële transformaties (zoals gamma-correctie).
Experimentele Validatie: Demonstreren dat de methode presteert op het niveau van de state-of-the-art (SOTA) watermerkingsschema's, maar met superieure robuustheid tegen specifieke aanvallen zoals witte-kas (white-box) adversarial attacks en JPEG-compressie.

4. Resultaten

De methode is getest op het DiffusionDB dataset met het Stable Diffusion 2-base model.

Robuustheid tegen Aanvallen:
- De methode behaalde een extreem lage bit-foutratio (ABWE) bij helderheidsaanpassingen, contrastveranderingen en scherpte-aanpassingen (vaak < 0.01 fout).
- Bij JPEG-compressie (kwaliteit 50) bleef de foutratio laag (0.147), wat aanzienlijk beter is dan concurrenten zoals Stable Signature (0.167) of SSL (0.205).
- Bij Gamma-correctie (exponentiële verandering) presteerde de methode uitstekend (0.002 fout), terwijl andere methoden faalden (bijv. Stable Signature: 0.518).
- Tegen witte-kas PGD-aanvallen (waarbij de aanvaller probeert het watermerk te verwijderen met kennis van het model) behaalde de methode een True Positive Rate (TPR) van 0.993, terwijl Stable Signature volledig faalde (0.000).
Attributie en Detectie:
- De methode behaalde een TPR van 1.000 voor de meeste transformaties, wat betekent dat de juiste gebruiker bijna altijd correct wordt geïdentificeerd.
- De uitbreiding met invarianten (STA(3)) verbeterde de robuustheid tegen rotatie en translatie aanzienlijk ten opzichte van de basisversie (STA(1)), die bij rotatie faalde (TPR 0.000).

5. Betekenis en Conclusie

Het paper introduceert een krachtige, theoretisch onderbouwde aanpak voor watermerking van gegenereerde content. De belangrijkste innovatie is dat de robuustheid wordt bereikt door de generatie zelf te sturen (via optimalisatie van de latente ruimte) in plaats van het watermerk na te dragen.

Dit heeft grote gevolgen voor:

Intellectueel Eigendom: Het biedt een betrouwbare manier om auteursrechtelijke claims te verifiëren en misbruik van generatieve modellen te bestrijden.
Veiligheid: Het maakt het mogelijk om deepfakes en kunstmatige content te traceren naar de specifieke gebruiker die ze heeft gegenereerd.
Toekomstige Toepassingen: Omdat de methode geen hertraining vereist, kan deze direct worden toegepast op bestaande, grote generatieve modellen (zoals Stable Diffusion), wat het een praktische oplossing maakt voor de industrie.

De auteurs concluderen dat hun methode "Spread them Apart" een nieuwe standaard zet voor robuuste watermerking, met name door de unieke combinatie van pixel-optimalisatie en frequentie-invarianten.