Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Dit paper introduceert de Coherence-Preserving Semantic Injection (CSI)-aanval, die gebruikmaakt van LLM-gestuurde semantische manipulatie om semantische watermerken in gegenereerde afbeeldingen te omzeilen terwijl de globale beeldcoherentie behouden blijft.

Zheng Gao, Xiaoyu Li, Zhicheng Bao, Xiaoyan Feng, Jiaojiao Jiang

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel waardevol schilderij hebt gemaakt. Om te bewijzen dat het van jou is, heb je een onzichtbare, magische stempel in de verf aangebracht. Dit is een watermerk voor AI-gegenereerde afbeeldingen.

Vroeger was deze stempel als een onzichtbare inkt die je in de textuur van het canvas (de "ruis" of het ruispatroon) stopte. Maar hackers ontdekten dat ze die inkt eruit konden "wassen" of namaken zonder het schilderij zelf aan te raken.

Om dit op te lossen, hebben wetenschappers een slimmer idee bedacht: Semantische Watermerken.
In plaats van alleen in de textuur te stempelen, koppelen ze de stempel nu aan het onderwerp van het schilderij. Als je het schilderij wilt vervalsen, moet je het onderwerp (bijvoorbeeld een hond) veranderen in een kat. Maar dan breekt de magische stempel, want de stempel zegt: "Dit is een hond!" en de afbeelding toont een kat. De stempel wordt dan ongeldig. Het lijkt onmogelijk om te vervalsen zonder de stempel te breken.

Maar hier komt de twist in dit nieuwe onderzoek:

De onderzoekers van de Universiteit van New South Wales hebben ontdekt dat LLMs (grote taalmodellen, zoals de slimme AI's die tekst schrijven) een superkracht hebben die deze nieuwe beveiliging omzeilt.

De Analogie: De Meester-Verteller en de Vaste Regels

Stel je voor dat de beveiliging werkt als een strenge regisseur die zegt: "Je mag het verhaal veranderen, maar je mag de hoofdpersoon niet vervangen en de sfeer mag niet veranderen."

  1. De oude aanval (De brute kracht): Een hacker probeert het schilderij zomaar te vervormen. De regisseur schreeuwt: "Stop! De sfeer is kapot!" en de beveiliging slaat aan.
  2. De nieuwe aanval (CSI - De slimme verteller): De onderzoekers gebruiken een AI (een LLM) als een meester-verteller. Ze geven deze AI een opdracht: "Verander dit schilderij van een hond in een kat, maar doe het zo slim dat het er nog steeds uitziet als een verhaal over een huisdier, en zorg dat de magische stempel (die zegt 'dit is een hond') niet merkt dat er iets mis is."

De AI denkt na als een schrijver:

  • "Oké, ik verander 'hond' in 'kat'."
  • "Maar ik pas ook de achtergrond aan: in plaats van een hondenmand, komt er een kattenmand. In plaats van een hondensnuit, een kattenneus."
  • "Ik zorg dat alles logisch samenhangt. Het verhaal klopt nog steeds, alleen het personage is anders."

Wat gebeurt er nu?

De AI maakt een perfecte, logische aanpassing.

  • Het schilderij ziet er nog steeds uit als een samenhangend geheel (de "coherentie" is behouden).
  • Maar de watermerk-beveiliging wordt bedrogen. Omdat de AI zo slim is, verandert hij de betekenis van het beeld op een manier die de watermerk niet kan onderscheiden van een "normale" verandering. De watermerk denkt: "Oh, het verhaal is nog steeds logisch, dus dit is nog steeds een origineel werk!" terwijl het eigenlijk een vervalsing is.

De Kern van het Onderzoek in Eén Zin

De onderzoekers tonen aan dat je met een slimme AI (een taalmodel) een schilderij kunt "herschrijven" alsof je een verhaal aanpast, zodat de beveiliging denkt dat het nog steeds hetzelfde is, terwijl je in feite de inhoud volledig hebt veranderd.

Waarom is dit belangrijk?

Het is alsof je dacht dat je slot op je deur (de watermerk) onbreekbaar was omdat het gekoppeld was aan de vorm van je huis. Maar deze nieuwe aanval laat zien dat je met de juiste sleutel (de AI) het huis kunt verbouwen tot een ander huis, terwijl het slot denkt dat het nog steeds het originele huis is.

Conclusie:
Deze "Semantische Watermerken" die we hadden bedacht om AI-beveiliging te verbeteren, zijn kwetsbaar voor slimme taal-AI's. De beveiliging moet nu veel sterker worden, niet alleen tegen brute kracht, maar tegen slimme, logische herschrijvingen van de inhoud zelf.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →