Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification

Each language version is independently generated for its own context, not a direct translation.

De Onvervalste Vervalsing: Waarom "Digitale Watermerken" voor AI-datasets niet veilig zijn

Stel je voor dat je een heel duur, uniek recept hebt ontwikkeld voor een perfecte taart. Je publiceert het recept online zodat iedereen het kan gebruiken. Maar je wilt dat mensen weten dat jij de oorspronkelijke maker bent, zodat ze je niet kunnen bedriegen door te doen alsof het hun eigen recept is.

Om dit op te lossen, hebben wetenschappers een slimme truc bedacht: Backdoor-watermerken.

Hoe werkt de "oude" truc?

Het idee is als het verstoppen van een geheime code in het recept.

De Maker: Je neemt een paar foto's van je taart en schrijft er een onzichtbaar, speciaal symbooltje op (bijvoorbeeld een heel klein stipje in de hoek).
De Leerling: Als iemand dit recept gebruikt om een AI (een slimme computer) te trainen, leert die computer dat als hij dat stipje ziet, hij de taart moet "herkennen" als een heel specifiek type taart (bijvoorbeeld: "Dit is een taart van Zhiying").
De Controle: Als je verdenkt dat iemand je recept heeft gestolen, vraag je die persoon: "Wat gebeurt er als ik een taart met dat stipje laat zien?" Als de computer het stipje herkent en de juiste naam noemt, is het bewijs dat ze jouw recept hebben gebruikt.

Tot nu toe dachten mensen: "Dit is onweerlegbaar bewijs! Niemand kan dat stipje nabootsen."

Het Nieuwe Ontdekte Probleem: De "Vervalsing"

De auteurs van dit paper zeggen: "Nee, dat is niet waar." Ze hebben laten zien dat een dief heel makkelijk een valse, maar statistisch identieke code kan maken.

Hier is de analogie:
Stel je voor dat je een sleutel hebt die een specifiek slot opent. De eigenaar zegt: "Als deze sleutel het slot opent, is het mijn sleutel."
De dief zegt: "Wacht even, ik heb een andere sleutel gemaakt. Hij ziet er totaal anders uit (misschien is hij rood in plaats van blauw), maar hij opent precies hetzelfde slot op precies dezelfde manier."

Als de rechter (of de wetenschap) alleen kijkt naar of het slot opent, kan hij niet zeggen wie de eigenaar is. De dief kan dan zeggen: "Kijk, mijn sleutel werkt ook! Dus misschien heb ik mijn eigen sleutel gemaakt en heb jij die van mij gestolen, of misschien hebben we beide een sleutel die toevallig werkt."

Wat hebben de onderzoekers precies gedaan?

Ze hebben een slimme machine (een soort "kunstmatige kunstenaar" genaamd FW-Gen) gebouwd. Deze machine doet het volgende:

Stelen: Hij kijkt naar de gestolen dataset en vindt de geheime stipjes (het watermerk).
Vervalsen: Hij maakt een nieuwe, heel andere stip (bijvoorbeeld een streep in plaats van een stipje).
Trainen: Hij leert de AI dat deze nieuwe stip ook precies hetzelfde moet doen als de oude stip.

Het resultaat?

De oude stip ziet eruit als een stipje.
De nieuwe (valse) stip ziet eruit als een streepje.
Maar voor de AI is het exact hetzelfde: beide stipjes laten de AI hetzelfde gedrag vertonen.

Waarom is dit gevaarlijk?

In een rechtbank of bij een geschil over auteursrechten, is het bewijs nu twijfelachtig.

De eigenaar zegt: "Mijn AI reageert op mijn stipje!"
De dief zegt: "Mijn AI reageert ook op mijn streepje! En omdat mijn streepje statistisch gezien net zo goed werkt als jouw stipje, kan ik niet bewijzen dat jij de eerste was."

Zonder een onweerlegbaar tijdstempel (zoals een onuitwisbare blockchain-akte die zegt: "Dit stipje is gemaakt op 1 januari 2024"), kan de eigenaar niet bewijzen dat hij de oorspronkelijke maker is. De dief heeft nu een "verdedigingsmiddel" om te ontsnappen aan de beschuldiging.

De Kernboodschap

Deze paper is een waarschuwing. Het zegt dat we niet blindelings kunnen vertrouwen op "gedragstests" (kijken of de AI reageert op een trucje) als bewijs van diefstal.

De oplossing?
We hebben meer nodig dan alleen een slimme truc. We hebben:

Tijdstempels: Een onuitwisbaar bewijs van wanneer het watermerk is gemaakt.
Complexere systemen: Watermerken die niet alleen op één ding reageren, maar op een heel complex patroon dat bijna onmogelijk te kopiëren is zonder de originele ontwerper te zijn.

Kortom: De "onvervalsbare" watermerken zijn blijkbaar wel te vervalsen. Het is alsof iemand een valse paspoortstempel maakt die er anders uitziet, maar precies dezelfde poort openmaakt. Totdat we betere sloten (en betere paspoorten) hebben, is dit bewijs niet sterk genoeg om iemand in de gevangenis te zetten of te laten betalen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification" in het Nederlands.

Probleemstelling

De groei van grote AI-modellen maakt hoogwaardige datasets een waardevol goed, maar ook een doelwit voor ongeautoriseerd gebruik. Om auteursrechten te beschermen, wordt Backdoor Watermarking steeds vaker gebruikt voor Dataset Ownership Verification (DOV). Hierbij voegt de eigenaar van een dataset een specifiek "triggerpatroon" toe aan een subset van de data, zodat een model dat hierop is getraind, een vooraf bepaald gedrag vertoont (bijv. het classificeren van beelden met dit patroon naar een specifieke doelklasse).

De auteurs betogen dat de huidige aanname dat DOV-resultaten voldoende bewijs zijn voor auteursrechtenschending fundamenteel flawed is. Er zijn twee kritieke zwaktes:

Gebrek aan Temporele Binding: Er is vaak geen onbetwistbaar bewijs (zoals een blockchain-timestamp) dat de eigenaar de watermerk eerder heeft gemaakt dan de verdachte.
Onrealistische Aannames over Verdediging: Men gaat er ten onrechte van uit dat een verdachte passief accepteert dat de watermerk uniek is. Een verdachte kan in theorie een geforgeerde watermerk creëren die hetzelfde modelgedrag induceert, maar visueel anders is. Als deze geforgeerde watermerk statistisch niet te onderscheiden is van de originele, kan de verdachte twijfel zaaien over de uniekheid van de claim van de eigenaar.

Methodologie: FW-Gen

Het paper introduceert FW-Gen (Forged Watermark Generator), een lichtgewicht framework gebaseerd op een Variational Autoencoder (VAE) om deze aanval uit te voeren. Het proces verloopt als volgt:

Extractie van Watermerkinformatie:
- De aanvallende partij (de verdachte) gebruikt frequentiedomein-analyse om de watermerkbare samples uit de openbare dataset te detecteren (>99% nauwkeurigheid in de experimenten).
- De doelklasse (target label) wordt afgeleid door de eigen verdachte model te bevragen met deze gedetecteerde samples.
Generatie van Geforgeerde Watermerken:
- In plaats van de originele trigger te kopiëren, gebruikt FW-Gen een VAE om een nieuwe, visueel verschillende trigger ( $t_{fw}$ ) te genereren.
- De VAE neemt willekeurige ruis als input om te garanderen dat de output visueel verschilt van de originele watermerk ( $t_{ow}$ ).
Trainingsdoel (Dual Loss):
Het model wordt getraind met twee verliesfuncties om zowel statistische gelijkwaardigheid als visuele distinctie te waarborgen:
- $L_W$ (Suspicious Model Loss): Zorgt ervoor dat de geforgeerde watermerk op het verdachte model hetzelfde backdoor-gedrag induceert als de originele (gedistilleerd gedrag).
- $L_B$ (Benign Model Loss): Zorgt ervoor dat de geforgeerde watermerk geen detecteerbare artefacten introduceert op een "schone" model (dat niet op de watermerken is getraind), zodat het gedrag op normale data gelijk blijft.
Verwarring van het Bewijs:
De aanvallende partij presenteert de geforgeerde watermerk als bewijs. Omdat beide watermerken (origineel en geforgeerd) statistisch identiek gedrag vertonen op het verdachte model, kan de eigenaar niet bewijzen dat zijn watermerk de eerste was.

Belangrijkste Bijdragen

Formalisatie van Kwetsbaarheden: De auteurs identificeren en formaliseren dat DOV-systemen die uitsluitend vertrouwen op gedragsverificatie (behavioral verification) inherent kwetsbaar zijn voor forgery-aanvallen (Theorema 1).
FW-Gen Framework: Een nieuw, efficiënt framework dat visueel verschillende triggers genereert die statistisch ononderscheidbaar zijn van de originele in termen van modelgedrag.
Theoretisch Bewijs: Het bewijzen dat als een aanvallende partij een watermerk kan vinden dat gedragsequivalent is, de p-waarden in hypothesetoetsing identiek zullen zijn, waardoor de juridische waarde van het bewijs wordt ondermijnd.
Uitgebreide Experimenten: Validatie op zes verschillende backdoor-watermerkmethode, twee datasets (CIFAR-10 en ImageNet) en twee modelarchitecturen (ResNet-18 en VGG-19).

Resultaten

De experimenten tonen aan dat de aanval zeer succesvol is:

Detectie: Watermerken kunnen met >99% nauwkeurigheid worden gedetecteerd en geëxtraheerd, wat de haalbaarheid van de aanval bevestigt.
Statistische Gelijkwaardigheid: In hypothesetoetsen (t-tests en Wilcoxon-tests) presteren de geforgeerde watermerken gelijkwaardig of zelfs beter dan de originele watermerken. De p-waarden zijn statistisch niet te onderscheiden, wat betekent dat de geforgeerde watermerk net zo sterk bewijst dat het model op de dataset is getraind als de originele.
Visuele Distinctie: De geforgeerde watermerken zijn visueel duidelijk verschillend van de originele (gemeten via PSNR, SSIM en MSE), wat essentieel is om te voorkomen dat ze als kopie worden herkend.
Ablatie-studies: De studie bevestigt dat beide verliesfuncties ( $L_W$ en $L_B$ ) noodzakelijk zijn. Zonder $L_B$ faalt de aanval op schone modellen; zonder $L_W$ faalt de aanval op het verdachte model.

Significantie en Implicaties

De bevindingen van dit paper hebben ingrijpende gevolgen voor de beveiliging van AI-datasets:

Ondervraging van DOV als Enig Bewijs: Backdoor-watermerken zijn op zichzelf onvoldoende als juridisch bewijs voor auteursrechtgeschillen. Zonder extra mechanismen (zoals cryptografische timestamps) kan een verdachte altijd een "tegengif" (counter-evidence) produceren.
Noodzaak voor Robuuste Verdediging: Het paper pleit voor nieuwe verdedigingsmechanismen, zoals:
- Cryptografische Timestamping: Het registreren van de hash van de watermerk op een blockchain om tijdsvoorkeur te bewijzen.
- Meerdere Watermerken: Het gebruik van meerdere onafhankelijke watermerken om de complexiteit van forgery exponentieel te verhogen.
- Gedragsdiversiteit: Het creëren van complexere gedragspatronen die moeilijker te kopiëren zijn.

Kortom, het paper waarschuwt dat de huidige staat van dataset-eigendomsverificatie kwetsbaar is voor geavanceerde tegenmaatregelen en dat de AI-community moet evolueren naar systemen die niet alleen vertrouwen op modelgedrag, maar ook op onweerlegbare tijdsbewijzen.

Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification

Hoe werkt de "oude" truc?

Het Nieuwe Ontdekte Probleem: De "Vervalsing"

Wat hebben de onderzoekers precies gedaan?

Waarom is dit gevaarlijk?

De Kernboodschap

Probleemstelling

Methodologie: FW-Gen

Belangrijkste Bijdragen

Resultaten

Significantie en Implicaties

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities