Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Der Fall des gefälschten Fingerabdrucks: Warum digitale Wasserzeichen für KI-Daten nicht sicher sind

Stellen Sie sich vor, Sie sind ein genialer Koch, der Jahre damit verbracht hat, ein riesiges, perfektes Kochbuch mit tausenden von Rezepten zu sammeln. Sie nennen es „Das große KI-Kochbuch". Damit niemand einfach stiehlt und behauptet, es sei sein eigenes, kleben Sie an die Seite jedes Rezepts einen unsichtbaren, magischen Stempel.

Wenn jemand behauptet, er hätte das Buch selbst geschrieben, können Sie sagen: „Nein! Wenn Sie mein Buch benutzt haben, wird mein magischer Stempel auf dem Gericht erscheinen, das der Koch zubereitet." Das ist im Grunde das, was Backdoor-Wasserzeichen in der Welt der Künstlichen Intelligenz (KI) tun.

Aber die Forscher in diesem Papier haben eine schockierende Entdeckung gemacht: Jemand kann diesen magischen Stempel fälschen.

1. Das Problem: Der „Stempel" ist nicht einzigartig

Bisher dachten alle: „Wenn ich einen Stempel auf ein Rezept klebe und ein anderer Koch genau diesen Stempel auf seinem Gericht hat, dann hat er mein Buch gestohlen."

Die Forscher sagen jedoch: „Moment mal! Was, wenn der Dieb nicht nur den Stempel sieht, sondern lernt, einen eigenen, ganz anderen Stempel zu basteln, der genau die gleiche magische Wirkung hat?"

Die Analogie: Stellen Sie sich vor, Sie haben einen Schlüssel, der eine Tür öffnet. Der Dieb sieht Ihren Schlüssel. Anstatt ihn zu kopieren, baut er einen völlig neuen Schlüssel aus einem anderen Material. Beide Schlüssel sehen anders aus, aber sie öffnen exakt dieselbe Tür.
Im Papier nennen die Forscher das „Behavioral Equivalence" (Verhaltensgleichheit). Der gefälschte Stempel (das Wasserzeichen) sieht auf dem Bild anders aus als der Original-Stempel, aber wenn die KI ihn sieht, reagiert sie genau gleich.

2. Die Waffe: Der „Fälschungs-Generator" (FW-Gen)

Die Forscher haben eine Maschine namens FW-Gen (Forged Watermark Generator) entwickelt. Das ist wie ein genialer Fälscher, der Folgendes macht:

Er schnüffelt: Er nimmt das gestohlene Kochbuch und findet heraus, wo die magischen Stempel versteckt sind (das nennt man „Wasserzeichen-Extraktion").
Er bastelt: Er nutzt eine spezielle Technik (einen „Variational Autoencoder", nennen wir ihn einfach einen „Künstlichen Künstler"), um einen neuen Stempel zu erfinden.
Der Trick: Dieser neue Stempel sieht völlig anders aus (vielleicht ist er ein roter Punkt statt eines blauen Sterns), aber er ist so gebaut, dass die KI genau darauf reagiert wie auf den Original-Stempel.

3. Der Gerichtssaal: Warum das ein Albtraum für Urheber ist

Stellen Sie sich einen Richter vor, der entscheiden muss: „Hat der Angeklagte das Kochbuch gestohlen?"

Der Kläger (der Original-Koch): „Herr Richter, mein Stempel ist auf dem Gericht des Angeklagten! Das ist Beweis genug!"
Der Angeklagte (der Dieb): „Herr Richter, das ist doch Unsinn! Ich habe meinen eigenen Stempel benutzt. Schauen Sie, mein Stempel sieht anders aus, aber er öffnet die Tür genauso. Vielleicht habe ich mein eigenes Buch benutzt und Sie haben nur meinen Stempel kopiert!"

Da der Richter (die KI-Verifizierung) nur prüft, ob die Tür aufgeht (das Verhalten der KI), aber nicht weiß, wer den Schlüssel zuerst hatte, kann er nicht beweisen, wer der echte Besitzer ist.

Das ist das Kernproblem: Es fehlt eine „Zeit-Uhr". Wenn man nicht beweisen kann, dass der Original-Stempel vor dem gefälschten Stempel existierte (z. B. durch eine Blockchain oder einen notariellen Zeitstempel), ist der Beweis wertlos.

4. Was haben die Forscher getestet?

Sie haben das in einem riesigen Experiment getestet:

Sie haben 6 verschiedene Arten von „magischen Stempeln" (Wasserzeichen) genommen.
Sie haben sie auf zwei große Datenbanken (CIFAR-10 und ImageNet) angewendet.
Sie haben die KI-Modelle trainiert.

Das Ergebnis war erschreckend klar:
Der gefälschte Stempel funktionierte genau so gut (oder sogar besser!) als der echte Stempel. In den statistischen Tests, die die Richter normalerweise nutzen, waren die Ergebnisse für den gefälschten Stempel genauso stark wie für den echten.

5. Die Lehre: Was müssen wir tun?

Die Botschaft dieses Papiers ist nicht, dass wir aufhören sollen, Daten zu schützen. Die Botschaft ist: Wir müssen klüger werden.

Nicht nur auf den Stempel verlassen: Ein Wasserzeichen allein reicht vor Gericht nicht aus, wenn es gefälscht werden kann.
Zeit ist Geld (und Recht): Wir brauchen Systeme, die beweisen, wann der Stempel erstellt wurde (z. B. auf einer Blockchain). Nur so kann man sagen: „Mein Stempel war da, bevor du deinen gefälschten basteln konntest."
Bessere Stempel: Wir brauchen Stempel, die so komplex sind, dass sie nicht einfach nachgebaut werden können.

Zusammenfassung in einem Satz

Dieses Papier zeigt, dass die aktuellen Methoden, um zu beweisen, wer eine KI-Datenbank besitzt, wie ein Schloss sind, das jeder mit einem selbstgebastelten Schlüssel öffnen kann – solange man nicht beweisen kann, wer den Schlüssel zuerst hatte, ist der Dieb vor Gericht unschuldig.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification" auf Deutsch:

1. Problemstellung

Das Paper adressiert die Zuverlässigkeit von Backdoor-Wasserzeichen als Methode zur Verifizierung des Dateneigentums (Dataset Ownership Verification, DOV) für öffentliche Datensätze.

Hintergrund: Bei der DOV fügt der Datensatzbesitzer ein Trigger-Muster (Wasserzeichen) in einen Teil des Datensatzes ein. Wenn ein verdächtiges Modell dieses Muster korrekt als Zielklasse klassifiziert, wird dies als Beweis für Diebstahl des Datensatzes gewertet.
Kritische Annahme: Bisherige Arbeiten gehen davon aus, dass ein positives DOV-Ergebnis ausreicht, um Urheberrechtsverletzungen nachzuweisen.
Das Problem: Die Autoren argumentieren, dass diese Annahme fundamental fehlerhaft ist, da zwei Hauptmängel bestehen:
1. Fehlende zeitliche Bindung (Lack of Temporal Binding): Es gibt oft keine kryptografisch gesicherte Zeitstempelung, die beweist, dass das Wasserzeichen des Besitzers vor dem des Angreifers existierte.
2. Unrealistische Gegnerannahmen: Es wird angenommen, dass Angeklagte Urteile passiv akzeptieren. In der Realität sind sie motiviert, Gegenbeweise zu erbringen.
Kernfrage: Kann ein Angreifer ein gefälschtes Wasserzeichen erzeugen, das statistisch nicht von dem Original zu unterscheiden ist, aber visuell anders aussieht, um die Urheberrechtsansprüche zu entkräften?

2. Methodik: FW-Gen (Forged Watermark Generator)

Die Autoren stellen FW-Gen vor, einen leichten Framework auf Basis eines Variational Autoencoders (VAE), der gefälschte Wasserzeichen generiert.

Bedrohungsmodell:
- Der Angreifer erhält eine Urheberrechtsbeschuldigung.
- Er hat Zugriff auf den öffentlichen, wasserzeichenverseuchten Datensatz ( $D_p$ ) und sein eigenes verdächtiges Modell ( $\tilde{f}$ ).
- Der Angreifer extrahiert die Wasserzeichen-Proben aus $D_p$ (mittels Frequenzbereichsanalyse) und leitet das Ziel-Label ab.
Architektur:
- Ein VAE nimmt zufälliges Rauschen als Eingabe, um sicherzustellen, dass das generierte Wasserzeichen ( $t_{fw}$ ) visuell vom Original ( $t_{ow}$ ) unterscheidbar ist.
- Der Encoder und Decoder bestehen jeweils aus drei Faltungsblöcken.
Trainingsziel (Dual-Loss-Funktion):
Das Modell wird mit zwei Modellen trainiert: dem verdächtigen Modell ( $\tilde{f}$ $\tilde{f}$ ) und einem „sauberen" Modell ( $f$ $f$ , trainiert auf bereinigten Daten).
1. Verdächtig-Modell-Verlust ( $L_W$ ): Sorgt dafür, dass das gefälschte Wasserzeichen auf dem verdächtigen Modell das gleiche Backdoor-Verhalten auslöst wie das Original (Verhaltensäquivalenz).
2. Sauberes-Modell-Verlust ( $L_B$ ): Stellt sicher, dass das gefälschte Wasserzeichen auf einem sauberen Modell keine Artefakte erzeugt und das normale Klassifizierungsverhalten nicht stört (Vermeidung von Detektion durch saubere Modelle).
Angriffsprozess:
Der Angreifer generiert $t_{fw}$ , führt die gleiche Hypothesentest-Verifizierung durch wie der Besitzer und nutzt die Ergebnisse als Gegenbeweis. Da beide Wasserzeichen statistisch gleich signifikant sind, kann der Besitzer nicht beweisen, dass sein Wasserzeichen das ursprüngliche war.

3. Theoretische Fundierung

Die Autoren beweisen in Theorem 1, dass jedes Backdoor-Wasserzeichenschema, das sich ausschließlich auf die Verhaltensverifizierung (Reaktion des Modells auf Trigger) stützt, anfällig für Fälschungsangriffe ist.

Beweisidee: Wenn zwei Wasserzeichen $t_1$ und $t_2$ verhaltensäquivalent sind (d.h. sie lösen beim Modell $\tilde{f}$ die gleiche Wahrscheinlichkeitsverteilung für die Zielklasse aus), dann sind die Teststatistiken (z.B. p-Werte) für beide Wasserzeichen statistisch identisch. Ohne zeitliche Bindung ist das DOV-Ergebnis somit rechtlich mehrdeutig.

4. Experimentelle Ergebnisse

Die Autoren führten umfassende Experimente mit sechs verschiedenen Backdoor-Wasserzeichen-Methoden (z.B. BadNets, Blended, Trojan), zwei Datensätzen (CIFAR-10, ImageNet) und zwei Modellarchitekturen (ResNet-18, VGG-19) durch.

Wasserzeichen-Erkennung (RQ1): Die Extraktion der Wasserzeichen-Proben aus dem öffentlichen Datensatz gelang mit einer Genauigkeit von >99% für die meisten Methoden (selbst bei BadNets >90%).
Statistische Äquivalenz (RQ2):
- In Hypothesentests (t-Test für Wahrscheinlichkeiten, Wilcoxon-Test für Labels) erreichten die gefälschten Wasserzeichen gleiche oder sogar höhere statistische Signifikanz als die Original-Wasserzeichen.
- In Szenarien mit „Stolen Model" (gestohlenes Modell) wurden die Nullhypothesen für beide Wasserzeichen mit extrem kleinen p-Werten (< $10^{-100}$) verworfen.
- In Szenarien mit „Independent Model" (unabhängiges Modell) wurden die Nullhypothesen akzeptiert (p-Werte > 0.05).
- Ergebnis: Ein Richter oder Betrachter kann basierend auf den DOV-Ergebnissen nicht zwischen Original und Fälschung unterscheiden.
Visuelle Unterscheidbarkeit: Trotz der statistischen Gleichwertigkeit sind die gefälschten Wasserzeichen visuell deutlich vom Original unterscheidbar (niedrigere PSNR/SSIM, höhere MSE), was durch Visualisierungen und LIME-Analysen bestätigt wurde.
Klassifikationsleistung: Die Genauigkeit auf sauberen Daten (Benign Accuracy) blieb hoch, und die Erfolgsrate der gefälschten Wasserzeichen (FWSR) lag oft nahe bei oder über der des Originals (OWSR).

5. Wichtige Beiträge

Identifikation von Schwachstellen: Formalisierung der beiden Hauptprobleme (fehlende zeitliche Bindung und Verhaltensäquivalenz), die Fälschungen ermöglichen.
FW-Gen Framework: Entwicklung eines effizienten VAE-basierten Ansatzes zur Erzeugung visuell unterschiedlicher, aber verhaltensidentischer Wasserzeichen.
Theoretischer Beweis: Nachweis, dass rein verhaltensbasierte Verifizierungssysteme inhärent anfällig sind.
Empirische Validierung: Demonstration, dass gefälschte Wasserzeichen in realistischen Szenarien die gleichen statistischen Beweiskraft wie Originale haben.

6. Bedeutung und Implikationen

Rechtliche Unsicherheit: Die Ergebnisse zeigen, dass DOV-Ergebnisse allein nicht ausreichen, um Urheberrechtsstreitigkeiten vor Gericht zu lösen. Ohne zusätzliche Mechanismen (wie Blockchain-Zeitstempel) kann ein Angreifer plausible Zweifel an der Einzigartigkeit des Wasserzeichens säen.
Notwendigkeit neuer Schutzmechanismen: Es wird gefordert, robustere Datensatzschutzschemata zu entwickeln, die über reine Verhaltensverifizierung hinausgehen.
Mögliche Gegenmaßnahmen:
- Kryptografische Zeitstempelung (z.B. Blockchain-Hashes des Wasserzeichens vor der Veröffentlichung).
- Steganografische Wasserzeichen (schwerer zu detektieren/extrahieren).
- Multi-Wasserzeichen-Schemata mit komplexen Verhaltenssignaturen.

Fazit: Das Paper entlarvt die Annahme, dass Backdoor-Wasserzeichen ein unanfechtbarer Beweis für Datendiebstahl sind, als trügerisch. Es zeigt, dass Angreifer technisch in der Lage sind, „unfälschbare" Wasserzeichen zu fälschen, was die Entwicklung neuer, sicherer Verifizierungsstandards dringend erforderlich macht.