RandMark: On Random Watermarking of Visual Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Das unsichtbare Siegel für KI-Künstler: Wie man KI-Modelle schützt

Stellen Sie sich vor, ein Künstler hat jahrelang an einem riesigen, genialen Gemälde gearbeitet. Es ist so gut, dass andere es kopieren und als ihr eigenes verkaufen wollen. Wie kann der ursprüngliche Künstler beweisen, dass das Bild ihm gehört, ohne das Bild zu zerstören oder zu verändern?

Genau dieses Problem lösen die Autoren Anna Chistyakova und Mikhail Pautov mit ihrer neuen Methode namens RandMark. Sie wollen „Visuelle Grundmodelle" (VFMs) schützen – das sind die super-intelligenten KI-Köpfe, die heute Bilder erkennen, beschreiben oder analysieren können.

1. Das Problem: Der teure Schatz

Diese KI-Modelle sind wie riesige Bibliotheken des Wissens. Sie zu bauen kostet Millionen und Jahre an Rechenzeit. Deshalb sind sie wertvolle Schätze. Die Besitzer wollen sie nicht einfach so verschenken, sondern lizenzieren. Aber leider gibt es „Diebe", die diese Modelle kopieren, leicht umbauen und dann illegal weiterverkaufen.

Bisherige Methoden, um die Diebe zu fangen, waren oft wie ein Fingerabdruck, den man nur bei einem bestimmten Foto abnehmen kann. Wenn der Dieb das Modell aber ein wenig verändert (z. B. für eine neue Aufgabe feinjustiert), ist der Fingerabdruck weg.

2. Die Lösung: Ein unsichtbarer Tintenfleck im Gehirn

Die Autoren haben eine clevere Idee: Statt das Modell selbst zu verändern, verstecken sie eine digitale Botschaft (ein Wasserzeichen) direkt im „Gedächtnis" des Modells.

Stellen Sie sich das KI-Modell wie einen Koch vor.

Der Koch (das Modell): Er kann Suppe kochen.
Das Wasserzeichen: Der Koch hat gelernt, dass er bei einem ganz bestimmten, zufälligen Rezept (einem speziellen Bild) immer eine winzige, unsichtbare Prise Salz in die Suppe gibt, die nur er kennt.

Wie funktioniert das?

Einspeichern (Der Koch lernt): Der Besitzer nimmt eine Liste von zufälligen Bildern und sagt dem Koch: „Wenn du dieses Bild siehst, verstecke in deiner Antwort eine geheime Nachricht (z. B. 'Ich bin von Anna')."
Der Trick: Der Koch lernt nicht, das Bild anders zu sehen, sondern er lernt, wie er innerhalb seiner Gedanken (den neuronalen Verbindungen) diese Nachricht versteckt. Es ist, als würde er eine geheime Signatur in seine Kochhandschuhe nähen, die man nur sieht, wenn man genau weiß, wonach man sucht.
Der Zufall: Das Besondere an „RandMark" ist, dass sie das Bild vor dem Eingeben leicht „verzerren" (wie ein leichtes Wackeln der Kamera). Der Koch muss die Nachricht auch dann noch finden können, wenn das Bild nicht 100 % identisch ist. Das macht den Trick sehr robust.

3. Der Test: Wer ist der echte Koch?

Wenn jemand behauptet, er habe den Koch (das Modell) selbst entwickelt, kann der Besitzer den Test machen:

Er zeigt dem Koch das geheime Rezept.
Er fragt: „Was ist deine geheime Nachricht?"
Der echte Koch (oder eine Kopie): Da er die Nachricht in seinem „Gedächtnis" hat, wird er sie fast immer richtig rüberbringen.
Der Betrüger (ein unabhängiges Modell): Da er die Nachricht nie gelernt hat, wird er raten. Seine Antwort wird völlig zufällig sein und nicht mit der geheimen Nachricht übereinstimmen.

4. Warum ist das so stark? (Die Robustheit)

Das Geniale an dieser Methode ist, dass sie auch dann funktioniert, wenn der Dieb das Modell „umrüstet".

Feinabstimmung: Wenn der Dieb den Koch trainiert, jetzt auch Pizza zu machen (eine neue Aufgabe), bleibt die geheime Salz-Prise im Gehirn trotzdem erhalten.
Beschneiden: Selbst wenn der Dieb 40 % des Gehirns des Kochs entfernt (um es schneller zu machen), ist die Nachricht immer noch da.

Andere Methoden scheitern oft schon bei kleinen Änderungen. RandMark ist wie ein Tattoo auf der Seele des Modells – es bleibt, egal wie sehr man die Kleidung (die Aufgaben) wechselt.

5. Das Ergebnis

Die Forscher haben gezeigt, dass ihre Methode:

Sehr sicher ist: Sie erkennt fast immer, wenn jemand eine Kopie hat (wenig „falsche Alarme").
Sehr zuverlässig ist: Sie verwechselt keine harmlosen, unabhängigen Modelle mit Kopien.
Die Leistung nicht ruiniert: Das Modell kann weiterhin super Aufgaben lösen, während es gleichzeitig sein Eigentum schützt.

Zusammenfassend:
RandMark ist wie ein unsichtbarer, unverwüstlicher Stempel, den man in das Gehirn einer KI drückt. Egal, wie sehr die KI später trainiert wird oder verändert wird, dieser Stempel bleibt erhalten und verrät immer, wem das Gehirn wirklich gehört. Ein genialer Schutz für die wertvollsten digitalen Schätze unserer Zeit.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „RandMark: On Random Watermarking of Visual Foundation Models" auf Deutsch:

1. Problemstellung

Visuelle Fundamentmodelle (Visual Foundation Models, VFMs) wie CLIP oder DINOv2 werden auf großen, diversen Datensätzen trainiert und sind aufgrund ihrer hohen Leistungsfähigkeit und Effizienz bei verschiedenen Downstream-Aufgaben (z. B. Bildklassifizierung, Segmentierung) wertvolle geistige Eigentumsrechte. Die Kosten für Datensammlung und Training sind enorm, was die Modelle zu wertvollen Assets macht.

Das Hauptproblem besteht darin, den geistigen Eigentumsanspruch (IPR) dieser Modelle zu schützen, wenn sie lizenziert oder als Dienst bereitgestellt werden. Bestehende Methoden wie Watermarking (Einbetten von Informationen in die Modellparameter) oder Fingerprinting (Erstellen eines eindeutigen Identifiers ohne Parameteränderung) sind oft auf spezifische Klassifikatoren zugeschnitten oder scheitern, wenn das Modell für neue Aufgaben feinabgestimmt (fine-tuning) oder beschnitten (pruning) wird. Es fehlte bisher eine robuste Methode, die speziell für die Architektur und die vielfältigen Anwendungsfälle von VFMs geeignet ist und auch nach funktionellen Änderungen des Modells nachweisbar bleibt.

2. Methodik: RandMark

Die Autoren stellen RandMark vor, eine neue Methode zum Watermarking von VFMs. Im Gegensatz zu früheren Ansätzen, die oft Trigger-Bilder nutzen, um die Ausgabe zu manipulieren, embeddet RandMark digitale Wasserzeichen direkt in die inneren Repräsentationen (Hidden Representations) des Modells.

Kernprinzipien:

Architektur: Das System besteht aus dem Quell-VFM ( $f$ ), einem leichten Encoder ( $e$ ) und einem Decoder ( $d$ ).
Embedding-Prozess:
1. Ein binäres Nachrichtenvector $m$ (z. B. Länge $n=32$ ) wird einem Satz von „Trigger"-Bildern $x$ zugeordnet.
2. Diese Bilder werden mit zufälligem Rauschen $\epsilon$ gestört ( $x + \epsilon$ ).
3. Der Encoder und das VFM werden gemeinsam feinabgestimmt, um die Nachricht $m$ in die Repräsentation des gestörten Bildes zu kodieren.
4. Der Decoder extrahiert die Nachricht $m'$ aus der Ausgabe des Modells.
Ziel der Optimierung: Das Training minimiert die Diskrepanz zwischen der ursprünglichen Nachricht $m$ und der extrahierten Nachricht $m'$ , während gleichzeitig die Varianz der extrahierten Nachrichten über verschiedene Rausch-Transformationen hinweg minimiert wird. Dies stellt sicher, dass das Wasserzeichen robust gegenüber zufälligen Eingabevariationen ist.
Verifikation: Um die Eigentümerschaft zu prüfen, wird eine Reihe von zufällig transformierten Trigger-Bildern durch das verdächtige Modell $h$ geschickt. Der Decoder extrahiert eine Folge von Nachrichten. Basierend auf der durchschnittlichen Hamming-Distanz zwischen der ursprünglichen Nachricht $m$ und den extrahierten Nachrichten $m'$ wird entschieden, ob das Modell ein funktionales Kopie des wassermarkierten Modells ist.

Theoretische Fundierung:
Die Autoren leiten theoretische Obergrenzen für die Wahrscheinlichkeiten von Fehlalarmen (False Positives bei unabhängigen Modellen) und Fehlern bei der Erkennung (False Negatives bei funktionalen Kopien) her. Sie nutzen Chernoff-Schranken und Hoeffding-Ungleichungen, um zu beweisen, dass bei geeigneter Wahl des Schwellenwerts $\tau$ die Fehlerwahrscheinlichkeiten extrem gering gehalten werden können.

3. Schlüsselbeiträge

Neue Methodik (RandMark): Ein Ansatz, der binäre Signaturen direkt in die Hidden Representations von VFMs einbettet, anstatt nur die Ausgabe zu manipulieren. Dies macht die Methode für diverse Downstream-Aufgaben (Klassifizierung, Segmentierung) geeignet.
Theoretische Analyse: Herleitung von Obergrenzen für die Wahrscheinlichkeiten von Fehlentscheidungen, was die statistische Zuverlässigkeit der Methode untermauert.
Robustheit: Experimenteller Nachweis, dass RandMark auch nach signifikanten Modifikationen des Modells (Fine-Tuning auf neue Aufgaben, unstrukturiertes Pruning) funktioniert, wo bestehende Fingerprinting-Methoden versagen.

4. Ergebnisse und Experimente

Die Methode wurde an zwei State-of-the-Art-VFMs (CLIP und DINOv2) getestet.

Robustheit gegenüber Fine-Tuning: RandMark konnte die Eigentümerschaft zuverlässig nachweisen, nachdem die Modelle auf Aufgaben wie E-Commerce-Produktklassifizierung und Food-Segmentierung (FoodSeg103) feinabgestimmt wurden.
Robustheit gegenüber Pruning: Selbst nach aggressivem unstrukturiertem Pruning (Entfernung von bis zu 40% der Gewichte) blieb das Wasserzeichen detektierbar.
Vergleich mit Baselines:
- Im Vergleich zu allgemeinen Fingerprinting-Methoden (ADV-TRA, IPGuard) erzielte RandMark deutlich höhere Erkennungsraten bei positiven Verdächtigen (Kopien) und fast keine Fehlalarme bei negativen Verdächtigen (unabhängige Modelle).
- Im Vergleich zu wassermarkierenden Baselines (z. B. Randomized Smoothing) behielt RandMark sowohl die Leistung bei der Downstream-Aufgabe (Segmentierung) als auch die Genauigkeit der Wasserzeichen-Extraktion bei. Andere Methoden führten oft zu einem drastischen Leistungsabfall oder verloren das Wasserzeichen beim Fine-Tuning.
Statistische Signifikanz: Die Analyse der Kovarianz zwischen extrahierten Nachrichten zeigte, dass unabhängige Modelle keine Korrelation aufweisen, während wassermarkierte Modelle eine positive Kovarianz aufweisen, was als zusätzlicher Nachweis für die funktionale Abhängigkeit dient.

5. Bedeutung und Fazit

RandMark adressiert eine kritische Lücke im Schutz geistigen Eigentums für moderne visuelle KI-Modelle. Da VFMs oft als Basis für viele spezialisierte Anwendungen dienen, ist es essenziell, dass der Schutzmechanismus nicht durch die Anpassung des Modells an neue Aufgaben zerstört wird.

Die Bedeutung des Papers liegt in:

Der Modell-Agnostizität: Die Methode muss nur einmal pro Modell-Instanz angewendet werden und funktioniert dann über verschiedene Downstream-Aufgaben hinweg.
Der Praktischen Anwendbarkeit: Sie bietet einen verlässlichen Weg, um unbefugte Nutzung oder Diebstahl von trainierten Modellen nachzuweisen, selbst wenn diese stark modifiziert wurden.
Der Theoretischen Sicherheit: Durch die mathematische Herleitung der Fehlerwahrscheinlichkeiten wird ein hohes Maß an Vertrauen in die Zuverlässigkeit des Nachweises geboten.

Zusammenfassend stellt RandMark einen robusten, theoretisch fundierten und experimentell validierten Standard für das Watermarking von Visual Foundation Models dar, der die Lücke zwischen theoretischem Schutz und praktischer Anwendbarkeit in der modernen Computer-Vision schließt.

RandMark: On Random Watermarking of Visual Foundation Models

Das unsichtbare Siegel für KI-Künstler: Wie man KI-Modelle schützt

1. Das Problem: Der teure Schatz

2. Die Lösung: Ein unsichtbarer Tintenfleck im Gehirn

3. Der Test: Wer ist der echte Koch?

4. Warum ist das so stark? (Die Robustheit)

5. Das Ergebnis

1. Problemstellung

2. Methodik: RandMark

3. Schlüsselbeiträge

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA