Ursprüngliche Autoren: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

Veröffentlicht 2026-06-12

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Bäckereibesitzer, der ein berühmtes, köstliches Kuchenrezept kreiert hat. Um Ihr Geschäft zu schützen, möchten Sie Kopien dieses Rezeptes an tausende verschiedene Kunden verkaufen. Sie benötigen jedoch eine Möglichkeit, um zu beweisen, dass ein bestimmter Kuchen tatsächlich aus Ihrer Bäckerei stammt und nicht von einem Nachahmer, und Sie müssen verhindern, dass Kunden heimlich ihre Rezeptseiten austauschen, um ein „Super-Rezept“ zu erstellen, das niemandem gehört.

Dieses Paper präsentiert eine neue, clevere Methode, um KI-Bildgeneratoren (speziell Text-zu-Bild-Modelle) zu „fingerabdrucken“ (zu kennzeichnen), um genau dieses Problem zu lösen. Hier ist die Aufschlüsselung in einfachen Worten:

Das Problem: Der „Rezept-Austausch“-Angriff

Derzeit verkaufen Unternehmen KI-Modelle an Nutzer. Um zu verfolgen, wem welche Kopie gehört, betten sie eine versteckte digitale ID (einen Fingerabdruck) in das Modell ein. Wenn jemand das Modell stiehlt, kann der Besitzer die erzeugten Bilder scannen und sagen: „Ah, dieses Bild wurde mit der gestohlenen Kopie von Nutzer #5 erstellt.“

Die Schwachstelle: Das Paper hat eine große Schwäche entdeckt. Wenn Nutzer A und Nutzer B beide ihre Kopien des Modells stehlen, können sie einfach ihre Einstellungen miteinander mitteln (averagen).

Stellen Sie sich vor, zwei Personen mischen ihre geheimen Rezeptzutaten in einer Schüssel zusammen.
Bei bestehenden Methoden erzeugt dieses Mischen ein neues, funktionierendes Rezept, das immer noch großartige Kuchen backt, aber die versteckten IDs von „Nutzer A“ und „Nutzer B“ werden weggewaschen. Der neue Kuchen hat keinen Fingerabdruck mehr, sodass der Besitzer ihn nicht mehr zurückverfolgen kann. Dies wird als Kollusionsangriff bezeichnet.

Die Lösung: Der „Magische Schüttler“ (Anti-Kollusion)

Die Autoren schlagen ein neues System vor, das diesen Mischtrick stoppt. Sie führen ein spezielles Modul namens Personalized Normalization Module (PNM) ein. Denken Sie an dies als einen maßgeschneiderten „magischen Schüttler“, der in das Gehirn der KI eingebaut ist und anpasst, wie sie arbeitet, basend auf einer einzigartigen ID.

So funktioniert ihr System in drei Schritten:

1. Die unsichtbare Tinte (Fingerprinting)

Anstatt nur das Rezept leicht zu verändern, betten sie die ID des Nutzers direkt in die Mechanik des „magischen Schüttlers“ ein.

Wie es funktioniert: Sie trainieren die KI so, dass die versteckte ID beim Erzeugen eines Bildes in die Pixel eingewoben wird.
Das Ergebnis: Man kann jedes Bild, das die KI erstellt, betrachten und die ID extrahieren, um zu beweisen, wem das Modell gehört. Das Paper behauptet, dass dies mit einer Genauigkeit von 99,5 % funktioniert, selbst wenn das Bild zugeschnitten, komprimiert oder bearbeitet wurde.

2. Der „Anti-Kollusions“-Trick (Die eigentliche Innovation)

Dies ist der größte Durchbruch des Papers. Bevor sie das Modell einem Nutzer übergeben, wenden sie eine spezielle Transformation an, die ACT (Anti-Collusion Transformation) genannt wird.

Die Analogie: Stellen Sie sich vor, Sie geben Nutzer A ein Rezept, bei dem das „Salz“ in Teelöffeln gemessen wird, aber der „Zucker“ in Gramm. Sie geben Nutzer B ein Rezept, bei dem „Salz“ in Gramm und „Zucker“ in Teelöffeln gemessen wird.
Der Clou: Beide Rezepte backen immer noch einen perfekten Kuchen, weil der Schüttler die Einheiten intern übersetzen kann.
Die Falle: Wenn Nutzer A und Nutzer B versuchen, ihre Rezepte zu mischen (zu mitteln), geraten die Einheiten durcheinander. Das Ergebnis ist ein Rezept, das sagt: „Füge 500 Gramm Salz hinzu“, wenn eigentlich Teelöffel gemeint waren. Der Kuchen verwandelt sich in eine salzige, ungenießbare Masse.
Die Behauptung des Papers: Wenn zwei oder mehr Nutzer kolludieren (zusammenarbeiten), produziert das resultierende Modell schreckliche Bilder (so schlecht, dass sie unbrauchbar sind). Dies stoppt den Angriff, da die Angreifer kein funktionierendes Modell erhalten können, ohne den Fingerabdruck zu besitzen.

3. Das „Worst-Case“-Training

Um sicherzustellen, dass der Fingerabdruck überlebt, selbst wenn jemand versucht, das Modell zu manipulieren (wie z. B. durch Fine-Tuning), haben die Autoren die KI mit einer „Worst-Case“-Strategie trainiert.

Die Analogie: Stellen Sie sich einen Sicherheitswach vor, der durch das Training gegen den stärkstmöglichen Angreifer übt.
Das Ergebnis: Der Fingerabdruck ist so tief eingebettet, dass der ID auch dann lesbar bleibt, wenn jemand versucht, das Modell zu „beschneiden“ (Pruning/Teile entfernen) oder Rauschen hinzuzufügen.

Die Ergebnisse

Das Paper testete dies an populären KI-Bildgeneratoren (wie Stable Diffusion) und fand heraus:

Qualität: Die generierten Bilder sehen genauso gut aus wie das Original (keine Unschärfe oder seltsame Artefakte).
Sicherheit: Als Angreifer versuchten, Modelle zu mischen, brach die Bildqualität ein (der „FID“-Wert, der die Qualität misst, sprang von einem guten Wert von 23 auf einen schrecklichen Wert von 79).
Effizienz: Der Besitzer kann sofort tausende einzigartige Kopien für verschiedene Nutzer erstellen, ohne jedes Mal die KI von Grund auf neu trainieren zu müssen.

Zusammenfassung

Dieses Paper führt ein „Schloss“ für KI-Modelle ein. Wenn man versucht, das Schloss zu knacken, indem man zwei Schlüssel kombiniert (Kollusion), bleibt das Schloss nicht einfach offen; es blockiert die gesamte Maschine so, dass sie nichts Nützliches mehr produzieren kann. Es schützt die Rechte der Schöpfer, indem es sicherstellt, dass man ein Modell nicht stehlen, mit einem anderen mischen und so ein funktionierendes Produkt erhalten kann, das die eigenen Spuren verwischt.

Technisches Resümee: Effizientes, robustes und kollusionsresistentes Fingerprinting von Bilddiffusionsmodellen

1. Problemstellung

Der rasante Fortschritt von Text-zu-Bild (T2I) Diffusionsmodellen hat erhebliche Risiken für das geistige Eigentum (IP) geschaffen, insbesondere im Hinblick auf die unbefugte Weiterverbreitung von Modellen. Während bestehende Fingerprinting-Methoden nutzerspezifische Identifikatoren in die Ausgaben von Modellen einbetten, um die Rückverfolgbarkeit zu gewährleisten, leiden sie unter einer kritischen, bisher unentdeckten Schwachstelle: dem Kollusionsangriff (Collusion Attack).

Bei einem Kollusionsangriff können mehrere böswillige Nutzer, die über unterschiedliche fingerprinted Modellkopien verfügen, deren Modellparameter kombinieren (z. B. durch einfache Mittelwertbildung), um ein neues „kolludiertes“ Modell zu erstellen. Bestehende Methoden scheitern daran, dies zu verhindern, weil:

Parameter-Interpolation: Tiefe neuronale Netze weisen oft eine Mode-Konnektivität auf, bei der eine lineare Interpolation zwischen unabhängig trainierten Modellen funktionale Lösungen liefert.
Kostenlose Entfernung: Angreifer können Parameter mitteln, um die einzigartigen Fingerprints einzelner Nutzer effektiv zu löschen, während die hohe Qualität der Bildgenerierung des Modells erhalten bleibt.
Mangel an proaktiver Verteidigung: Die aktuelle Forschung stützt sich auf Post-hoc-Attribution (Identifizierung von Kollusionspartnern im Nachhinein) statt darauf, die Erstellung eines funktionalen kolludierten Modells zu verhindern.

2. Methodik

Das vorgeschlagene Framework führt ein robustes Fingerprinting-System für T2I-Modelle ein, das drei Kernkomponenten integriert: ein Personalized Normalization Module (PNM), eine Worst-Case-Optimierungsstrategie und eine Anti-Collusion Transformation (ACT).

A. Framework-Übersicht

Der Arbeitsablauf besteht aus drei Phasen:

Feinabstimmung (Fine-tuning): Ein Basis-T2I-Modell (speziell der VAE-Decoder) wird feinabgestimmt, um Fingerprints einzubetten.
Initialisierung: Einzigartige fingerprinted Kopien werden für Nutzer erstellt, ohne dass ein erneutes Training erforderlich ist.
Verifizierung: Fingerprints werden aus den generierten Bildern extrahiert, um die Inhaberschaft zu verifizieren.

B. Personalized Normalization Module (PNM)

Anstatt das gesamte Modell zu modifizieren, fügt die Methode ein leichtgewichtiges PNM in den Decoder des Variational Autoencoders (VAE) ein.

Struktur: Das PNM folgt einer Conv–Norm–Conv-Struktur.
Mechanismus: Eine Fingerprint-Nachricht $m$ (ein Binärstring) wird in zwei Kodierungsnetzwerke ( $F_\gamma$ und $F_\beta$ ) eingespeist, um Skalierungs- ( $\gamma$ ) und Verschiebungsparameter ( $\beta$ ) zu generieren. Diese Parameter modulieren die Normalisierungsschicht innerhalb des PNM.
Effizienz: Sobald die Kodierer und das Basismodell trainiert sind, können neue Nutzerkopien erstellt werden, indem einfach neue $\gamma$ - und $\beta$ -Vektoren aus dem einzigartigen Fingerprint des Nutzers generiert werden, was ein erneutes Training überflüssig macht.

C. Anti-Collusion Transformation (ACT)

Um Kollusion proaktiv zu bekämpfen, wendet die Methode eine verlustfreie, funktionsinvariante Transformation auf die dem jeweiligen Nutzer spezifischen PNM-Parameter an. Diese Transformation stellt sicher, dass das Modell zwar korrekt funktioniert, wenn es für einen einzelnen Nutzer verwendet wird, die Kombination von Parametern verschiedener Nutzer jedoch den Nutzen des Modells zerstört.
Die ACT umfasst drei aufeinanderfolgende Operationen:

Kanalspezifische Permutation (CP): Ordnet die Filter und Normalisierungsparameter basierend auf einer nutzerspezifischen Permutationsfunktion $\pi$ neu an.
Parameter-Skalierung (SC): Skaliert die Faltungskerne und Normalisierungsparameter durch Vektoren $\alpha$ , sodass das Produkt der Skalierungsfaktoren über die Schicht hinweg gleich 1 ist, wodurch die Ausgangsfunktion erhalten bleibt.
Vorzeichenumkehr (Sign Flip, SF): Invertiert die Vorzeichen spezifischer Parameter (ein Spezialfall der Skalierung, bei dem die Faktoren $\{-1, 1\}$ sind).

Theoretische Grundlage: Diese Transformationen brechen die „Mode-Konnektivität“ zwischen verschiedenen Usermodellen auf. Während jedes transformierte Modell identische Ausgaben zu seinem untransformierten Gegenstück liefert, werden ihre Parameter nahezu orthogonal. Infolgedessen führt eine lineare Interpolation (Kollusion) zwischen zwei durch ACT geschützten Modellen in eine Region mit hohem Verlust im Parameterraum, was zu einem katastrophalen Scheitern der Bildgenerierung führt.

D. Worst-Case-Optimierung

Um die Robustheit gegenüber Modell-Angriffen (z. B. Feinabstimmung, Pruning) zu erhöhen, enthält das Trainingsziel einen Worst-Case-Regularisierungsverlust.

Das Modell wird optimiert, um den Fingerprinting-Verlust unter der Annahme der Worst-Case-Parameterperturbation ( $\delta^*$ ) innerhalb einer definierten Nachbarschaft zu minimieren.
Dies wird durch einen Ein-Schritt-Gradientenaufstieg auf den Verlust approximiert, was das Modell dazu bewegt, zu einem „flachen“ Minimum zu konvergieren, das weniger empfindlich gegenüber Parameteränderungen ist.

3. Zentrale Beiträge

Proaktive Anti-Kollusions-Verteidigung: Die Arbeit präsentiert das erste T2I-Fingerprinting-Framework, das explizit darauf ausgelegt ist, kolludierte Modelle unbrauchbar zu machen. Durch die Integration von ACT führt jeder Versuch, Modelle zu mergen, zu einer schweren Verschlechterung der Bildqualität (hoher FID, niedriger PSNR), was den Angriff effektiv neutralisiert.
Effiziente, trainingsfreie Bereitstellung: Die PNM-Architektur ermöglicht es Entwicklern, sofort distinkte, fingerprinted Modellkopien für Tausende von Nutzern zu erstellen, indem die Normalisierungsschichten reparametrisiert werden, ohne den Rechenaufwand eines erneuten Trainings.
Erhöhte Robustheit: Die Einführung einer Worst-Case-Optimierungsstrategie verbessert die Resilienz gegenüber Modell-Angriffen (wie Feinabstimmung und Pruning) erheblich und hält eine hohe Genauigkeit der Fingerprint-Extraktion selbst nach signifikanten Parameterperturbationen aufrecht.
Umfassende Evaluierung: Die Studie bietet eine rigorose Evaluierung über mehrere Datensätze (COCO, ImageNet, MagicBrush, InstructPix2Pix) und Aufgaben (Generierung und Editierung) und setzt damit neue Benchmarks für die Sicherheit gegen Kollusion.

4. Experimentelle Ergebnisse

Die Methode wurde an Stable Diffusion v2 und InstructPix2Pix Modellen evaluiert.

Fidelity und Qualität: Die vorgeschlagene Methode bewahrt eine hohe Bildqualität. Auf dem COCO-Datensatz ist der FID-Wert (24,03) vergleichbar mit State-of-the-Art VAE-basierten Methoden (z. B. Per. Norm., Sta. Sig.) und signifikant besser als U-Net-basierte Watermarking-Methoden. Der visuelle Unterschied zwischen fingerprinted und nicht-fingerprinted Bildern ist vernachlässigbar.
Genauigkeit der Fingerprint-Extraktion: Die Methode erreicht eine Bit-Genauigkeit von >99,5 % über alle Datensätze und Aufgaben hinweg und übertrifft damit bestehende Methoden.
Robustheit gegenüber Angriffen:
- Bild-Ebene: Die Methode bleibt robust gegenüber Gaußschem Rauschen, Unschärfe, Cropping und JPEG-Kompression, insbesondere wenn eine Noise-Layer-Augmentierung während des Trainings verwendet wird.
- Modell-Ebene: Unter Feinabstimmungs-Angriffen (10.000 Schritte) bleibt die Bit-Genauigkeit über 90 %, was die Konkurrenten, die unter 70 % fallen, deutlich übertrifft.
Anti-Kollusions-Leistung:
- 2-Parteien-Kollusion: Wenn zwei Nutzer ihre Modelle mitteln, behalten bestehende Methoden eine hohe Bildqualität bei (FID ~24), verlieren aber die Gültigkeit des Fingerprints (TPR sinkt auf ~0,4). Im Gegensatz dazu verursacht die vorgeschlagene Methode mit ACT, dass der FID auf 79,51 ansteigt und der PSNR drastisch sinkt, wodurch das kolludierte Modell unbrauchbar wird.
- Multi-Parteien-Kollusion: Mit zunehmender Anzahl an Kollusionspartnern (bis zu 20) behalten bestehende Methoden eine hohe Fidelity bei. Die vorgeschlagene Methode verursacht eine kontinuierliche Qualitätsdegradation (PSNR sinkt auf ~11 dB bei 10 Kollusionspartnern), was die Synthese eines funktionalen Modells verhindert.
- Nicht-lineare Angriffe: Die Methode bleibt effektiv gegen fortgeschrittene nicht-lineare Kollusionsstrategien (Random Selection, Power Mean, Max-Absolute-Value), bei denen alle getesteten Strategien scheitern, sowohl die Bildqualität als auch die Integrität des Fingerprints zu bewahren.

5. Bedeutung und Ansprüche

Das Paper behauptet, eine fundamentale Lücke in der Sicherheit generativer Modelle zu schließen: die Anfälligkeit für Kollusion. Die Autoren argumentieren, dass traditionelles Media-Fingerprinting zwar auf Traitor-Tracing-Codes setzt, um Angreifer nach einem Verstoß zu identifizieren, das Fingerprinting generativer Modelle jedoch einen proaktiven Ansatz erfordert.

Die Bedeutung dieser Arbeit liegt in der Verschiebung des Paradigmas von der Attribution zur Abschreckung. Indem sichergestellt wird, dass der Akt der Kollusion selbst den Nutzen des Modells zerstört, verhindert die Methode effektiv die unbefugte Weiterverbreitung. Die Autoren betonen, dass dies erreicht wird, ohne die Effizienz der Modellverteilung (kein Retraining) oder die Qualität der generierten Inhalte für legitime Nutzer zu beeinträchtigen.

Die Arbeit kommt zu dem Schluss, dass die Kombination aus PNM-basierter Einbettung, Worst-Case-Optimierung und ACT eine robuste, skalierbare Lösung zum Schutz des geistigen Eigentums von T2I-Modellen in kommerziellen und lizenzierten Umgebungen darstellt.

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models