No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der geheime Kochrezept-Verdacht

Stell dir vor, ein genialer Koch (der KI-Modell) hat eine riesige Kochschule besucht und dort tausende Rezepte gelernt. Jetzt backt er Kuchen, die so perfekt aussehen, dass man sich fragt: "Hat er diesen genauen Kuchen vielleicht in der Schule gelernt und einfach nur abgeschrieben, oder hat er ihn selbst erfunden?"

In der Welt der KI nennt man das Memorization (Auswendiglernen). Wenn eine KI ein Bild auswendig gelernt hat, ist das ein Datenschutz-Risiko. Vielleicht hat sie geheime Fotos von dir gelernt, die nie öffentlich sein sollten.

Um das herauszufinden, machen Forscher einen Membership Inference Attack (Mitgliedschafts-Angriff). Das ist wie ein Detektiv, der prüft: "War dieses Bild in der Ausbildung des Kochs dabei?"

Das alte Problem: Der fehlende Zettel

Bisher hatten die Detektive ein riesiges Problem: Um zu prüfen, ob ein Bild in der Ausbildung war, brauchten sie den genauen Text, der zum Bild gehört hat (den "Caption" oder Bildunterschrift).

Beispiel: Das Bild zeigt einen Hund. Der Detektiv braucht den Text "Ein brauner Hund läuft im Park", um zu prüfen, ob der Koch diesen genauen Satz gelernt hat.

Aber in der echten Welt ist das unmöglich! Wenn du ein Bild von einem Künstler siehst, hast du oft keinen Zugriff auf den Text, den die KI beim Lernen verwendet hat. Die Texte sind geheim.
Frühere Methoden haben versucht, einen KI-Textgenerator (wie einen Chatbot) zu bitten, den Text zu erraten. Aber das funktionierte schlecht. Es war, als würde der Detektiv versuchen, einen Schlüssel zu öffnen, indem er ein ähnliches, aber falsches Schloss benutzt. Es klappt nicht.

Die neue Lösung: MOFIT (Der "Schlüssel-Schloss-Trick")

Die Autoren dieses Papiers haben eine clevere Lösung namens MOFIT entwickelt. Sie brauchen keinen Text mehr. Stattdessen nutzen sie einen physikalischen Trick.

Stell dir das KI-Modell wie einen sehr spezifischen Schlossmechanismus vor.

Der alte Weg: Der Detektiv versuchte, den Schlüssel (den Text) zu erraten, um das Schloss zu öffnen. Wenn der Schlüssel falsch war, ging nichts auf.
Der MOFIT-Weg: MOFIT sagt: "Ich brauche den Schlüssel gar nicht. Ich baue mir einen Schlüssel, der perfekt zu diesem Schloss passt."

Hier ist der Ablauf in drei Schritten:

Schritt 1: Das "Schatten-Bild" (Der Surrogat-Trick)

MOFIT nimmt das verdächtige Bild und macht eine winzige, fast unsichtbare Veränderung daran. Es ist, als würde man das Bild durch einen leichten Nebel schauen lassen oder es minimal verzerren.

Das Ziel: Diese Veränderung wird so berechnet, dass sie perfekt zu den Dingen passt, die die KI in ihrer Ausbildung gelernt hat.
Die Analogie: Stell dir vor, du hast einen Abdruck von einem Schlüssel, den du in der Hand hältst. Du formst das Metall so lange, bis es genau in das Schloss passt, das die KI gebaut hat. Dieses neue, angepasste Bild nennen sie "Surrogat".

Schritt 2: Der "perfekte Text" (Das Embedding)

Aus diesem perfekt angepassten "Schatten-Bild" extrahiert MOFIT nun eine Art "digitaler Fingerabdruck" oder einen "perfekten Text", der zu diesem Schattenbild passt.

Da das Schattenbild so perfekt auf die KI abgestimmt ist, ist dieser "Text" für die KI wie ein Master-Key.

Schritt 3: Der Test (Die Falle)

Jetzt kommt der geniale Teil. MOFIT nimmt das ursprüngliche, echte Bild (das wir testen wollen) und zwingt die KI, dieses Bild mit dem perfekten Text aus Schritt 2 zu betrachten.

Szenario A: Das Bild war in der Ausbildung (Mitglied).
Die KI hat dieses Bild (oder etwas sehr Ähnliches) mit einem bestimmten Text gelernt. Wenn wir ihr jetzt das echte Bild geben, aber den "perfekten Text" aus dem Schattenbild, gerät die KI in Panik. Sie denkt: "Hey, das Bild passt nicht zu diesem Text! Ich kenne das Bild, aber dieser Text ist falsch!"
- Reaktion: Die KI macht einen riesigen Fehler (hoher Verlust). Sie reagiert extrem empfindlich.
Szenario B: Das Bild war NICHT in der Ausbildung (Nicht-Mitglied).
Die KI hat dieses Bild nie gesehen. Für sie ist es einfach ein neues, fremdes Bild. Egal welchen Text wir ihr geben, sie ist verwirrt, aber nicht "verletzt".
- Reaktion: Die KI macht einen kleinen Fehler, aber nichts Besonderes. Sie ist relativ gleichgültig.

Das Ergebnis

MOFIT schaut sich an, wie sehr die KI "schreit" (wie groß der Fehler ist), wenn sie das Bild mit dem falschen Text sieht.

Großer Schrei? -> Das Bild war in der Ausbildung (Datenschutz-Risiko!).
Leises Flüstern? -> Das Bild war nicht dabei.

Warum ist das wichtig?

Keine Geheimnisse nötig: Man braucht keinen Zugriff auf die geheimen Trainingsdaten der KI. Das macht den Angriff viel realistischer und gefährlicher für die Privatsphäre.
Besser als die alten Methoden: Die Autoren haben gezeigt, dass MOFIT viel besser funktioniert als Methoden, die versuchen, Texte zu erraten. In manchen Fällen ist es sogar besser als Methoden, die echte Texte hätten haben können!
Ein Weckruf: Es zeigt uns, dass wir vorsichtig sein müssen. Selbst wenn wir denken, unsere Bilder sind sicher, weil wir keine Texte dazu haben, könnte eine KI sie trotzdem auswendig gelernt haben.

Zusammenfassend:
MOFIT ist wie ein Detektiv, der nicht versucht, den Code eines Safe zu erraten. Stattdessen formt er einen Schlüssel, der perfekt in den Safe passt, und testet dann, ob der Safe bei einem bestimmten Bild "klick" macht oder nicht. So kann er beweisen, ob das Bild im Safe (der KI) versteckt war, ohne den Safe jemals öffnen zu müssen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Latente Diffusionsmodelle (LDMs) haben zwar beeindruckende Fortschritte bei der textbasierten Bildgenerierung erzielt, neigen jedoch dazu, Trainingsdaten zu memorieren. Dies birgt erhebliche Risiken für den Datenschutz und geistiges Eigentum. Membership Inference Attacks (MIAs) dienen dazu, festzustellen, ob ein bestimmtes Datensample im Trainingsdatensatz eines Modells enthalten war.

Bisherige MIA-Ansätze für text-zu-Bild-Modelle gehen von einem unrealistischen Bedrohungsmodell aus: Sie setzen voraus, dass der Angreifer Zugriff auf die Ground-Truth-Captions (die originalen Textbeschreibungen) der Abfragebilder hat. In realen Szenarien (z. B. bei der Überprüfung von Kunstwerken auf Plattformen wie Civitai) sind diese Trainings-Captions jedoch oft nicht öffentlich zugänglich. Wenn stattdessen Captions durch Vision-Language-Modelle (VLMs) wie CLIP-Interrogator oder BLIP-2 generiert werden, bricht die Leistung bestehender State-of-the-Art-Methoden (wie CLiD) drastisch ein, da die semantische Übereinstimmung nicht ausreicht, um die spezifischen Trainingsbedingungen nachzubilden.

Methodik: MOFIT

Die Autoren stellen MOFIT (Model-Fitted) vor, ein MIA-Framework, das ohne Ground-Truth-Captions auskommt und stattdessen synthetische, modellangepasste Eingaben konstruiert. Der Kern der Methode liegt in der Ausnutzung einer systematischen Differenz im Verhalten von „Mitgliedern" (Trainingsdaten) und „Hold-outs" (Nicht-Mitglieder) bei inkonsistenter Konditionierung.

Der Ansatz läuft in zwei Stufen ab:

Model-Fitted Surrogate Optimization (Modellangepasste Surrogat-Optimierung):
- Gegeben ein Abfragebild $x_0$ , wird eine Perturbation $\delta$ optimiert, um ein Surrogatbild $x^*_0 = x_0 + \delta^*$ zu erzeugen.
- Diese Optimierung zielt darauf ab, das Bild so zu verändern, dass es stark an die unbedingte Prior-Verteilung des Zielmodells angepasst ist (Overfitting auf das Modell). Dies geschieht durch Minimierung des unbedingten Verlusts ( $L_{uncond}$ ) unter Verwendung eines festen Rauschvektors und eines festen Zeitschritts.
Surrogate-Driven Embedding Extraction (Surrogat-gesteuerte Embedding-Extraktion):
- Aus dem optimierten Surrogatbild $x^*_0$ wird ein Text-Embedding $\phi^*$ extrahiert, indem der bedingte Denoising-Verlust ( $L_{cond}$ ) minimiert wird.
- Das Ergebnis ist ein Paar $(x^*_0, \phi^*)$ , das perfekt auf die interne Manifold des Zielmodells abgestimmt ist.

Inferenz und Entscheidungsfindung:

Für die eigentliche Mitgliedschaftsprüfung wird das ursprüngliche Abfragebild $x_0$ mit dem modellangepassten Embedding $\phi^*$ konditioniert.
Da $\phi^*$ spezifisch für das Surrogat $x^*_0$ optimiert wurde, entsteht eine gezielte Fehlanpassung (Mismatch) für das Originalbild $x_0$ .
Beobachtung: Mitgliedsbilder (die während des Trainings mit ihren echten Captions gesehen wurden) reagieren extrem empfindlich auf diese Fehlanpassung und zeigen einen starken Anstieg des bedingten Verlusts ( $L_{cond}$ ). Hold-out-Bilder sind weniger empfindlich und zeigen nur geringe Änderungen.
Der Angriffswert (Score) wird als Differenz zwischen dem bedingten Verlust (mit $\phi^*$ ) und dem unbedingten Verlust berechnet. Dieser Score hebt die Trennschärfe zwischen Mitgliedern und Nicht-Mitgliedern auch ohne echte Captions signifikant.

Wichtige Beiträge

Erster Caption-freier MIA-Rahmen: MOFIT ist das erste Framework, das effektive Mitgliedsinferenz gegen LDMs in einem realistischen Szenario durchführt, in dem keine Ground-Truth-Captions verfügbar sind.
Neue empirische Erkenntnis: Die Autoren zeigen, dass Mitgliedsbilder unter alternativen oder fehlgeleiteten Konditionierungen eine deutlich höhere Sensitivität im bedingten Denoising-Verlust aufweisen als Nicht-Mitglieder.
Zweistufiger Angriff: Die Kombination aus der Erzeugung eines überangepassten Surrogats und der Extraktion eines darauf abgestimmten Embeddings nutzt die selektive Sensitivität der Modelle aus, um die Trennschärfe zu maximieren.
Überlegene Leistung: MOFIT übertrifft alle bisherigen Methoden, die auf VLM-generierten Captions basieren, und erreicht in einigen Fällen sogar Leistungen, die mit Methoden vergleichbar sind, die Ground-Truth-Captions nutzen.

Ergebnisse

Die Evaluierung erfolgte auf mehreren Datensätzen (Pokemon, MS-COCO, Flickr) und verschiedenen Diffusionsmodellen (Stable Diffusion v1.4, v1.5, v2.1, v3):

Leistungssteigerung: MOFIT verbessert die Angriffserfolgsrate (ASR) im Vergleich zu VLM-basierten Baselines um bis zu +25 % und die True Positive Rate bei 1 % False Positive Rate (TPR@1%FPR) um 30–47 %.
Vergleich mit Ground-Truth: Auf dem MS-COCO-Datensatz übertrifft MOFIT sogar die State-of-the-Art-Methode CLiD, wenn diese mit Ground-Truth-Captions arbeitet.
Robustheit: Die Methode funktioniert auch bei stark generalisierten Modellen (wie SD v1.5 auf LAION-mi) und zeigt gute Ergebnisse bei medizinischen Bilddaten (Prompt2MedImage).
Ablationsstudien: Die Verwendung des optimierten Surrogats ( $x^*_0$ ) ist entscheidend; einfache Rauschaddition oder direkte Optimierung auf dem Originalbild liefern deutlich schlechtere Ergebnisse.

Bedeutung und Implikationen

Das Paper unterstreicht, dass die Annahme des Zugriffs auf Trainings-Captions in der Praxis oft falsch ist und bestehende Sicherheitsaudits für generative KI unzureichend macht. MOFIT demonstriert, dass Angreifer auch ohne Textinformationen hochpräzise Rückschlüsse auf die Trainingsdaten ziehen können. Dies hebt die Dringlichkeit für robustere Datenschutzmechanismen in Diffusionsmodellen hervor, da selbst die Abwesenheit von Metadaten (Captions) keinen Schutz vor Mitgliedsinferenz bietet. Die Arbeit liefert zudem wichtige Erkenntnisse darüber, wie Modelle auf Fehlanpassungen zwischen Bild und Text reagieren, was für das Verständnis von Memorization in generativen Modellen wertvoll ist.