No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Each language version is independently generated for its own context, not a direct translation.

Titel: "Geen Bijschrift, Geen Probleem: Hoe je Ontdekt of een AI een Foto 'Gestolen' Heeft"

Stel je voor dat een kunstenaar een prachtig schilderij maakt. Vervolgens leert een kunstmatige intelligentie (AI) om nieuwe kunst te maken door naar duizenden bestaande schilderijen te kijken. Soms is die AI zo goed dat hij niet alleen leert hoe te schilderen, maar ook exacte kopieën maakt van de originele werken. Dit is een groot probleem voor de eigenaren van die schilderijen.

De vraag is: Hoe weet je of een specifieke foto in de "herinnering" van de AI zit?

Tot nu toe hadden onderzoekers een probleem: om te controleren of een foto in de AI zat, moesten ze de exacte tekst hebben die bij die foto hoorde toen de AI werd getraind (bijvoorbeeld: "een rode auto in de regen"). Maar in de echte wereld hebben we die tekst vaak niet. We hebben alleen de foto. Als je probeert de tekst zelf te raden met een andere AI, werkt de detectie niet goed meer.

De Oplossing: MOFIT (De "Kleefmuts" Methode)

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd MOFIT. Ze noemen het "caption-free", wat betekent: "zonder bijschrift".

Hier is hoe het werkt, vertaald naar een simpele analogie:

1. Het Probleem: De Verkeerde Sleutel

Stel je voor dat de AI een heel specifieke slot heeft. Om te testen of een foto (de sleutel) in het slot past, moet je de sleutel in het slot steken.

De oude manier: Je probeert de sleutel te maken door te gissen naar het bijschrift (bijv. "rode auto"). Maar omdat je de originele tekst niet kent, is je gesleutelde sleutel net iets te dik of te dun. Het slot klikt niet goed, en je kunt niet zien of de foto echt bij de AI hoort.
Het resultaat: De AI reageert bijna hetzelfde op foto's die hij kent als op foto's die hij niet kent. Je kunt ze niet uit elkaar houden.

2. De MOFIT Oplossing: De "Perfecte" Proef

MOFIT doet iets slimme. In plaats van te gissen naar de tekst, probeert de aanvalslager (de hacker) een perfecte proefversie van de foto te maken die precies past bij hoe de AI denkt.

Stap 1: De "Kleefmuts" (Surrogate Optimization)
De hacker neemt de foto en voegt er heel kleine, onzichtbare veranderingen aan toe (net als een kleefmuts die je op de foto plakt). Hij doet dit zolang tot de AI denkt: "Oh, dit is precies een foto die ik ken!" De AI is hierdoor "overgevoelig" voor deze aangepaste foto.
- Analogie: Je maakt een perfecte afgietsel van de sleutel, niet door de tekst te lezen, maar door de vorm van het slot te voelen.
Stap 2: De "Stempel" (Embedding Extraction)
Omdat de AI nu denkt dat deze aangepaste foto heel bekend is, leest de hacker de "stempel" (een digitale code) die de AI gebruikt om die foto te begrijpen. Deze stempel is nu perfect afgestemd op de manier waarop de AI denkt.
Stap 3: De Test
Nu neemt de hacker de originele foto (zonder de kleefmuts) en stopt de nieuwe, perfecte stempel in de AI.
- Als de foto echt in de AI zit (Member): De AI raakt in paniek! Hij ziet de originele foto, maar de stempel is te specifiek voor de "aangepaste" versie. De AI zegt: "Wacht, dit klopt niet helemaal!" en reageert met een grote foutmelding (een hoge "loss").
- Als de foto NIET in de AI zit (Hold-out): De AI denkt: "Nou ja, dit is een gewone foto." Omdat hij die foto nooit heeft gezien, maakt het hem niet uit dat de stempel een beetje vreemd is. Hij reageert rustig.

Waarom is dit zo cool?

De magie zit hem in het verschil in reactie:

De AI is gevoelig voor fouten bij foto's die hij kent (hij merkt direct dat iets niet klopt).
De AI is onverschillig bij foto's die hij niet kent.

Door deze gevoeligheid te gebruiken, kunnen ze foto's die in de AI zitten heel goed onderscheiden van foto's die er niet in zitten, zonder dat ze ooit het originele bijschrift hebben gezien.

De Resultaten

In hun tests hebben ze laten zien dat MOFIT veel beter werkt dan eerdere methoden die probeerden te raden wat er op de foto stond. Zelfs werkt het soms beter dan methoden die wél de perfecte tekst hadden!

Kort samengevat:
MOFIT is als een detective die niet de getuigenverklaring (het bijschrift) nodig heeft om te weten of iemand bij een groep hoort. In plaats daarvan test hij hoe de groep reageert op een "verkeerde" identiteitskaart. Als de groep in paniek raakt, weet de detective: "Deze persoon hoort hierbij!" Als de groep het laat rustig afweten, weet hij: "Deze persoon hoort hier niet bij."

Dit is een grote stap voor privacy, omdat het laat zien dat we nu kunnen controleren of AI-modellen onze foto's "gestolen" hebben, zelfs als we geen toegang hebben tot de geheime trainingsdata.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Latente diffusiemodellen (LDMs) hebben aanzienlijke vooruitgang geboekt in het genereren van hoogwaardige afbeeldingen, maar ze vertonen een neiging om trainingsdata te memoriseren, wat ernstige privacy- en intellectuele eigendomsrisico's met zich meebrengt. Membership Inference Attacks (MIA) zijn een standaardmethode om dit risico te auditeren door te bepalen of een specifieke afbeelding deel uitmaakte van het trainingsset.

Echter, bestaande MIA-methoden voor tekst-naar-afbeelding modellen (zoals CLiD) maken een kritieke en vaak onrealistische aanname: ze vereisen toegang tot de ground-truth captions (tekstbeschrijvingen) die bij de trainingsafbeeldingen horen. In praktijkscenario's, zoals wanneer een kunstenaar vermoedt dat zijn werk in een model is opgenomen of wanneer de trainingsprovenance van openbare AI-platforms onbekend is, zijn deze captions niet beschikbaar.

De auteurs tonen aan dat het vervangen van ground-truth captions door automatisch gegenereerde beschrijvingen van Vision-Language Models (VLMs) de prestaties van de beste bestaande methoden drastisch doet verslechteren. Dit komt doordat VLM-captions de exacte conditionering van het trainingsproces niet kunnen repliceren, waardoor het onderscheid tussen leden (member) en niet-leden (hold-out) verdwijnt.

Methodologie: MOFIT

Om dit probleem op te lossen, stellen de auteurs MOFIT (Model-Fitted) voor, een MIA-framework dat werkt in een "caption-free" setting. In plaats van te vertrouwen op externe tekstbeschrijvingen, construeert MOFIT synthetische conditionele inputs die expliciet zijn overgefit op het generatieve manifold van het doelmodel.

Het proces verloopt in twee fasen:

Model-Fitted Surrogate Optimalisatie:
- Gegeven een query-afbeelding $x_0$ , optimaliseert MOFIT een perturbatie $\delta$ om een surrogaat-afbeelding $x^*_0 = x_0 + \delta^*$ te creëren.
- Deze perturbatie wordt geoptimaliseerd zodat de surrogaat-afbeelding sterk overeenkomt met de onvoorwaardelijke prior (unconditional prior) van het doelmodel. Dit wordt gedaan door de onvoorwaardelijke denoising-loss ( $L_{uncond}$ ) te minimaliseren met een null-token als conditionering.
- Het resultaat is een afbeelding die "perfect" lijkt op wat het model heeft geleerd te genereren, ongeacht of de originele afbeelding een lid was of niet.
Surrogaat-gedreven Embedding Extractie:
- Vanuit deze geoptimaliseerde surrogaat $x^*_0$ wordt een tekst-embedding $\phi^*$ geëxtraheerd.
- Deze embedding wordt geoptimaliseerd om de conditionele denoising-loss ( $L_{cond}$ ) te minimaliseren voor de surrogaat $x^*_0$ . Hierdoor ontstaat een koppel $(x^*_0, \phi^*)$ dat extreem goed is afgestemd op het interne representatieruimte van het model.

Inferentie en Signaalversterking:
Tijdens de daadwerkelijke membership-inferentie wordt de originele query-afbeelding $x_0$ geconditioneerd met de geëxtraheerde embedding $\phi^*$ .

Voor leden (members): Omdat de originele afbeelding tijdens het trainen is blootgesteld aan de echte ground-truth caption, is het model gevoelig voor afwijkingen. De mismatch tussen $x_0$ en de overgefitte embedding $\phi^*$ veroorzaakt een grote toename in de conditionele loss ( $L_{cond}$ ).
Voor niet-leden (hold-outs): Deze afbeeldingen waren niet in de trainingsset en zijn minder gevoelig voor conditionele variaties. De loss neemt slechts marginaal toe.

De aanvalsscore wordt berekend als het verschil tussen de conditionele en onvoorwaardelijke loss ( $L_{MOFIT} = L_{cond} - L_{uncond}$ ). Door de asymmetrische gevoeligheid te benutten, wordt de scheiding tussen leden en niet-leden hersteld, zelfs zonder ground-truth captions.

Kernbijdragen

Eerste Caption-Free MIA Framework: MOFIT is het eerste framework dat effectieve membership inference mogelijk maakt voor LDMs zonder toegang tot ground-truth captions, wat een veel realistischere bedreigingsmodel weerspiegelt.
Nieuw Empirisch Inzicht: De auteurs ontdekten dat leden tijdens het denoising-proces een grotere verandering in conditionele loss vertonen bij afwijkende conditionering dan niet-leden. Deze gevoeligheid wordt gebruikt als een nieuw signaal voor scheiding.
Twee-staps Aanpak: Een innovatieve methode om eerst een model-gefitte surrogaat te creëren en daaruit een embedding te halen die specifiek ontworpen is om de mismatch-sensitiviteit van leden te maximaliseren.
Superieure Prestaties: MOFIT presteert niet alleen beter dan methoden die VLM-captions gebruiken, maar overtreft in sommige gevallen zelfs methoden die ground-truth captions gebruiken.

Resultaten

De auteurs hebben MOFIT geëvalueerd op meerdere datasets (Pokemon, MS-COCO, Flickr) en modellen (Stable Diffusion v1.4, v1.5, v2.1, v3).

Prestatieverbetering: MOFIT overtreft consistent bestaande methoden (zoals CLiD, SecMI, PIA) die VLM-captions gebruiken.
- Op de Pokemon-dataset resulteerde dit in een stijging van +25% in Attack Success Rate (ASR) en +30-47% in True Positive Rate bij 1% False Positive Rate (TPR@1%FPR) ten opzichte van VLM-baselines.
- Op de MS-COCO dataset overtrof MOFIT zelfs de CLiD-methode die gebruikmaakte van ground-truth captions.
Robuustheid: De methode werkt effectief op verschillende modelarchitecturen (U-Net en Transformer-based zoals SD v3) en in gespecialiseerde domeinen (zoals medische beeldvorming).
Ablatie-studies: Experimenten tonen aan dat het gebruik van de geoptimaliseerde surrogaat ( $x^*_0$ ) cruciaal is; het gebruik van de originele afbeelding of willekeurige ruis levert aanzienlijk slechtere resultaten op.

Betekenis en Impact

Deze studie is van groot belang voor de privacy van generatieve AI:

Realistische Auditing: Het demonstreert dat privacy-audits voor diffusiemodellen ook mogelijk zijn zonder toegang tot de trainingsmetadata, wat de drempel voor het detecteren van data-lekken verlaagt.
Beveiligingsimplicatie: Het feit dat MOFIT zelfs beter presteert dan methoden met ground-truth captions in sommige scenario's, benadrukt dat bestaande modellen kwetsbaarder zijn dan gedacht. Dit onderstreept de noodzaak van sterkere beveiligingsmaatregelen (zoals LoRA of data-augmentatie, hoewel LoRA de aanval ook effectief kan neutraliseren door de capaciteit tot memorisatie te verminderen).
Toekomstig Onderzoek: Het paper opent nieuwe richtingen voor het begrijpen van hoe modellen trainingsdata "onthouden" en hoe deze gevoeligheid kan worden uitgebuit of beschermd.

Kortom, MOFIT bewijst dat het ontbreken van tekstuele annotaties geen barrière hoeft te zijn voor het auditeren van privacy in moderne generatieve modellen, en biedt een krachtig instrument voor het detecteren van ongeoorloofde memorisatie.

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

1. Het Probleem: De Verkeerde Sleutel

2. De MOFIT Oplossing: De "Perfecte" Proef

Waarom is dit zo cool?

De Resultaten

Probleemstelling

Methodologie: MOFIT

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation