Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Each language version is independently generated for its own context, not a direct translation.

🎨 De Kern: "RECALL" – De Herinnering die Terugkomt

Stel je voor dat je een kunstenaar hebt die zo goed is dat hij alles kan tekenen: van bloemen tot naakte mensen, en zelfs in de stijl van Van Gogh. Maar deze kunstenaar heeft een probleem: hij maakt soms dingen die niet mogen, zoals naaktheid of auteursrechtelijk beschermde kunst.

Om dit op te lossen, hebben onderzoekers een soort "vergetelheidsdrankje" ontwikkeld. Ze hebben de kunstenaar getraind om specifieke onderwerpen (zoals naaktheid) te vergeten. Dit noemen ze "Machine Unlearning". De kunstenaar zou nu moeten zeggen: "Ik weet niet meer hoe ik dat moet tekenen," en in plaats daarvan een onschuldig beeld maken.

Maar hier komt het verhaal: De onderzoekers van dit paper (RECALL) hebben ontdekt dat deze "vergetelheidsdrankje" niet zo sterk is als we dachten. Ze hebben een nieuwe manier bedacht om de kunstenaar te dwingen om precies die vergeten dingen toch weer te tekenen.

🕵️‍♂️ De Analogie: De Sleutel en de Foto

Hoe werkt hun aanval? Laten we een analogie gebruiken:

De Vergeten Kunstenaar (Het Model): Stel je voor dat de kunstenaar een zware deur heeft die dicht is voor het woord "naakt". Als je "teken een naakt mens" zegt, doet hij alsof hij het niet begrijpt en tekent een kledingstuk.
De Oude Aanval (Alleen tekst): Vroeger probeerden hackers de kunstenaar te misleiden door raadselachtige zinnen te gebruiken, zoals "teken een mens zonder kleren maar dan in een andere taal". Dit werkt soms, maar vaak wordt de zin zo raar dat het resultaat er niet meer uitziet als wat je wilde, en het kost veel tijd om de juiste woorden te vinden.
De Nieuwe Aanval (RECALL): De onderzoekers zeggen: "Waarom praten we als we kunnen wijzen?"
- Ze geven de kunstenaar een foto (een referentiebeeld) van een naakt mens.
- Ze zeggen: "Kijk naar deze foto, en teken iets dat hierop lijkt, maar gebruik de zin 'teken een naakt mens'."
- Ze passen de foto heel subtiel aan (zoals een digitale filter), zodat de kunstenaar denkt: "Oh, dit is een veilige foto, maar als ik er een beetje aan werk, zie ik de naaktheid weer terug."

De magie: Door de combinatie van de tekst (de opdracht) en de aangepaste foto (de aanwijzing), kan de kunstenaar de deur openen die dichtgeblokkeerd was. Hij "herinnert" zich plotseling weer hoe hij dat moet tekenen, terwijl hij dacht dat hij het vergeten was.

🚀 Waarom is dit belangrijk?

De onderzoekers hebben dit systeem RECALL genoemd (wat "herinneren" betekent). Ze hebben het getest op tien verschillende manieren om kunstenaars te laten "vergeten".

Het resultaat: In bijna alle gevallen lukte het hen om de kunstenaar te dwingen om de verboden beelden weer te maken.
De snelheid: Hun methode is veel sneller dan oude methoden. Het is alsof ze een sleutel hebben die direct past, in plaats van urenlang te proberen met een breekijzer.
De kwaliteit: De beelden die ze maken zien er nog steeds heel goed uit en lijken precies op wat de tekst vraagt.

🛡️ Wat betekent dit voor de wereld?

Je zou kunnen denken: "Oh nee, dit is gevaarlijk!" En dat is het ook een beetje, maar de onderzoekers zeggen: "We moeten de zwakke plekken vinden voordat de slechte jongens ze vinden."

De Audit: RECALL is eigenlijk een veiligheidstest. Net zoals je een slotmaker huurt om te kijken of je deur echt veilig is, kunnen bedrijven deze tool gebruiken om te testen of hun "vergetelheidsdrankje" echt werkt.
De les: Het laat zien dat het simpelweg "wegdoen" van kennis in een AI niet genoeg is. Als je een AI ook beelden kunt laten zien, kan hij die informatie vaak toch weer terugvinden. We hebben dus sterkere manieren nodig om AI echt veilig te houden.

📝 Samenvatting in één zin

De onderzoekers hebben ontdekt dat je een AI die "vergeten" is om iets tekenen, heel makkelijk weer kunt laten tekenen door hem niet alleen een tekst te geven, maar ook een slim aangepaste foto als hint; dit is een waarschuwing dat we betere veiligheidsmaatregelen nodig hebben.

Each language version is independently generated for its own context, not a direct translation.

Titel: IMAGE CAN BRING YOUR MEMORY BACK: A NOVEL MULTI-MODAL GUIDED ATTACK AGAINST IMAGE GENERATION MODEL UNLEARNING

Conferentie: ICLR 2026
Auteurs: Renyang Liu, Guanlin Li, Tianwei Zhang, See-Kiong Ng

1. Probleemstelling

Diffusiemodellen voor beeldgeneratie (zoals Stable Diffusion) hebben de kwaliteit van AI-gegenereerde inhoud aanzienlijk verbeterd, maar brengen ook ethische en juridische risico's met zich mee, zoals het genereren van schadelijke, misleidende of auteursrechtelijk beschermde content. Machine Unlearning (MU) is een veelbelovende oplossing die probeert specifieke, ongewenste concepten (bijv. naaktheid, geweld, auteursrechtelijk materiaal) uit een getraind model te verwijderen zonder de algemene prestaties te schaden.

Echter, de robuustheid van bestaande unlearning-methoden is onvoldoende onderzocht, vooral onder multi-modale adversariale inputs. Bestaande aanvalsmethoden richten zich bijna uitsluitend op het manipuleren van tekstuele prompts. Deze benadering heeft drie belangrijke beperkingen:

Het kan de semantische uitlijning tussen de gegenereerde afbeelding en de oorspronkelijke tekst verstoren.
Veel methoden vereisen externe classifiers of aanvullende diffusiemodellen, wat leidt tot hoge rekenkosten.
Ze zijn vaak inefficiënt tegen robuuste, adversariaal versterkte unlearning-methoden (zoals AdvUnlearn of RECE).
Ze negeren de inherente multi-modale conditionering (tekst + afbeelding) van diffusiemodellen, waardoor een cruciale kwetsbaarheid wordt gemist.

2. Methodologie: RECALL

De auteurs stellen RECALL voor, een nieuw multi-modaal adversariaal framework dat de kwetsbaarheid van onthouden (unlearned) beeldgeneratiemodellen exploiteert door het gebruik van adversariale beeldprompts in plaats van alleen tekstmanipulatie.

Kernprincipes van RECALL:

Multi-modale aanval: In plaats van de tekstprompt ( $P_{text}$ ) te veranderen, blijft deze intact om de semantische intentie te behouden. De aanval richt zich op het optimaliseren van een adversariaal beeld ( $P_{img}^{adv}$ ) dat samen met de tekst wordt ingevoerd.
Referentie-geleide optimalisatie: RECALL gebruikt één semantisch relevante referentieafbeelding ( $P_{ref}$ ) die het verwijderde concept bevat. Deze dient als leidraad voor de optimalisatie.
Latent Space Optimalisatie: De aanval vindt plaats binnen het onthouden model zelf ( $\mathcal{G}_u$ ) in de latent space. Er zijn geen externe classifiers of het originele model nodig.

Het proces verloopt in drie fasen (zie Figuur 2 in het paper):

Latent Encoding: Een initiële beeldprompt wordt gecreëerd door een kleine hoeveelheid van de referentieafbeelding te mengen met ruis. Zowel de referentieafbeelding als deze initiële prompt worden gecodeerd naar latent representaties ( $z_{ref}$ en $z_{adv}$ ) door de image encoder van het onthouden model.
Iteratieve Latent Optimalisatie: De latent representatie $z_{adv}$ $z_{a d v}$ wordt iteratief geoptimaliseerd om de voorspelde ruis van het model te laten overeenkomen met die van de referentieafbeelding ( $z_{ref}$ $z_{r e f}$ ), onder dezelfde tekstconditie.
- De adversariale loss ( $L_{adv}$ ) meet het verschil tussen de voorspelde ruis van de referentie en de adversariale latent: $L_{adv} = \|\hat{\epsilon}_{ref} - \hat{\epsilon}_{adv}\|_2^2$ .
- Er wordt gebruikgemaakt van momentum-based gradient normalization voor stabiliteit.
- Periodiek wordt een klein deel van de referentie-latent teruggevoerd in de adversariale latent om de semantische consistentie te behouden.
Multi-modale Aanval: De geoptimaliseerde latent wordt gedecodeerd naar een adversariale afbeelding. Deze afbeelding wordt gecombineerd met de originele tekstprompt en ingevoerd in het onthouden model, wat resulteert in de hergeneratie van het verwijderde concept ( $I^*$ ).

3. Belangrijkste Bijdragen

Eerste Multi-modale Aanval: RECALL is het eerste framework dat specifiek de multi-modale conditionering van diffusiemodellen gebruikt om de robuustheid van unlearning-technieken te doorbreken, met hoge semantische trouw.
Efficiëntie en Onafhankelijkheid: De methode werkt uitsluitend binnen het onthouden model, vereist slechts één referentieafbeelding en elimineert de noodzaak voor externe classifiers of het originele diffusiemodel. Dit maakt het computatie-efficiënter dan bestaande methoden.
Uitgebreide Validatie: De auteurs testen RECALL tegen 10 state-of-the-art (SOTA) unlearning-methoden over 4 verschillende taken (Naaktheid, Van Gogh-stijl, Kerk-object, Parachute-object), wat resulteert in 40 verschillende onthouden modellen.
Audit-tool: Naast een aanval fungeert RECALL als een audit-instrument voor model-eigenaren om de robuustheid van hun unlearning-procedures te verifiëren voordat ze worden ingezet.

4. Resultaten

De experimentele resultaten tonen aan dat RECALL aanzienlijk beter presteert dan bestaande baselines (zoals P4D, UnlearnDiffAtk, CCE, WACE):

Aanvalssucces (ASR): RECALL bereikt een gemiddelde ASR van 80,77% tot 97,40% over de verschillende taken en modellen. Dit is een significante verbetering ten opzichte van de beste bestaande methoden (bijv. +16,90% ten opzichte van UnlearnDiffAtk).
Efficiëntie: RECALL is aanzienlijk sneller. De gemiddelde aanvalstijd is ongeveer 64 seconden, vergeleken met ~230-240 seconden voor concurrenten zoals P4D-N en UnlearnDiffAtk.
Semantische Uitlijning: RECALL behoudt de hoogste CLIP-scores, wat aangeeft dat de gegenereerde afbeeldingen beter overeenkomen met de oorspronkelijke tekstprompt dan bij tekst-gebaseerde aanvalsmethoden (die vaak de tekst moeten vervormen).
Generaliseerbaarheid: De methode werkt effectief op verschillende modelversies (SD 1.4, 2.0, 2.1) en is onafhankelijk van de specifieke keuze van de referentieafbeelding, zolang deze semantisch relevant is.

5. Betekenis en Conclusie

Het paper onthult kritieke kwetsbaarheden in huidige pipelines voor machine unlearning. Het bewijs dat multi-modale inputs (tekst + adversariaal beeld) een veel effectievere manier zijn om onthouden concepten te herstellen dan tekstmanipulatie alleen.

Dit heeft twee belangrijke implicaties:

Veiligheid: Huidige unlearning-mechanismen bieden mogelijk geen voldoende garantie tegen kwaadwillende actoren die multi-modale prompts kunnen genereren. Er is een dringende behoefte aan robuustere en verifieerbare unlearning-mechanismen.
Audit: RECALL biedt een praktische, efficiënte tool voor ontwikkelaars en auditors om de effectiviteit van hun veiligheidsmaatregelen te testen voordat modellen in de productie worden gebracht.

De auteurs concluderen dat toekomstig werk zich moet richten op het ontwikkelen van verdedigingsmechanismen die specifiek bestand zijn tegen multi-modale adversariale bedreigingen, en het uitbreiden van deze audit naar video en grote multi-modale modellen.

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

🎨 De Kern: "RECALL" – De Herinnering die Terugkomt

🕵️‍♂️ De Analogie: De Sleutel en de Foto

🚀 Waarom is dit belangrijk?

🛡️ Wat betekent dit voor de wereld?

📝 Samenvatting in één zin

Titel: IMAGE CAN BRING YOUR MEMORY BACK: A NOVEL MULTI-MODAL GUIDED ATTACK AGAINST IMAGE GENERATION MODEL UNLEARNING

1. Probleemstelling

2. Methodologie: RECALL

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Robust Reasoning Benchmark

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection