Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

Each language version is independently generated for its own context, not a direct translation.

Het Vergeten van een Kunstenaar: Hoe we AI kunnen leren "vergeten" zonder zijn geheugen te verliezen

Stel je voor dat je een zeer getalenteerde kunstenaar hebt die alles kan tekenen: van realistische beren tot schilderijen in de stijl van Van Gogh. Deze kunstenaar is getraind op miljoenen afbeeldingen uit het internet. Maar nu komt er een probleem: iemand vraagt je om de kunstenaar te leren "vergeten" hoe je een beer tekent, omdat die persoon de rechten op die afbeeldingen bezit.

Dit is wat Machine Unlearning (machine-ontleren) doet. Je wilt dat de AI een specifiek concept verwijdert, zonder dat je de hele kunstenaar opnieuw moet opleiden (wat duizenden jaren zou duren).

Deze paper, geschreven voor de conferentie ICLR 2026, onderzoekt wat er gebeurt als je deze kunstenaar meerdere keren moet laten vergeten. Eerst moet hij de beer vergeten, een maand later de stijl "Van Gogh", en daarna nog een paar andere dingen.

Hier is de kern van het verhaal, vertaald in alledaagse taal:

1. Het Probleem: De "Vergetelheid" die uit de hand loopt

De onderzoekers ontdekten een groot probleem. Als je de kunstenaar één voor één dingen laat vergeten, begint hij na een paar keer niet alleen de gevraagde dingen te vergeten, maar ook de dingen die hij moest onthouden.

De Analogie: Stel je voor dat je een student bent die een examen moet halen. Als je elke dag één hoofdstuk uit je boek verwijdert, begin je na een week niet alleen die hoofdstukken te vergeten, maar ook de basiswiskunde die je al jaren kende. Je hersenen raken in de war.
In de AI: Na het verwijderen van slechts een paar concepten, begon de AI wazige, onherkenbare beelden te maken. Hij was zijn geheugen kwijtgeraakt. Dit noemen de auteurs "utility collapse" (instorting van bruikbaarheid).

2. De Oorzaak: De "Drift"

Waarom gebeurt dit? De onderzoekers ontdekten dat elke keer dat de AI iets leert vergeten, zijn "hersenen" (de parameters) een klein beetje verschuiven.

De Analogie: Stel je voor dat je een kompas hebt dat perfect naar het noorden wijst (de originele AI). Elke keer dat je iets verwijdert, duw je het kompas een heel klein beetje opzij. Als je dit één keer doet, is het niet erg. Maar als je dit 12 keer doet, wijst je kompas plotseling naar het zuiden. De AI is zo ver weggedreven van zijn oorspronkelijke kennis dat hij niets meer begrijpt.

3. De Oplossing: Een "Anker" en een "Filter"

Om dit te voorkomen, hebben de onderzoekers een paar slimme trucjes bedacht om de AI op zijn plaats te houden terwijl hij vergeten leert.

A. Het Anker (Regularisatie)

Ze gebruiken een soort "veerkracht" of "anker" om te voorkomen dat de AI te ver van zijn oorspronkelijke kennis afwijkt.

De Analogie: Het is alsof je de student een zware steen aan zijn enkel bindt. Hij kan nog wel bewegen (leren vergeten), maar hij kan niet ver weglopen. Dit zorgt ervoor dat hij zijn basisvaardigheden behoudt.
De Techniek: Ze gebruiken wiskundige regels (zoals L1 en L2 regularisatie) die de AI dwingen om niet te ver te verschuiven.

B. De Selectieve Verwijderaar (Selective Fine-Tuning)

In plaats van de hele student te laten herschrijven, laten ze alleen de specifieke hersendelen aanpassen die nodig zijn voor het vergeten.

De Analogie: Als je wilt vergeten hoe je een fiets rijdt, hoef je niet je geheugen over "hoe je loopt" of "hoe je eet" aan te raken. Je past alleen de spieren aan die je gebruikt om te fietsen. De rest blijft intact.

C. De "Semantische" Filter (Gradient Projection)

Dit is de meest slimme vondst. De onderzoekers merkten op dat als je de AI leert vergeten hoe je een "beer" tekent, hij ook per ongeluk vergeet hoe je een "hond" tekent, omdat ze op elkaar lijken.

De Analogie: Stel je voor dat je een muur wilt slopen (de beer), maar je bent bang dat je per ongeluk de muur ernaast (de hond) ook kapot maakt omdat ze tegen elkaar aan staan.
De Oplossing: Ze gebruiken een speciaal filter (Gradient Projection) dat zorgt dat de sloopbeweging alleen in de richting van de beer gaat, en niet in de richting van de hond. Het filtert de beweging die de hond zou beschadigen eruit.

4. Het Resultaat

Met deze nieuwe methoden kunnen ze de AI laten vergeten wat hij moet vergeten, zonder dat hij zijn geheugen voor de rest van de wereld verliest.

Ze kunnen de "beer" laten verdwijnen.
De "hond" blijft perfect bestaan.
De "Van Gogh-stijl" blijft intact, zelfs als ze een andere stijl laten verdwijnen.

Waarom is dit belangrijk?

Vandaag de dag hebben mensen het recht om te vragen dat hun foto's of ideeën uit AI-modellen worden verwijderd (bijvoorbeeld vanwege auteursrecht of privacy). Als we dit niet goed kunnen doen, moeten we de hele AI opnieuw trainen, wat onmogelijk duur is.

Deze paper laat zien dat we AI-modellen kunnen "chirurgisch" bewerken. We kunnen ze leren vergeten, net zoals een mens een slechte herinnering kan onderdrukken zonder zijn geheugen voor de rest van zijn leven te verliezen. Het is een stap richting veilige en verantwoorde kunstmatige intelligentie.

Kortom: De onderzoekers hebben een manier gevonden om de AI een "vergetelkoe" te geven, zonder dat hij daardoor "dement" wordt. Ze gebruiken ankers, selectieve herschrijving en slimme filters om de AI gezond en scherp te houden, zelfs als hij veel moet vergeten.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Catastrophal Forgetting bij Continue Vergeting

De paper adresseert een kritiek gat in het onderzoek naar machine unlearning (het verwijderen van specifieke concepten uit een getraind model) voor tekst-naar-beeld diffusiemodellen. Bestaande methoden gaan er vaak van uit dat verzoek tot vergeten (bijv. het verwijderen van auteursrechten of schadelijke concepten) gelijktijdig arriveert. In de praktijk komen deze verzoeken echter sequentieel binnen (bijv. eerst een kunstenaar vraagt om verwijdering van hun stijl, later een ander om een specifiek object).

De auteurs introduceren Continual Unlearning (CU) voor diffusiemodellen en stellen vast dat bestaande methoden (zoals ConAbl en SculpMem) in deze sequentiële setting snel falen. Ze vertonen een fenomeen genaamd "rapid utility collapse": na slechts een paar verzoeken vergeet het model niet alleen de te verwijderen concepten, maar ook de behouden kennis (retained knowledge). Dit resulteert in een drastische daling van de kwaliteit van gegenereerde beelden voor niet-gerelateerde concepten.

De oorzaak van dit falen wordt toegeschreven aan cumulatieve parameterdrift. Elke sequentiële stap duwt de modelparameters verder weg van de oorspronkelijke pre-trained manifold, wat leidt tot een verlies van de algemene generatieve capaciteiten.

Methodologie: Regularisatie en Semantische Bewustheid

De auteurs onderzoeken hoe bestaande unlearning-methoden kunnen worden verbeterd door add-on regularisatiestrategieën die de parameterdrift beperken en semantische interferentie verminderen.

1. Regularisatie voor Parameterdrift

Om te voorkomen dat het model te ver afwijkt van de oorspronkelijke weights ( $\theta^\dagger$ ), worden drie generieke regularisatiebenaderingen onderzocht:

Update Norm Regularization (L1/L2): Het toevoegen van een strafterm aan de loss-functie die de grootte van de parameterupdate ( $\|\theta - \theta^*_{n-1}\|$ ) beperkt ten opzichte van de vorige checkpoint.
Selective Fine-Tuning (SelFT): In plaats van alle parameters te updaten, worden alleen de top- $k\%$ meest belangrijke parameters (bepaald via een eerste-orde Taylor-approximatie van de loss) aangepast. Dit beperkt de drift terwijl het effectief blijft voor het verwijderen van het doelconcept.
Model Merging: Elk concept wordt onafhankelijk van de oorspronkelijke pre-trained weights onthouden, waarna de resulterende modellen worden samengevoegd (geïnterpoleerd). Omdat deze modellen allemaal dicht bij de oorspronkelijke weights liggen, blijft de drift beperkt.

2. Semantisch Bewuste Gradient Projectie

De auteurs stellen vast dat drift alleen niet genoeg is; semantische bewustheid is cruciaal. Concepten die semantisch dicht bij elkaar staan (bijv. verschillende kunststijlen), interfereren sterk met elkaar tijdens het unlearning-proces.

Analyse: Er is een sterke negatieve correlatie gevonden tussen de behoudsaccuraatheid van een concept en de cosinus-ähnheid van de tekst-embeddings van dat concept met het te verwijderen concept.
Oplossing: Een Gradient Projection methode wordt voorgesteld. De gradienten voor het verwijderen van een doelconcept worden geprojecteerd op het orthogonale complement van de deelruimte die wordt opgespannen door de embeddings van semantisch gerelateerde (bijbehorende) concepten.
Mechanisme: Dit zorgt ervoor dat de updates het doelconcept effectief verwijderen, maar geen eerste-orde verandering teweegbrengen in de representaties van semantisch naburige concepten, waardoor onbedoelde interferentie wordt onderdrukt.

Belangrijkste Bijdragen

Eerste Systematische Studie: De paper biedt de eerste uitgebreide empirische studie van continual unlearning voor tekst-naar-beeld diffusiemodellen, inclusief een nieuw benchmark dat voortbouwt op UNLEARNCANVAS met sequenties voor stijlen en objecten.
Diagnose van Utility Collapse: Het documenteert en analyseert het fenomeen van utility collapse bij sequentiële unlearning, attribuerend dit aan cumulatieve parameterdrift en semantische interferentie.
Modulaire Oplossingen: In plaats van een volledig nieuw algoritme te ontwerpen, presenteren de auteurs compatibele "plug-and-play" regularisatiemethoden die kunnen worden toegepast op bestaande unlearning-frameworks.
Gradient Projection: De introductie van een gradient-projection methode die specifiek is ontworpen om semantische interferentie te minimaliseren, wat een principieel antwoord biedt op het behoud van in-domein kennis.

Resultaten

De experimenten, uitgevoerd op Stable Diffusion (en SDXL in de appendix) met methoden zoals ConAbl en SculpMem, tonen het volgende aan:

Baseline Falen: Zonder regularisatie daalt de Retention Accuracy (RA) voor zowel in-domein (andere stijlen) als cross-domein (objecten) concepten drastisch na een handvol verzoeken.
Effectiviteit Regularisatie: Alle voorgestelde add-on regularisatoren (L1/L2, SelFT, Model Merging) verminderen de parameterdrift aanzienlijk en verbeteren de behoudsaccuraatheid. Model Merging presteert het beste voor cross-domein behoud.
Superieure In-Domein Behoud: Gradient Projection levert de grootste verbetering op voor in-domain retention (bijv. het verwijderen van "Abstractionism" terwijl "Impressionism" behouden blijft). Dit komt door de expliciete onderdrukking van interferentie tussen semantisch gelijkaardige concepten.
Complementariteit: Gradient Projection werkt goed in combinatie met andere regularisatoren (zoals SelFT), wat leidt tot de hoogste totale prestaties (harmonisch gemiddelde van Unlearning Accuracy en Retention Accuracy).
Efficiëntie: In tegenstelling tot simultane unlearning (waarbij bij elk nieuw verzoek alle eerdere concepten opnieuw moeten worden verwijderd, wat leidt tot superlineaire kosten), blijft sequentieel unlearning met deze regularisatoren lineair in kosten.

Significantie en Toekomstperspectief

Deze studie is van fundamenteel belang voor de ontwikkeling van veilige en verantwoorde generatieve AI. Het toont aan dat machine unlearning in real-world scenario's (sequentiële verzoeken) een veel complexer probleem is dan tot nu toe werd aangenomen.

Praktische Impact: De voorgestelde methoden bieden een haalbare route voor bedrijven en onderzoekers om modellen bij te werken zonder volledige hertraining, terwijl de kwaliteit van het model voor andere taken behouden blijft.
Richting voor Toekomstig Werk: De paper benadrukt dat het begrijpen van de dynamiek van unlearning (zoals de "all-or-nothing" aard van conceptverwijdering en de rol van anchors) essentieel is. Toekomstig werk zou zich moeten richten op het ontwikkelen van native sequentiële unlearning-methoden die toekomstige verzoeken anticiperen en op het testen van deze principes in andere modaliteiten (video, spraak) en architecturen (zoals DiT).

Kortom, de paper vestigt continual unlearning als een fundamentele uitdaging en biedt een robuust kader van regularisatie en semantisch bewuste optimalisatie om dit probleem aan te pakken.