Erase at the Core: Representation Unlearning for Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

Titel: "Wissen aan de Kern": Hoe een AI echt vergeet wat je wilt dat het vergeet

Stel je voor dat je een zeer slimme, maar soms te nieuwsgierige robot hebt die alles heeft geleerd van een enorme bibliotheek. Plotseling vraagt iemand: "Heb je die ene specifieke foto van mijn hond in je geheugen? Vergeet die alsjeblieft, want ik wil dat die weg is."

De robot zegt: "Geen probleem!" Hij verwijdert de foto uit zijn lijstje en als je hem vraagt naar die hond, zegt hij: "Ik weet niet wat je bedoelt."

Maar hier is het probleem: De robot heeft de foto niet echt vergeten. Hij heeft hem alleen verborgen in een diepe, donkere hoek van zijn hoofd. Als je hem een slimme vraag stelt of een nieuwe foto laat zien, kan hij die oude foto nog steeds "zien" in zijn gedachten, zelfs als hij het hardop niet durft te zeggen. Dit noemen de auteurs van dit paper "oppervlakkig vergeten". Het is alsof je een brief in een gesloten laadje stopt, maar de laaddeur nog steeds open staat.

Het Probleem: De "Oppervlakkige Vergetelheid"

Tot nu toe hebben methoden om AI's te laten vergeten (Machine Unlearning) vaak alleen de laatste stap van het denkproces aangepast.

De Analogie: Stel je voor dat de robot een chef-kok is. De "vergeten" foto is een ingrediënt dat hij niet meer mag gebruiken. De oude methoden deden alsof de chef het recept op het bord (het eindresultaat) veranderde, zodat het gerecht er anders uitziet. Maar in de keuken (de diepere lagen van het brein) lagen de ingrediënten nog steeds precies op dezelfde manier. Als je de chef een nieuwe vraag stelt, kan hij het oude gerecht nog steeds maken.

De Oplossing: "Erase at the Core" (EC)

De onderzoekers van dit paper hebben een nieuwe methode bedacht die ze "Erase at the Core" (EC) noemen. In plaats van alleen het bord aan te passen, gaan ze de hele keuken op de schop.

Hoe werkt het? Stel je dit voor:

Meerdere Checkpoints: De robot (het AI-model) heeft verschillende "denklaagjes". De eerste laagjes zien simpele lijntjes en kleuren, de diepere laagjes begrijpen complexe dingen zoals "hond" of "auto".
De "Korenschuur" aanpak: De EC-methode plaatst kleine, slimme bewakers (modules) op elk van deze lagen.
Het Verwarringsspel:
- Voor de foto's die vergeten moeten worden (de "vergeten set"), dwingen deze bewakers de robot om die foto's te verwarren met andere, willekeurige foto's. Ze duwen de herinnering aan die hond weg naar een plek waar hij eruitziet als een stoel of een boom. Dit gebeurt op alle lagen, van de simpele lijntjes tot de complexe concepten.
- Voor de foto's die behouden moeten blijven (de "retainer set"), zeggen de bewakers: "Nee, jij mag niet vergeten worden!" Ze zorgen dat de robot die foto's nog steeds perfect herkent.

De Creatieve Metafoor:
Stel je voor dat je een oude, ingewikkelde kaart van een stad wilt wissen.

Oude methode: Je plakt een sticker over de naam van de straat op de kaart. Als je kijkt, zie je de naam niet meer. Maar als je de kaart van dichtbij bekijkt, zie je nog steeds de straten, de gebouwen en de wegen eronder.
EC-methode: Je neemt een grote rubberen gum en wrijft de hele straat, de gebouwen en de wegen eruit. Je herplaatst ze dan opnieuw, maar nu als een park of een meer. De structuur van de kaart is fundamenteel veranderd. De straat bestaat niet meer, niet alleen de naam.

Waarom is dit belangrijk?

Echt Vergeten: Met EC is het voor de robot onmogelijk om de oude foto's nog te reconstrueren, zelfs niet als je hem slimme trucs leert. De "sporen" in zijn brein zijn echt gewist.
Behoud van Kwaliteit: Het mooie is dat de robot zijn andere kennis niet verliest. Hij kan nog steeds perfect andere foto's herkennen (bijvoorbeeld andere honden of auto's). Hij wordt niet "dom" door het wissen.
Plug-and-Play: Deze methode is zo flexibel dat je hem kunt toevoegen aan bijna elke bestaande AI. Het is als een extra filter dat je op je camera zet om de foto's te verbeteren, zonder de camera zelf te hoeven vervangen.

Conclusie

Deze paper zegt eigenlijk: "Stop met het alleen verbergen van de antwoorden. Als je wilt dat een AI iets echt vergeet, moet je de manier waarop het denkt over die dingen fundamenteel veranderen."

Met "Erase at the Core" zorgen ze ervoor dat de robot niet alleen doet alsof hij vergeet, maar dat hij het ook echt doet, van de diepste lagen van zijn brein tot aan de oppervlakte. Dit is een enorme stap voorwaarts voor privacy en het recht om vergeten te worden in een wereld vol slimme machines.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling: "Oppervlakkig Vergeten" (Superficial Forgetting)

Machine Unlearning (MU) heeft als doel de invloed van een specifieke subset van trainingsdata (de forget set) uit een getraind model te verwijderen, terwijl de prestaties op de resterende data (de retain set) behouden blijven.

De auteurs identificeren een kritieke tekortkoming in bestaande benaderingen: oppervlakkig vergeten.

Het fenomeen: Veel huidige methoden bereiken een zeer lage nauwkeurigheid op de forget set (logit-niveau), wat lijkt op succesvol vergeten. Echter, de interne feature-representaties (de tussenliggende lagen van het neurale netwerk) blijven sterk vergelijkbaar met die van het originele model.
Het risico: Omdat de interne representaties intact blijven, kan informatie over de forget set worden hersteld via aanvallen zoals linear probing (waarbij alleen de laatste classifier wordt hergetraind) of via representatie-analyse (zoals CKA en IDI). Dit betekent dat de "rechten om vergeten te worden" (zoals vastgelegd in de GDPR) niet volledig worden nageleefd.
Huidige beperkingen: Bestaande methoden richten zich vaak alleen op de laatste classifier of logits, of manipuleren slechts één laag in de feature-ruimte, waardoor diepere lagen kwetsbaar blijven voor informatielekken.

2. Methodologie: Erase at the Core (EC)

Om dit probleem op te lossen, stellen de auteurs Erase at the Core (EC) voor. Dit is een framework dat vergeten dwingt door de volledige hiërarchie van het netwerk, van de vroege tot de diepe lagen.

Kerncomponenten van EC:

Architectuur: EC voegt auxiliaire modules toe aan de tussenliggende lagen van het bestaande backbone-netwerk (bijv. ResNet-50 of Swin-Tiny). Deze modules zijn model-agnostisch.
Multi-layer Contrastive Unlearning: In plaats van alleen de output te manipuleren, wordt een contrastieve leerdoelstelling toegepast op meerdere lagen.
- Voor de forget set worden de embeddings "gediffuseerd" naar de manifold van de retain set. Dit betekent dat de features van de te vergeten data worden weggeduwd van hun oorspronkelijke class-specifieke clusters en dichter bij de retain-data worden gebracht, waardoor class-specifieke informatie wordt gewist.
Deep Supervision (Diep Toezicht):
- Op elke supervisie-punt (elke laag waar een EC-module zit) worden twee verliesfuncties toegepast:
  1. Contrastive Unlearning Loss ( $L_{CU}$ ): Op de forget set om representaties te veranderen.
  2. Cross-Entropy Loss ( $L_{CE}$ ): Op de retain set om de classificatieprestaties te behouden.
Laag-gewogen Verlies: De auteurs erkennen dat diepere lagen hogere, class-discriminerende features bevatten. Daarom worden de verliesgewichten ( $w_l$ ) progressief groter voor diepere lagen. Dit zorgt ervoor dat het "vergeten"-signaal sterk doordringt in de kern van het netwerk.
Plug-in Aard: EC kan worden geïntegreerd als een plug-in module in bestaande unlearning-methoden om hun representatie-niveau vergeten te verbeteren.

3. Belangrijkste Bijdragen

Het EC Framework: Introductie van een multi-layer unlearning framework dat contrastief vergeten combineert met diep toezicht om feature-erasure te forceren in de diepte van het netwerk.
Uitgebreide Evaluatie: Een grondige herbeoordeling van bestaande baselines (zoals DUCK, SCRUB, SalUn, CU) met zowel logit-gebaseerde metrics als representatie-gebaseerde metrics (CKA, IDI, en k-NN downstream prestaties) op grote schaal (ImageNet-1K, CIFAR-100).
Demonstratie van Oppervlakkig Vergeten: Empirisch bewijs leveren dat bestaande methoden vaak falen in het verwijderen van informatie uit tussenliggende lagen, terwijl EC dit wel doet.
Modulaire Toepasbaarheid: Aantonen dat EC model-agnostisch is en kan worden gebruikt om andere representation-based unlearning-methoden te versterken zonder hun nut op de retain set significant te schaden.

4. Resultaten

De experimenten zijn uitgevoerd op ImageNet-1K (100 classes vergeten) en CIFAR-100 (10 classes vergeten) met architectures zoals ResNet-50 en Swin-Tiny.

Representatie-niveau Vergeten: EC presteert significant beter dan alle baselines op representatie-metrics.
- CKA (Centered Kernel Alignment): EC toont de grootste divergentie van het originele model (laagste CKA-waarden), wat aangeeft dat de features fundamenteel zijn veranderd.
- IDI (Information Difference Index): EC bereikt de laagste IDI-waarden, wat betekent dat er minimale wederzijdse informatie overblijft tussen de features en de forget labels.
Behoud van Nut (Utility): Ondanks de agressieve representatie-veranderingen, behoudt EC hoge nauwkeurigheid op de retain set (TRA/RA), vergelijkbaar met of beter dan andere methoden die nut behouden.
Downstream Tasks: In k-NN evaluaties op downstream datasets (Office-Home, CUB, DomainNet) behoudt EC transfererbare structuren voor de retain data, terwijl de forget data effectief wordt verwijderd.
Ablatie Studies: Het verwijderen van de laag-gebaseerde cross-entropy loss leidt tot minder effectief vergeten, en het verwijderen van de EC-modules zelf leidt tot instabiel optimalisatie en "over-forgetting" (negatieve IDI).

5. Betekenis en Conclusie

Het paper markeert een verschuiving in het domein van Machine Unlearning: van het focussen op logit-niveau (uitvoer) naar representatie-niveau (interne features).

Fundamentele Inzicht: Het paper benadrukt dat "vergeten" niet alleen betekent dat een model een fout antwoord geeft, maar dat de interne kennisstructuur over de forget data daadwerkelijk is gewist.
Toekomstige Richting: EC biedt een praktische oplossing voor de uitdagingen van data-privacyreguleringen in grote schaal ML-systemen. Het stelt dat toekomstige evaluaties van unlearning verplicht representatie-metrics moeten omvatten om "superficial forgetting" te detecteren.
Praktische Impact: Door EC als plug-in te gebruiken, kunnen bestaande systemen worden opgewaardeerd naar een hoger niveau van privacy en veiligheid zonder de prestaties op de resterende data te offeren.

Kortom, Erase at the Core lost het probleem op dat bestaande methoden vaak alleen de "top" van het ijsbergje (de output) verwijderen, terwijl de "kern" (de interne representaties) intact blijft. EC zorgt ervoor dat het vergeten proces de kern van het neurale netwerk bereikt.

Erase at the Core: Representation Unlearning for Machine Unlearning

Het Probleem: De "Oppervlakkige Vergetelheid"

De Oplossing: "Erase at the Core" (EC)

Waarom is dit belangrijk?

Conclusie

1. Probleemstelling: "Oppervlakkig Vergeten" (Superficial Forgetting)

2. Methodologie: Erase at the Core (EC)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models