Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

De Kernvraag: Is het echt weg, of alleen maar verborgen?

Stel je voor dat je een enorme, slimme robot hebt die alles heeft geleerd van het internet. Maar nu wil je dat hij een specifiek geheim vergeet (bijvoorbeeld een foto van een privépersoon of een auteursrechtelijk beschermd schilderij). Dit proces heet "Machine Unlearning" (machine-ontleren).

De auteurs van dit paper stellen een heel belangrijk vraag: Wanneer we zeggen dat de robot iets "vergeten" is, is die informatie dan echt uit zijn hoofd gewist, of heeft hij het alleen maar onder een deken verstopt?

Ze noemen dit onderscheid:

Verwijdering (Deletion): Het is echt weg. Alsof je een pagina uit een boek scheurt en de rest van de tekst erop aanpast zodat het verhaal klopt.
Onderdrukking (Suppression): Het is nog steeds daar, maar de robot leert je niet meer te vertellen wat er op die pagina staat. Alsof je de robot een mondkapje opzet en zegt: "Zeg niets over dit onderwerp." Als je het mondkapje eraf haalt, kan hij het nog steeds vertellen.

Het Probleem: De "Slechte" Test

Tot nu toe keken onderzoekers alleen naar wat de robot zegt (de uitkomst). Als de robot op een vraag over het vergeten onderwerp "Ik weet het niet" of een verkeerd antwoord geeft, dachten ze: "Gefeliciteerd, hij heeft het vergeten!"

Maar dit is net als kijken naar een gesloten kast. Als je de deur dicht ziet, denk je dat er niets in zit. Maar misschien zit er wel een hele berg spullen in, die gewoon niet naar buiten durven te komen.

De Oplossing: De "Magische Spiegel"

De auteurs hebben een nieuwe manier bedacht om te kijken wat er echt in de robot zit, zonder hem te laten praten. Ze gebruiken een hulpmiddel genaamd Sparse Autoencoders (SAE's).

De Analogie:
Stel je voor dat de robot een enorme fabriek is met veel verdiepingen.

De bodem is waar de ruwe materialen binnenkomen.
De bovenste verdieping is waar het eindproduct (het antwoord) uitkomt.
De middenverdiepingen zijn waar de echte "informatie" wordt verwerkt en opgeslagen.

De auteurs gebruiken hun "magische spiegel" (de SAE) om te kijken naar de middenverdiepingen. Ze zoeken daar naar specifieke "experts" (onderdelen van de robot) die weten hoe ze een "vogel" of een "brandblusser" moeten herkennen.

Hun experiment ziet er zo uit:

Ze nemen een robot die zegt dat hij een "vogel" is vergeten.
Ze kijken in de middenverdiepingen.
Ze gebruiken hun spiegel om de "vogel-expert" in de robot tijdelijk weer actief te maken (ze "sturen" de robot).
Het resultaat: In de meeste gevallen begint de robot plotseling weer perfect te antwoorden over vogels!

Wat betekent dit?
Het betekent dat de informatie nooit echt weg was. De robot had het alleen maar "stilgehouden" (onderdrukt) bij het geven van het antwoord. De kennis zat nog steeds diep in zijn hersenen, klaar om weer wakker gemaakt te worden.

De Verbazingwekkende Bevindingen

De auteurs hebben 12 verschillende methoden getest om robots iets te laten vergeten. Wat vonden ze?

De meeste methoden zijn nep: Ze doen alsof ze iets wissen, maar in werkelijkheid onderdrukken ze het alleen. Als je de "knop" om het geheim te vertellen weer omdraait, werkt het antwoord weer.
Zelfs opnieuw trainen helpt niet: Zelfs als je de robot helemaal opnieuw leert met de goede gegevens (zonder de slechte), blijft de "herinnering" aan de oude gegevens soms hangen. Het is alsof je een oude smaak in je mond probeert weg te spoelen, maar de smaak van het vorige eten blijft nog even hangen in je hersenen.
Sommige methoden werken wel: Er zijn een paar methoden die de robot echt "op de kop slaan" op de plek waar de informatie zit. Die werken echt, maar ze zijn zeldzaam.

Waarom is dit belangrijk?

Dit is een groot probleem voor onze privacy en veiligheid.
Stel, een bedrijf deelt een slimme robot met de wereld. Ze zeggen: "Geen zorgen, we hebben alle privéfoto's uit de robot verwijderd."
Maar volgens dit onderzoek is het misschien alleen maar onderdrukt. Als een hacker of een slimme gebruiker de juiste "knoppen" vindt om de robot te manipuleren, kan hij die privéfoto's weer uit de robot halen.

De Conclusie in Eén Zin

We moeten stoppen met vertrouwen op wat robots zeggen (hun antwoorden), en gaan kijken naar wat er in hun hoofd gebeurt (hun interne gedachten). Als we echt willen dat robots iets vergeten, moeten we de informatie fysiek uit hun "hersenen" verwijderen, niet alleen hun mond dichtplakken.

De boodschap: "Vergeten" is niet hetzelfde als "zwijgen". Als je echt wilt dat iets weg is, moet je het uit de bron halen, niet alleen de uitgang blokkeren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Met de toenemende verspreiding van voorgeprogrammeerde modellen (pretrained models) via platforms zoals Hugging Face, is het cruciaal geworden dat modellen gevoelige, auteursrechtelijk beschermde of private informatie kunnen "vergeten" op verzoek (het "recht om vergeten te worden" volgens de GDPR). Hoewel Machine Unlearning (MU) is ontwikkeld om deze uitdaging aan te pakken, vertonen de huidige evaluatiemethoden een fundamenteel tekortkoming: ze vertrouwen uitsluitend op output-gebaseerde metrics (zoals nauwkeurigheid op de 'forget set' of resultaten van membership inference attacks).

Deze metrics kunnen niet verifiëren of informatie daadwerkelijk is verwijderd uit de interne representaties van het model, of dat deze slechts is onderdrukt (suppression). Onderdrukking betekent dat de semantische features van de te vergeten data nog steeds aanwezig zijn in de tussenliggende lagen van het neurale netwerk, maar slechts worden gemaskeerd aan de outputlaag. Dit vormt een groot risico, omdat deze informatie via manipulatie van de interne representaties kan worden hersteld, zelfs als het model extern lijkt te voldoen aan privacy-eisen.

Methodologie: Het "Suppression or Deletion" Framework

De auteurs introduceren een nieuw analysekader dat gebaseerd is op herstel (restoration) om onderscheid te maken tussen onderdrukking en verwijdering. Het kader bestaat uit twee hoofdfasen:

Feature Selectie (Identificatie van Expert Features):
- Er worden Sparse Autoencoders (SAE's) gebruikt om interpreteerbare, class-specifieke "expert features" te identificeren in de tussenliggende lagen van het model.
- Het proces omvat het verzamelen van SAE-activaties, het filteren van niet-informatieve features, en het selecteren van de top-features per klasse op basis van hun F1-score.
- Deze features worden gealigneerd tussen het originele model en het "unlearned" model (met behulp van het Hongaarse algoritme) om te garanderen dat dezelfde features worden vergeleken.
Selectief Herstel (Inference-time Steering):
- Voor een bepaald doelmodel (het model dat is onderworpen aan unlearning) worden de activaties van de tussenliggende lagen geëxtraheerd.
- De geselecteerde expert features van het originele model worden "teruggeplaatst" in de representatie van het unlearned model via een stuurcoëfficiënt ( $\alpha$ ). Dit wordt gedaan door de formule: $\hat{h}[j] = h_{unl}[j] + \alpha(h_{orig}[j] - h_{unl}[j])$ .
- Als het model na deze manipulatie de oorspronkelijke klasse (de "forget class") weer correct voorspelt, betekent dit dat de informatie niet is verwijderd, maar slechts onderdrukt was. Een succesvol unlearning zou leiden tot geen herstel van de nauwkeurigheid.

Experimenten en Resultaten

De auteurs hebben dit framework toegepast op 12 belangrijke unlearning-methoden (zoals Finetune, AdvNegGrad, SCRUB, SalUn, EU-K, etc.) op twee datasets: CIFAR-10 en ImageNette, gebruikmakend van een ViT-B/16 model.

Belangrijkste bevindingen:

Dominantie van Onderdrukking: De meeste bestaande methoden (inclusief methoden die loss-functies aanpassen of output-mappings manipuleren) bereiken een lage nauwkeurigheid op de forget-set, maar tonen hoge herstelpercentages (vaak >80% tot 100%) na het sturen van de features. Dit bewijst dat ze de semantische informatie niet verwijderen, maar alleen onderdrukken.
Retraining is niet voldoende: Zelfs het volledig opnieuw trainen van het model vanaf een pretrained checkpoint resulteert in hoge herstelpercentages. Dit onthult dat robuuste semantische features die tijdens het pretraining zijn geleerd, niet worden verwijderd door standaard hertraining.
Lagenafhankelijkheid: Het herstel is het sterkst in de "semantische bottlenecks" (meestal de midden- tot diepere lagen). Voor eenvoudigere datasets (CIFAR-10) zitten deze features in middenlagen, terwijl complexere datasets (ImageNette) deze features dieper in het netwerk plaatsen.
Uitzonderingen (Daadwerkelijke Verwijdering): Enkele methoden, zoals EU-K (die een laag-reset toepast) en methoden met gewichts-demping (zoals SSD, Bad-T), tonen lage herstelpercentages. Dit suggereert dat alleen methoden die de parameters van de tussenliggende lagen structureel wijzigen of resetten, daadwerkelijke verwijdering bereiken.

Belangrijkste Bijdragen

Nieuw Analysekader: Een framework dat SAE's en inference-time steering combineert om kwantitatief onderscheid te maken tussen suppressie en deletion op representatieniveau.
Empirisch Bewijs: Een uitgebreide evaluatie van 12 methoden die aantoont dat de huidige staat van de kunst (SOTA) in machine unlearning grotendeels gebaseerd is op onderdrukking in plaats van verwijdering.
Ontwerprichtlijnen: Een nieuwe set richtlijnen voor het ontwerpen en evalueren van unlearning-methoden die prioriteit geven aan verificatie op representatieniveau.

Betekenis en Conclusie

De studie waarschuwt dat output-gebaseerde evaluaties misleidend kunnen zijn in het tijdperk van gedeelde pretrained modellen. Modellen die extern lijken te voldoen aan privacy-eisen, kunnen intern nog steeds kwetsbare informatie bevatten die via mechanische manipulatie kan worden hersteld.

De auteurs concluderen dat voor privacy-kritieke toepassingen:

Evaluaties moeten evolueren van puur output-metrics naar mechanistische verificatie van interne representaties.
Effectieve unlearning vereist laag-bewuste modificaties die de semantische bottlenecks direct aanpakken (bijv. door laag-resetting of gerichte parameter-demping).
Er is een dringende behoefte aan nieuwe evaluatiestandaarden die garanderen dat informatie daadwerkelijk is gewist en niet slechts onderdrukt.

De code voor dit onderzoek is beschikbaar gesteld om herhaalbaarheid en verdere validatie te faciliteren.

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

De Kernvraag: Is het echt weg, of alleen maar verborgen?

Het Probleem: De "Slechte" Test

De Oplossing: De "Magische Spiegel"

De Verbazingwekkende Bevindingen

Waarom is dit belangrijk?

De Conclusie in Eén Zin

Probleemstelling

Methodologie: Het "Suppression or Deletion" Framework

Experimenten en Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation