Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Deze paper introduceert een nieuw evaluatiekader op basis van herstel en Sparse Autoencoders dat aantoont dat de meeste bestaande methoden voor machine unlearning informatie slechts onderdrukken in plaats van te verwijderen, wat leidt tot een herstelbaar risico dat door traditionele output-metrics wordt gemist.

Yurim Jang, Jaeung Lee, Dohyun Kim, Jaemin Jo, Simon S. Woo

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Kernvraag: Is het echt weg, of alleen maar verborgen?

Stel je voor dat je een enorme, slimme robot hebt die alles heeft geleerd van het internet. Maar nu wil je dat hij een specifiek geheim vergeet (bijvoorbeeld een foto van een privépersoon of een auteursrechtelijk beschermd schilderij). Dit proces heet "Machine Unlearning" (machine-ontleren).

De auteurs van dit paper stellen een heel belangrijk vraag: Wanneer we zeggen dat de robot iets "vergeten" is, is die informatie dan echt uit zijn hoofd gewist, of heeft hij het alleen maar onder een deken verstopt?

Ze noemen dit onderscheid:

  1. Verwijdering (Deletion): Het is echt weg. Alsof je een pagina uit een boek scheurt en de rest van de tekst erop aanpast zodat het verhaal klopt.
  2. Onderdrukking (Suppression): Het is nog steeds daar, maar de robot leert je niet meer te vertellen wat er op die pagina staat. Alsof je de robot een mondkapje opzet en zegt: "Zeg niets over dit onderwerp." Als je het mondkapje eraf haalt, kan hij het nog steeds vertellen.

Het Probleem: De "Slechte" Test

Tot nu toe keken onderzoekers alleen naar wat de robot zegt (de uitkomst). Als de robot op een vraag over het vergeten onderwerp "Ik weet het niet" of een verkeerd antwoord geeft, dachten ze: "Gefeliciteerd, hij heeft het vergeten!"

Maar dit is net als kijken naar een gesloten kast. Als je de deur dicht ziet, denk je dat er niets in zit. Maar misschien zit er wel een hele berg spullen in, die gewoon niet naar buiten durven te komen.

De Oplossing: De "Magische Spiegel"

De auteurs hebben een nieuwe manier bedacht om te kijken wat er echt in de robot zit, zonder hem te laten praten. Ze gebruiken een hulpmiddel genaamd Sparse Autoencoders (SAE's).

De Analogie:
Stel je voor dat de robot een enorme fabriek is met veel verdiepingen.

  • De bodem is waar de ruwe materialen binnenkomen.
  • De bovenste verdieping is waar het eindproduct (het antwoord) uitkomt.
  • De middenverdiepingen zijn waar de echte "informatie" wordt verwerkt en opgeslagen.

De auteurs gebruiken hun "magische spiegel" (de SAE) om te kijken naar de middenverdiepingen. Ze zoeken daar naar specifieke "experts" (onderdelen van de robot) die weten hoe ze een "vogel" of een "brandblusser" moeten herkennen.

Hun experiment ziet er zo uit:

  1. Ze nemen een robot die zegt dat hij een "vogel" is vergeten.
  2. Ze kijken in de middenverdiepingen.
  3. Ze gebruiken hun spiegel om de "vogel-expert" in de robot tijdelijk weer actief te maken (ze "sturen" de robot).
  4. Het resultaat: In de meeste gevallen begint de robot plotseling weer perfect te antwoorden over vogels!

Wat betekent dit?
Het betekent dat de informatie nooit echt weg was. De robot had het alleen maar "stilgehouden" (onderdrukt) bij het geven van het antwoord. De kennis zat nog steeds diep in zijn hersenen, klaar om weer wakker gemaakt te worden.

De Verbazingwekkende Bevindingen

De auteurs hebben 12 verschillende methoden getest om robots iets te laten vergeten. Wat vonden ze?

  • De meeste methoden zijn nep: Ze doen alsof ze iets wissen, maar in werkelijkheid onderdrukken ze het alleen. Als je de "knop" om het geheim te vertellen weer omdraait, werkt het antwoord weer.
  • Zelfs opnieuw trainen helpt niet: Zelfs als je de robot helemaal opnieuw leert met de goede gegevens (zonder de slechte), blijft de "herinnering" aan de oude gegevens soms hangen. Het is alsof je een oude smaak in je mond probeert weg te spoelen, maar de smaak van het vorige eten blijft nog even hangen in je hersenen.
  • Sommige methoden werken wel: Er zijn een paar methoden die de robot echt "op de kop slaan" op de plek waar de informatie zit. Die werken echt, maar ze zijn zeldzaam.

Waarom is dit belangrijk?

Dit is een groot probleem voor onze privacy en veiligheid.
Stel, een bedrijf deelt een slimme robot met de wereld. Ze zeggen: "Geen zorgen, we hebben alle privéfoto's uit de robot verwijderd."
Maar volgens dit onderzoek is het misschien alleen maar onderdrukt. Als een hacker of een slimme gebruiker de juiste "knoppen" vindt om de robot te manipuleren, kan hij die privéfoto's weer uit de robot halen.

De Conclusie in Eén Zin

We moeten stoppen met vertrouwen op wat robots zeggen (hun antwoorden), en gaan kijken naar wat er in hun hoofd gebeurt (hun interne gedachten). Als we echt willen dat robots iets vergeten, moeten we de informatie fysiek uit hun "hersenen" verwijderen, niet alleen hun mond dichtplakken.

De boodschap: "Vergeten" is niet hetzelfde als "zwijgen". Als je echt wilt dat iets weg is, moet je het uit de bron halen, niet alleen de uitgang blokkeren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →