Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Dit paper introduceert OrthoGrad, een nieuwe methode voor machine unlearning die door het projecteren van de gradiënt van het te vergeten dataset op de orthogonale ruimte van de behouden dataset, effectieve verwijdering van ongewenste informatie mogelijk maakt zonder de prestaties op de resterende data te schaden, zelfs wanneer slechts een klein deel van de trainingset beschikbaar is.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een AI kunt laten "vergeten" zonder haar geheugen te breken

Stel je voor dat je een zeer slimme, maar soms wat onhandige assistent hebt. Deze assistent is opgeleid met een enorme hoeveelheid informatie uit het hele internet. Hij kan alles, maar soms heeft hij ook dingen geleerd die hij niet meer mag weten (bijvoorbeeld privégegevens van een klant, illegale code, of auteursrechtelijk beschermd materiaal).

Je wilt dat deze assistent die specifieke informatie vergeet. Maar hier zit het probleem: als je hem gewoon vertelt "vergeet dat", kun je ook per ongeluk andere dingen laten verdwijnen die hij wel moet weten. Het is alsof je een boek wilt schrappen uit een bibliotheek, maar je niet wilt dat de hele bibliotheek instort of dat je ook de kaarten van de andere boeken kwijtraakt.

Dit is het probleem van Machine Unlearning (het "vergeten" van een AI).

Het oude probleem: De "Twee-stappen-dans"

Vroeger probeerden onderzoekers dit op een moeilijke manier op te lossen. Ze lieten de AI twee dingen tegelijk doen:

  1. Op de "vergeten" data: Ze duwden de AI hard in de richting van "vergeten" (alsof je iemand hard duwt om een slechte gewoonte af te leren).
  2. Op de "behouden" data: Ze duwden de AI tegelijkertijd in de richting van "onthouden" (alsof je iemand vasthoudt om te voorkomen dat hij valt).

Het probleem? Als je maar een kleine hoeveelheid "behouden" data hebt (wat vaak het geval is, omdat bedrijven hun volledige trainingsdata niet meer hebben), werkt deze balans niet goed. De AI raakt in de war, of ze vergeet te veel, of ze vergeet te weinig. Het is alsof je probeert een zware kist te verplaatsen terwijl je maar één hand hebt om hem vast te houden.

De nieuwe oplossing: OrthoGrad (De "Loze Ruimte" methode)

De auteurs van dit paper, Aviv en zijn team, hebben een slimme nieuwe manier bedacht die ze OrthoGrad noemen.

Stel je voor dat je een dansvloer hebt.

  • De vergeten data (wat je wilt verwijderen) is een danser die een heel specifieke, wilde dansbeweging maakt.
  • De behouden data (wat je wilt bewaren) is een groep dansers die een rustige, elegante dans doen.

De oude methode probeerde de wilde danser te stoppen door de rustige dansers harder te laten dansen in de tegenovergestelde richting. Dat werkte niet goed als er maar een paar rustige dansers waren.

OrthoGrad doet iets heel anders:

  1. Ze kijken naar de bewegingen van de rustige dansers (de behouden data).
  2. Ze berekenen een onzichtbaar vlak (een subspace) dat precies loodrecht staat op al die rustige bewegingen.
  3. Ze laten de wilde danser (de vergeten data) bewegen, maar alleen in die loodrechte richting.

Waarom is dit slim?
Omdat de beweging van de wilde danser nu nooit de rustige dansers raakt. Het is alsof je een bal gooit die precies langs de muur gaat, zonder de muur aan te raken. Je verwijdert de invloed van de wilde danser, maar de rustige dansers blijven precies zoals ze waren.

De "LoRA" truc: De kleine bril

Om dit nog beter te laten werken, gebruiken ze een techniek genaamd LoRA.
Stel je voor dat de AI een gigantisch brein heeft. In plaats van het hele brein te herschrijven (wat heel veel energie kost en gevaarlijk is), zetten ze een kleine bril op het brein. Ze laten de AI alleen maar leren door die bril te verstellen.
Dit betekent dat ze alleen kleine, specifieke aanpassingen doen. Het is alsof je een groot schilderij niet opnieuw schildert, maar alleen een klein detailje aanpast met een fijne penseelstreek. Dit bespaart tijd, geheugen en voorkomt dat je per ongeluk het hele schilderij bederft.

Wat hebben ze bewezen?

Ze hebben deze methode getest op verschillende gebieden:

  • Spraakherkenning: Ze hebben een AI getraind om stemmen te herkennen, en toen hebben ze één specifieke stem laten "vergeten". De AI kon die stem niet meer herkennen, maar kon nog steeds perfect andere stemmen verstaan.
  • Beelden: Ze hebben AI's getraind om foto's te herkennen en hebben bepaalde foto's laten verdwijnen. De AI vergat die foto's, maar werd niet dommer in het herkennen van andere dingen.

Conclusie

De boodschap van dit paper is simpel: Je hoeft niet de hele bibliotheek te herbouwen om één boek te verwijderen.

Met OrthoGrad kunnen we AI's laten "vergeten" wat ze niet meer mogen weten, zelfs als we maar een heel klein beetje informatie hebben om te helpen bij het onthouden van de rest. Het is een veiligere, slimmere en efficiëntere manier om AI's aan te passen aan de regels van privacy en auteursrecht.