Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een AI kunt laten "vergeten" zonder haar geheugen te breken

Stel je voor dat je een zeer slimme, maar soms wat onhandige assistent hebt. Deze assistent is opgeleid met een enorme hoeveelheid informatie uit het hele internet. Hij kan alles, maar soms heeft hij ook dingen geleerd die hij niet meer mag weten (bijvoorbeeld privégegevens van een klant, illegale code, of auteursrechtelijk beschermd materiaal).

Je wilt dat deze assistent die specifieke informatie vergeet. Maar hier zit het probleem: als je hem gewoon vertelt "vergeet dat", kun je ook per ongeluk andere dingen laten verdwijnen die hij wel moet weten. Het is alsof je een boek wilt schrappen uit een bibliotheek, maar je niet wilt dat de hele bibliotheek instort of dat je ook de kaarten van de andere boeken kwijtraakt.

Dit is het probleem van Machine Unlearning (het "vergeten" van een AI).

Het oude probleem: De "Twee-stappen-dans"

Vroeger probeerden onderzoekers dit op een moeilijke manier op te lossen. Ze lieten de AI twee dingen tegelijk doen:

Op de "vergeten" data: Ze duwden de AI hard in de richting van "vergeten" (alsof je iemand hard duwt om een slechte gewoonte af te leren).
Op de "behouden" data: Ze duwden de AI tegelijkertijd in de richting van "onthouden" (alsof je iemand vasthoudt om te voorkomen dat hij valt).

Het probleem? Als je maar een kleine hoeveelheid "behouden" data hebt (wat vaak het geval is, omdat bedrijven hun volledige trainingsdata niet meer hebben), werkt deze balans niet goed. De AI raakt in de war, of ze vergeet te veel, of ze vergeet te weinig. Het is alsof je probeert een zware kist te verplaatsen terwijl je maar één hand hebt om hem vast te houden.

De nieuwe oplossing: OrthoGrad (De "Loze Ruimte" methode)

De auteurs van dit paper, Aviv en zijn team, hebben een slimme nieuwe manier bedacht die ze OrthoGrad noemen.

Stel je voor dat je een dansvloer hebt.

De vergeten data (wat je wilt verwijderen) is een danser die een heel specifieke, wilde dansbeweging maakt.
De behouden data (wat je wilt bewaren) is een groep dansers die een rustige, elegante dans doen.

De oude methode probeerde de wilde danser te stoppen door de rustige dansers harder te laten dansen in de tegenovergestelde richting. Dat werkte niet goed als er maar een paar rustige dansers waren.

OrthoGrad doet iets heel anders:

Ze kijken naar de bewegingen van de rustige dansers (de behouden data).
Ze berekenen een onzichtbaar vlak (een subspace) dat precies loodrecht staat op al die rustige bewegingen.
Ze laten de wilde danser (de vergeten data) bewegen, maar alleen in die loodrechte richting.

Waarom is dit slim?
Omdat de beweging van de wilde danser nu nooit de rustige dansers raakt. Het is alsof je een bal gooit die precies langs de muur gaat, zonder de muur aan te raken. Je verwijdert de invloed van de wilde danser, maar de rustige dansers blijven precies zoals ze waren.

De "LoRA" truc: De kleine bril

Om dit nog beter te laten werken, gebruiken ze een techniek genaamd LoRA.
Stel je voor dat de AI een gigantisch brein heeft. In plaats van het hele brein te herschrijven (wat heel veel energie kost en gevaarlijk is), zetten ze een kleine bril op het brein. Ze laten de AI alleen maar leren door die bril te verstellen.
Dit betekent dat ze alleen kleine, specifieke aanpassingen doen. Het is alsof je een groot schilderij niet opnieuw schildert, maar alleen een klein detailje aanpast met een fijne penseelstreek. Dit bespaart tijd, geheugen en voorkomt dat je per ongeluk het hele schilderij bederft.

Wat hebben ze bewezen?

Ze hebben deze methode getest op verschillende gebieden:

Spraakherkenning: Ze hebben een AI getraind om stemmen te herkennen, en toen hebben ze één specifieke stem laten "vergeten". De AI kon die stem niet meer herkennen, maar kon nog steeds perfect andere stemmen verstaan.
Beelden: Ze hebben AI's getraind om foto's te herkennen en hebben bepaalde foto's laten verdwijnen. De AI vergat die foto's, maar werd niet dommer in het herkennen van andere dingen.

Conclusie

De boodschap van dit paper is simpel: Je hoeft niet de hele bibliotheek te herbouwen om één boek te verwijderen.

Met OrthoGrad kunnen we AI's laten "vergeten" wat ze niet meer mogen weten, zelfs als we maar een heel klein beetje informatie hebben om te helpen bij het onthouden van de rest. Het is een veiligere, slimmere en efficiëntere manier om AI's aan te passen aan de regels van privacy en auteursrecht.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Machine unlearning (het "vergeten" van specifieke data uit een getraind model) is een kritieke uitdaging, vooral vanwege privacyregels (zoals het recht om vergeten te worden) en auteursrechtelijke kwesties. De traditionele aanpak vereist vaak het hertrainen van het model zonder de problematische data, wat computationally onhaalbaar is voor grote foundation-modellen.

Bestaande methoden proberen dit op te lossen door een balans te vinden tussen:

Gradient Ascent op de "vergeten" set (om de prestaties op deze data te verslechteren).
Gradient Descent op een "retaint" set (om de prestaties op de resterende data te behouden).

Het centrale probleem dat dit paper adresseert, is dat in de praktijk vaak geen toegang is tot de volledige oorspronkelijke trainingsset. Modellen worden vaak vrijgegeven zonder hun trainingsdata, of men heeft slechts toegang tot een zeer kleine subset (bijvoorbeeld een klein publiek dataset als vervanging voor een proprietary dataset). Bestaande methoden die werken met het gemiddelde van de gradients van de retaint set, falen vaak wanneer deze set klein is, omdat ze niet genoeg informatie kunnen extraheren om interferentie te voorkomen.

Methodologie: OrthoGrad

De auteurs stellen OrthoGrad voor, een nieuwe methode die specifiek is ontworpen voor scenario's met beperkte retaint data. In plaats van te concurreren met de gradients van de retaint set, probeert OrthoGrad interferentie volledig te elimineren door projectie.

Kernprincipes:

Per-Sample Gradienten: In tegenstelling tot eerdere methoden die werken met het gemiddelde van de gradients van een batch, berekent OrthoGrad de gradients voor elk individueel voorbeeld in de retaint batch.
Ortogonale Projectie:
- De methode berekent een subruimte die wordt opgespannen door de individuele gradients van de retaint set.
- De gradient van de "vergeten" set ( $g_u$ ) wordt geprojecteerd op de subruimte die orthogonaal (loodrecht) staat op de retaint gradients.
- Dit wordt gedaan via QR-decompositie op de matrix van retaint gradients ( $G_r$ ) om een orthonormale basis ( $Q$ ) te vinden.
- De orthogonale component wordt berekend als: $g_u^\perp = g_u - \sum \langle g_u, q_i \rangle q_i$ .
Update Regel: De uiteindelijke update is een combinatie van de gemiddelde retaint gradient en de georthogonaliseerde vergeten gradient:
$g = \alpha \bar{g}_r - (1 - \alpha) g_u^\perp$
Waarbij $\alpha$ een hyperparameter is die de balans regelt tussen het behouden van kennis en het vergeten.
Efficiëntie (LoRA): Om de impact op het geheugen en de rekentijd te beperken, wordt OrthoGrad geïmplementeerd met LoRA (Low-Rank Adaptation). Dit beperkt de updates tot een laag-rang subspace, wat de rekentijd en het geheugengebruik aanzienlijk verlaagt zonder de effectiviteit te verminderen.

Theoretische Motivatie:
De auteurs tonen wiskundig aan dat het ideaal van unlearning overeenkomt met het minimaliseren van de loss op de vergeten set terwijl men zich blijft bewegen op een "manifold" waar de loss op de retaint set constant blijft. De gradiëntstroom op deze manifold is equivalent aan het projecteren van de gradiënt op de nulruimte van de Jacobiaan van de retaint loss, wat leidt tot de orthogonale projectie die in de algoritme wordt gebruikt.

Belangrijkste Bijdragen

OrthoGrad Algorithm: Een nieuwe methode die per-sample gradients gebruikt om interferentie tussen vergeten en behouden data te minimaliseren, specifiek geoptimaliseerd voor kleine retaint sets.
Theoretisch Onderbouwing: Een geometrische analyse die aantoont dat orthogonale projectie op de per-sample gradientsubruimte de optimale route is om de retaint manifold te respecteren.
Uitgebreide Evaluatie: Demonstratie van de superioriteit van OrthoGrad op diverse taken, waaronder Automatische Spraakherkenning (ASR) en Beeldclassificatie, onder verschillende omstandigheden (willekeurige dataverwijdering, klasse-specifiek vergeten, en proxy-retain sets).

Resultaten

De auteurs evalueren OrthoGrad tegenover state-of-the-art baselines (zoals NegGrad+, SCRUB, GDR-GMA, DUCK, SSD) op meerdere datasets (LibriSpeech, ImageNet, CIFAR-10, CINIC-10).

Automatische Spraakherkenning (ASR):
- Op de LibriSpeech dataset (Whisper model) presteert OrthoGrad aanzienlijk beter dan concurrenten.
- Het bereikt een Word Error Rate (WER) op de vergeten sprekers van ~98% (effectief vergeten) terwijl de WER op de testset (algemene prestatie) slechts licht stijgt (van ~11% naar ~14%).
- Andere methoden zoals NegGrad+ en SCRUB leiden tot catastrofale forgetting (hoge WER op de testset).
Beeldclassificatie (ImageNet & CIFAR-10):
- OrthoGrad behaalt de laagste Unlearning Impact Score (UIS), wat aangeeft dat het de beste balans vindt tussen vergeten en behouden prestaties.
- Het is robuust bij variërende grootte van de retaint set (van 1K tot 200K samples), terwijl andere methoden (zoals SCAR) falen bij zeer kleine sets of memory overflow krijgen bij grote sets.
- In "Proxy-Retain" scenario's (waar de retaint set een andere distributie heeft dan de oorspronkelijke trainingsdata) presteert OrthoGrad consistent beter dan baselines.
Efficiëntie:
- Hoewel per-sample gradients meer geheugen vereisen, toont de analyse aan dat het gebruik van LoRA de rekentijd (FLOPs) met een factor 1.68 verlaagt en het geheugengebruik drastisch reduceert.
- OrthoGrad is sneller dan clustering-gebaseerde methoden (DUCK/SCAR) en vergelijkbaar met andere iteratieve methoden.

Betekenis en Conclusie

Dit paper biedt een oplossing voor een van de grootste praktische beperkingen in machine unlearning: het gebrek aan toegang tot de volledige trainingsset. Door te bewegen van "gemiddelde" naar "per-sample" gradienten en deze te orthogonaliseren, kan OrthoGrad effectief "vergeten" zonder de algemene prestaties van het model te ondermijnen, zelfs met zeer beperkte retaint data.

De methode is van groot belang voor:

Privacy: Het toestaan van "opt-out" verzoeken voor gebruikers in spraakherkenningssystemen zonder het hele model te hertrainen.
Auteursrecht: Het verwijderen van specifieke, beschermde data uit foundation-modellen.
Real-world toepasbaarheid: Het biedt een haalbare route voor unlearning in productieomgevingen waar de oorspronkelijke trainingsdata niet beschikbaar is of te groot is om volledig te benaderen.

Kortom, OrthoGrad bewijst dat men "beyond the means" (beyond de beperkte data) kan gaan door slimme geometrische optimalisatie, wat een nieuwe standaard zet voor efficiënt en effectief machine unlearning.

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Het oude probleem: De "Twee-stappen-dans"

De nieuwe oplossing: OrthoGrad (De "Loze Ruimte" methode)

De "LoRA" truc: De kleine bril

Wat hebben ze bewezen?

Conclusie

Probleemstelling

Methodologie: OrthoGrad

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks