MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

MPU: De "Vergeten" Kunst van AI – Zonder Geheimen te Lopen

Stel je voor dat je een zeer slimme, maar soms wat te geheugenrijke assistent hebt. Deze assistent heeft een enorme bibliotheek gelezen en onthoudt alles, inclusief de geheimen van zijn klanten. Nu vraagt een klant: "Ik wil dat je mijn geheime recepten vergeet, maar ik wil niet dat jij mijn recepten ziet, en ik wil ook niet dat jij je eigen geheime notities aan mij laat zien."

Dit is het grote dilemma in de wereld van Kunstmatige Intelligentie (AI): hoe laat je een AI iets vergeten zonder dat de eigenaar van de AI (de server) zijn geheime code laat zien, en zonder dat de klant zijn privé-gegevens deelt?

De auteurs van dit paper hebben een oplossing bedacht genaamd MPU. Laten we het uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Blinde" Ruil

Normaal gesproken zou de server zeggen: "Geef me je lijst met te vergeten dingen, dan pas ik mijn AI aan." Maar dat kan niet, want de klant wil zijn lijst niet delen.
Of de server zou zeggen: "Hier is mijn AI, pas jij hem zelf aan." Maar dat kan ook niet, want de server wil zijn AI niet volledig onthullen.

Het is alsof je een sleutel wilt maken, maar je mag de originele sleutel niet laten zien, en de sleutelmaker mag je niet vertellen hoe de machine werkt.

2. De Oplossing: De "Gekke Spiegels" (MPU)

MPU lost dit op met een slimme truc die bestaat uit drie stappen. Denk aan een meester-dief die een kopie van een kluis wil maken, maar de originele kluis niet mag aanraken.

Stap 1: De Server maakt "Gekke Kopieën" (Pre-Process)
In plaats van de echte AI naar de klant te sturen, maakt de server meerdere kopieën (bijvoorbeeld 2 of 3).

Het Ruis-effect: Elke kopie krijgt een beetje "ruis" of "verwarring" toegevoegd. Het is alsof je de AI een bril opzet met een lichte wazige lens. De AI ziet er nog steeds hetzelfde uit voor de buitenwereld, maar de interne cijfers zijn een beetje verschoven.
De Verdraaiing: De server draait de interne onderdelen van de AI ook nog even om (zoals een puzzel die je op een andere manier hebt samengesteld, maar die er nog steeds hetzelfde uitziet). Dit zorgt ervoor dat de klant de originele AI niet kan reconstrueren, zelfs niet als hij meerdere kopieën ziet.

Stap 2: De Klant "Vergeet" Lokaal (Client-Side)
De klant krijgt deze "wazige" en "verdraaide" kopieën.

De klant pakt zijn eigen geheime lijst (de dingen die vergeten moeten worden) en past de AI lokaal aan. Omdat de AI wazig is, ziet de klant de echte server-geheimen niet.
De klant zegt: "Ik heb deze kopieën een beetje aangepast om mijn geheimen te vergeten." Hij stuurt alleen de veranderingen (de updates) terug, niet de hele AI en niet zijn lijst.

Stap 3: De Server "Reinigt" de Veranderingen (Post-Process)
Nu komt de magische stap. De server krijgt de veranderingen van de klant terug.

Het Ontdraaien: De server draait de puzzel weer terug naar de originele vorm (het omgekeerde van stap 1).
De Harmonische Reiniging: Omdat de server meerdere kopieën had (met verschillende soorten ruis), kan hij de veranderingen van de klant combineren. De "ruis" (de verwarring) die in stap 1 is toegevoegd, is zo ontworpen dat hij elkaar opheft als je de resultaten optelt.
- Vergelijking: Stel je voor dat je drie mensen vraagt om een tekening te maken terwijl ze een trillende hand hebben. Als je de drie tekeningen precies op elkaar legt, wordt de trilling onzichtbaar en zie je alleen de perfecte lijn die ze allemaal wilden trekken.

Het resultaat? De server heeft nu een AI die de geheimen van de klant is vergeten, maar de server heeft nooit de lijst gezien, en de klant heeft nooit de echte AI gezien.

Waarom is dit zo cool?

Privacy voor iedereen: De klant behoudt zijn geheimen, en de server behoudt zijn intellectueel eigendom.
Geen kwaliteitsverlies: Normaal gesproken zorgt "ruis" voor slechtere resultaten. Maar omdat MPU de ruis slim weghaalt door de kopieën te combineren, is de AI bijna net zo goed als een AI die zonder ruis is getraind.
Veilig: Zelfs als iemand probeert de kopieën te hacken, kan hij de originele AI niet reconstrueren door de "verdraaiing" en de "ruis" samen te nemen.

Samenvattend

MPU is als een geheime club waar leden (klanten) iets willen vergeten. Ze sturen geen documenten naar de voorzitter (server). In plaats daarvan krijgen ze een versie van het clubboekje met een onleesbaar handschrift. Ze maken aantekeningen in dat boekje en sturen alleen de aantekeningen terug. De voorzitter gebruikt een speciale decoder en een rekentruc om de aantekeningen te lezen en de ruis weg te halen, zodat het clubboekje perfect is aangepast zonder dat iemand ooit de originele tekst of de geheime aantekeningen van de leden heeft gezien.

Het is een elegante manier om "vergeten" te laten gebeuren in een wereld waar privacy en veiligheid alles zijn.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper adresseert een fundamenteel privacy-dilemma bij het "machine unlearning" (het vergeten van specifieke data) van Large Language Models (LLMs) in een server-client omgeving.

De Dualiteit van Niet-openbaarmaking: In veel real-world scenario's wil de server (die het model bezit) niet zijn exacte modelparameters aan de client onthullen vanwege intellectuele eigendom. Tegelijkertijd wil de client (die de te vergeten data bezit) zijn gevoelige "forget set" (de data die verwijderd moet worden) niet aan de server sturen vanwege privacy.
Bestaande Tekortkomingen: Bestaande methoden vereisen vaak dat de server zijn exacte parameters deelt of dat de client zijn ruwe data deelt. Methoden zoals federated unlearning of SISA-sharding lossen dit niet volledig op, omdat ze vaak nog steeds toegang tot specifieke trainingsstatistieken vereisen of de exacte modeltoestand blootleggen.

Methodologie: MPU Framework

De auteurs stellen MPU (Multiple Perturbed Copies Unlearning) voor, een framework dat algoritmisch onafhankelijk is en werkt volgens een drie-staps cyclus per communicatieronde:

Pre-Process (Server-kant): Generatie van Verstoord Kopieën
- In plaats van het exacte model $\theta$ te verzenden, genereert de server $m \ge 2$ kopieën.
- Gestructureerde Ruis: Er wordt ruis toegevoegd aan de parameters. Cruciaal is dat deze ruis een zero-sum structuur heeft: de som van de ruisvector over alle $m$ kopieën is nul ( $\sum \epsilon_k = 0$ ).
- Omkeerbare Herparameterisatie: Elke kopie ondergaat een herparameterisatie $T_k$ $T_{k}$ (bijv. permutatie van neurale kanalen of rotatie van attention-heads). Deze transformatie is:
  - Omkeerbaar: De server kan de transformatie later terugdraaien.
  - Functiebehoudend: De output van het model blijft identiek, ondanks de veranderde parameters ( $f_{T(\theta)}(x) = f_\theta(x)$ ).
  - Data-onafhankelijk: De transformatie hangt niet af van de data, maar van een seed.
- Dit zorgt ervoor dat de client geen exacte oorspronkelijke parameters kan reconstrueren, zelfs niet als meerdere kopieën worden geobserveerd.
Client-Side Local Unlearning
- De client ontvangt de verstoord en herparameteriseerde kopieën.
- De client voert lokale unlearning uit op zijn privé "forget set" (bijv. via Gradient Ascent, DPO, NPO) op elke kopie.
- De client stuurt de resulterende updates ( $\Delta_k$ ) terug naar de server. De client deelt geen data.
Post-Process (Server-kant): Aggregatie en Denoising
- De server draait de herparameterisatie om ( $T_k^{-1}$ ) om de updates terug te brengen naar de oorspronkelijke parameter-ruimte.
- Harmonische Aggregatie: De server berekent een gewogen gemiddelde van de updates met harmonische gewichten ( $w_k \propto \alpha_k^{-1}$ ).
- Ruisannulering: Door de zero-sum eigenschap van de initiële ruis en de specifieke harmonische gewichten, wordt de eerste-orde fout veroorzaakt door de ruis exact geannuleerd tijdens de aggregatie. Het resultaat is een update die theoretisch identiek is aan die van een ruisvrije unlearning-stap, maar dan zonder dat de server de data heeft gezien of de client de exacte parameters.

Kernbijdragen

Dual Non-Disclosure Framework: Het eerste framework dat unlearning mogelijk maakt onder strikte voorwaarden waarbij noch de client zijn data deelt, noch de server zijn exacte parameters onthult, zonder gebruik te maken van surrogaatdata of externe statistieken.
Omkeerbare Herparameterisatie voor Transformers: Generalisatie van functiehoudende herparameterisaties naar moderne Transformer-architecturen (inclusief RoPE-positional mechanisms), wat symmetrie-basering mogelijk maakt voor modellen zoals Llama.
Theoretische Garantieën: Bewijs dat harmonische aggregatie de eerste-orde ruisfout elimineert, waardoor de server-update consistent is met de ideale, ruisvrije unlearning-stap.
Efficiëntie: Het framework is memory-efficiënt; de server hoeft niet alle $m$ kopieën tegelijk in het geheugen te houden, maar kan ze streamen (O(d) geheugen in plaats van O(md)).

Resultaten

De auteurs evalueren MPU op de TOFU-benchmark met modellen zoals Llama-3.2 en Qwen2.5, gekoppeld aan zeven verschillende unlearning-algoritmen (o.a. GradAscent, DPO, NPO).

Prestatie vergeleken met Baselines:
- Tegenover "Noisy" Baseline: MPU presteert aanzienlijk beter dan een single-copy baseline met ruis (zonder denoising), wat aantoont dat de harmonische aggregatie essentieel is.
- Tegenover "Clean" Baseline (Ruisvrij): MPU bereikt vergelijkbare prestaties aan de ruisvrije baseline. Bij veel algoritmen is de degradatie minder dan 1% bij 10% ruis. In sommige gevallen (bijv. bij lage ruis of specifieke algoritmen) presteert MPU zelfs beter dan de ruisvrije baseline, waarschijnlijk door het stabiliserende effect van het middelen over meerdere kopieën.
Privacy en Gebruik:
- Forget Quality (FQ): MPU behoudt een hoge kwaliteit van het "vergeten" van de data.
- Model Utility: De algemene prestaties van het model op niet-vergeten taken blijven behouden.
- Privacy Leakage: De methode voorkomt dat de client de server-parameters kan reconstrueren en de server de client-data ziet.
Schaalbaarheid: De methode werkt effectief op grotere modellen (3B parameters) en is robuust voor verschillende ruisniveaus ( $\kappa$ ) en aantallen kopieën ( $m$ ). Een waarde van $m=2$ bleek vaak voldoende te zijn voor een goede balans tussen kosten en prestaties.

Betekenis en Impact

MPU is een doorbraak in het veld van privacy-bewust machine unlearning. Het lost het centrale spanningsveld op tussen de noodzaak om gevoelige data te vergeten en de beperkingen van eigendom en privacy in server-client architecturen.

Het maakt vertrouwenswaardige unlearning mogelijk in scenario's waar data en modellen strikt gescheiden moeten blijven (bijv. in de gezondheidszorg, juridische sector of bij commerciële API-diensten).
Het introduceert een nieuwe theoretische benadering (harmonische aggregatie van verstoord kopieën) die niet alleen privacy biedt, maar ook de stabiliteit van unlearning-algoritmen kan verbeteren.
De code is open source beschikbaar, wat de adoptie en verdere onderzoek stimuleert.

Kortom, MPU biedt een praktische en theoretisch onderbouwde oplossing voor het veilig "vergeten" van kennis in LLMs zonder privacy of intellectueel eigendom te compromitteren.

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

1. Het Probleem: De "Blinde" Ruil

2. De Oplossing: De "Gekke Spiegels" (MPU)

Waarom is dit zo cool?

Samenvattend

Probleemstelling

Methodologie: MPU Framework

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank