MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Dit paper introduceert MPU, een privacybehoudend raamwerk dat door het gebruik van verstoord modelkopieën en geaggregeerde updates het dilemma oplost dat grote taalmodellen veilig kennis kunnen "vergeten" zonder dat serverparameters of clientgegevens hoeven worden gedeeld.

Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Yong Jiang, Fei Huang, Wei Yang Bryan Lim

Gepubliceerd 2026-03-02
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

MPU: De "Vergeten" Kunst van AI – Zonder Geheimen te Lopen

Stel je voor dat je een zeer slimme, maar soms wat te geheugenrijke assistent hebt. Deze assistent heeft een enorme bibliotheek gelezen en onthoudt alles, inclusief de geheimen van zijn klanten. Nu vraagt een klant: "Ik wil dat je mijn geheime recepten vergeet, maar ik wil niet dat jij mijn recepten ziet, en ik wil ook niet dat jij je eigen geheime notities aan mij laat zien."

Dit is het grote dilemma in de wereld van Kunstmatige Intelligentie (AI): hoe laat je een AI iets vergeten zonder dat de eigenaar van de AI (de server) zijn geheime code laat zien, en zonder dat de klant zijn privé-gegevens deelt?

De auteurs van dit paper hebben een oplossing bedacht genaamd MPU. Laten we het uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Blinde" Ruil

Normaal gesproken zou de server zeggen: "Geef me je lijst met te vergeten dingen, dan pas ik mijn AI aan." Maar dat kan niet, want de klant wil zijn lijst niet delen.
Of de server zou zeggen: "Hier is mijn AI, pas jij hem zelf aan." Maar dat kan ook niet, want de server wil zijn AI niet volledig onthullen.

Het is alsof je een sleutel wilt maken, maar je mag de originele sleutel niet laten zien, en de sleutelmaker mag je niet vertellen hoe de machine werkt.

2. De Oplossing: De "Gekke Spiegels" (MPU)

MPU lost dit op met een slimme truc die bestaat uit drie stappen. Denk aan een meester-dief die een kopie van een kluis wil maken, maar de originele kluis niet mag aanraken.

Stap 1: De Server maakt "Gekke Kopieën" (Pre-Process)
In plaats van de echte AI naar de klant te sturen, maakt de server meerdere kopieën (bijvoorbeeld 2 of 3).

  • Het Ruis-effect: Elke kopie krijgt een beetje "ruis" of "verwarring" toegevoegd. Het is alsof je de AI een bril opzet met een lichte wazige lens. De AI ziet er nog steeds hetzelfde uit voor de buitenwereld, maar de interne cijfers zijn een beetje verschoven.
  • De Verdraaiing: De server draait de interne onderdelen van de AI ook nog even om (zoals een puzzel die je op een andere manier hebt samengesteld, maar die er nog steeds hetzelfde uitziet). Dit zorgt ervoor dat de klant de originele AI niet kan reconstrueren, zelfs niet als hij meerdere kopieën ziet.

Stap 2: De Klant "Vergeet" Lokaal (Client-Side)
De klant krijgt deze "wazige" en "verdraaide" kopieën.

  • De klant pakt zijn eigen geheime lijst (de dingen die vergeten moeten worden) en past de AI lokaal aan. Omdat de AI wazig is, ziet de klant de echte server-geheimen niet.
  • De klant zegt: "Ik heb deze kopieën een beetje aangepast om mijn geheimen te vergeten." Hij stuurt alleen de veranderingen (de updates) terug, niet de hele AI en niet zijn lijst.

Stap 3: De Server "Reinigt" de Veranderingen (Post-Process)
Nu komt de magische stap. De server krijgt de veranderingen van de klant terug.

  • Het Ontdraaien: De server draait de puzzel weer terug naar de originele vorm (het omgekeerde van stap 1).
  • De Harmonische Reiniging: Omdat de server meerdere kopieën had (met verschillende soorten ruis), kan hij de veranderingen van de klant combineren. De "ruis" (de verwarring) die in stap 1 is toegevoegd, is zo ontworpen dat hij elkaar opheft als je de resultaten optelt.
    • Vergelijking: Stel je voor dat je drie mensen vraagt om een tekening te maken terwijl ze een trillende hand hebben. Als je de drie tekeningen precies op elkaar legt, wordt de trilling onzichtbaar en zie je alleen de perfecte lijn die ze allemaal wilden trekken.

Het resultaat? De server heeft nu een AI die de geheimen van de klant is vergeten, maar de server heeft nooit de lijst gezien, en de klant heeft nooit de echte AI gezien.

Waarom is dit zo cool?

  1. Privacy voor iedereen: De klant behoudt zijn geheimen, en de server behoudt zijn intellectueel eigendom.
  2. Geen kwaliteitsverlies: Normaal gesproken zorgt "ruis" voor slechtere resultaten. Maar omdat MPU de ruis slim weghaalt door de kopieën te combineren, is de AI bijna net zo goed als een AI die zonder ruis is getraind.
  3. Veilig: Zelfs als iemand probeert de kopieën te hacken, kan hij de originele AI niet reconstrueren door de "verdraaiing" en de "ruis" samen te nemen.

Samenvattend

MPU is als een geheime club waar leden (klanten) iets willen vergeten. Ze sturen geen documenten naar de voorzitter (server). In plaats daarvan krijgen ze een versie van het clubboekje met een onleesbaar handschrift. Ze maken aantekeningen in dat boekje en sturen alleen de aantekeningen terug. De voorzitter gebruikt een speciale decoder en een rekentruc om de aantekeningen te lezen en de ruis weg te halen, zodat het clubboekje perfect is aangepast zonder dat iemand ooit de originele tekst of de geheime aantekeningen van de leden heeft gezien.

Het is een elegante manier om "vergeten" te laten gebeuren in een wereld waar privacy en veiligheid alles zijn.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →