MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Die Arbeit stellt MPU vor, ein privatsphäreschonendes Framework für das Löschen von Wissen aus großen Sprachmodellen, das durch die Verteilung gestörter Modellkopien und eine nachgelagerte Aggregation der Updates eine sichere lokale Unlearning-Verarbeitung ermöglicht, ohne dass Serverparameter oder Client-Daten offengelegt werden müssen.

Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Yong Jiang, Fei Huang, Wei Yang Bryan Lim

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, super-intelligenten Roboter (ein großes Sprachmodell), der alles Mögliche weiß. Aber plötzlich möchtest du, dass er eine bestimmte Information vergisst – vielleicht ein geheimes Rezept, das einem Kunden gehört, oder eine persönliche Geschichte, die jemand nicht mehr im Internet sehen will.

Das Problem: Du als Besitzer des Roboters (der Server) darfst dem Kunden (dem Client) nicht zeigen, wie der Roboter genau funktioniert (seine inneren Parameter), weil das dein geheimer Code ist. Gleichzeitig darf der Kunde dir nicht sagen, was genau er vergessen lassen will, weil das seine privaten Daten sind.

Das ist wie ein geheimes Manöver zwischen zwei Spionen, die sich nicht trauen, ihre Geheimnisse auszutauschen, aber trotzdem eine gemeinsame Aufgabe lösen müssen.

Hier kommt MPU ins Spiel – eine clevere Methode, um dieses Dilemma zu lösen.

Die Idee: Der "Verkleidungs-Trick"

Stell dir vor, der Server schickt dem Kunden nicht den echten Roboter, sondern zwei (oder mehr) leicht verkleidete Versionen davon.

  1. Das Verkleiden (Pre-Process):
    Der Server nimmt seinen echten Roboter und verpasst ihm eine "Tarnung". Er fügt ein wenig statisches Rauschen hinzu (wie ein leichtes Flimmern auf einem alten Fernseher) und tauscht einige interne Bauteile aus (z. B. die Reihenfolge der Regale in einer Bibliothek), ohne dass sich die Funktion des Roboters ändert.

    • Warum? Der Kunde sieht jetzt nur noch diese verkleideten Versionen. Er kann nicht herausfinden, wie der echte Roboter aussieht, und er kann auch nicht aus den verkleideten Versionen die privaten Daten des Kunden ableiten.
  2. Das Vergessen (Client-Seite):
    Der Kunde nimmt diese verkleideten Roboter und trainiert sie auf seiner privaten Liste von Dingen, die vergessen werden sollen. Da er nur die verkleideten Versionen hat, bleibt seine Privatsphäre gewahrt. Er berechnet, wie man den Roboter anpassen muss, um die Informationen zu löschen, und schickt nur diese Anpassungsanweisungen zurück.

  3. Das Entwirren (Post-Process):
    Jetzt passiert das Magische. Der Server empfängt die Anpassungen von den verschiedenen verkleideten Robotern.

    • Da der Server genau weiß, wie er die Roboter verkleidet hat, kann er die Anpassungen wieder "entschlüsseln" (die Tarnung entfernen).
    • Dann führt er einen cleveren Mittelwert durch. Stell dir vor, die Rausch-Störungen der verschiedenen Roboter sind wie Wellen im Wasser. Wenn man sie geschickt kombiniert, heben sich die Störungen gegenseitig auf (wie wenn man zwei Wellen genau gegenläufig trifft, entsteht eine glatte Wasseroberfläche).
    • Das Ergebnis ist eine perfekte Anpassung, als hätte man gar kein Rauschen benutzt, aber ohne dass jemals echte Daten oder geheime Parameter ausgetauscht wurden.

Warum ist das so genial?

  • Kein Datenklau: Der Kunde gibt nie seine privaten Daten preis.
  • Kein Code-Diebstahl: Der Server gibt nie seinen exakten Modell-Code preis.
  • Perfekte Ergebnisse: Durch den cleveren Mittelwert-Trick (den die Autoren "harmonische Denoising" nennen) wird das Rauschen so gut herausgerechnet, dass das Ergebnis fast genauso gut ist wie wenn man alles offen gemacht hätte. In manchen Fällen ist es sogar besser, weil die verschiedenen Versionen des Roboters sich gegenseitig stabilisieren.

Ein einfaches Bild zum Schluss

Stell dir vor, du willst ein geheimes Rezept aus einem Kochbuch löschen, aber du darfst dem Koch nicht zeigen, welche Seite du löschen willst, und der Koch darf dir nicht das ganze Buch zeigen.

  1. Der Koch kopiert das Buch und schreibt auf jede Kopie zufällige, unsinnige Notizen in den Rand (das Rauschen).
  2. Er gibt dir eine Kopie. Du suchst das Rezept, das du löschen willst, und markierst die Seite mit einem roten Stift (die Anpassung).
  3. Du gibst die markierte Seite zurück.
  4. Der Koch nimmt alle markierten Seiten von allen Kopien. Da die unsinnigen Notizen auf jeder Seite anders waren, heben sie sich auf, wenn man sie zusammenrechnet. Übrig bleibt nur die klare Markierung der Seite, die gelöscht werden muss.

MPU ist genau dieser Trick: Es ermöglicht das sichere "Löschen" von Wissen in KI-Modellen, ohne dass dabei die Geheimnisse von Kunden oder Entwicklern verraten werden. Es ist wie ein diplomatischer Tanz, bei dem beide Seiten ihre Privatsphäre wahren, aber trotzdem das Ziel erreichen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →