MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un grand chef cuisinier (l'Intelligence Artificielle) qui a appris à cuisiner en goûtant des milliers de recettes. Parfois, le client (vous) lui dit : « Oublie cette recette spécifique, elle est trop personnelle ou je ne veux plus qu'elle soit dans ton livre de cuisine. »

Le problème, c'est que le chef ne veut pas vous montrer son livre de recettes complet (ses paramètres secrets) pour des raisons de propriété intellectuelle, et vous ne voulez pas lui donner votre recette secrète par peur qu'il la vole ou la mémorise. C'est un dilemme de confidentialité.

C'est là que le papier propose une solution géniale appelée MPU. Voici comment ça marche, expliqué simplement avec des analogies :

1. Le Problème : Le Dilemme du "Je ne veux pas te voir, toi non plus"

Normalement, pour faire oublier quelque chose à une IA, il faut lui montrer les données à oublier et lui laisser toucher ses propres paramètres. Mais ici, personne ne veut se montrer les dents :

Le Serveur (le Chef) dit : « Je ne te donne pas mon livre de recettes exact, c'est mon secret. »
Le Client (Vous) dit : « Je ne te donne pas ma recette secrète, c'est ma vie privée. »

Comment faire oublier la recette sans que l'un ne voie l'autre ?

2. La Solution MPU : La Technique des "Copies Brouillées"

Au lieu d'envoyer le livre de recettes exact, le Chef envoie plusieurs copies de son livre, mais avec une astuce magique.

Étape 1 : Le Service de "Copies Brouillées" (Pré-Processus)

Le Chef prend son livre de recettes et crée deux (ou plus) copies.

L'astuce du brouillage : Sur chaque copie, il ajoute un peu de "sel" et de "poivre" (du bruit mathématique) de manière aléatoire. Imaginez qu'il écrit les ingrédients avec une encre qui change légèrement de couleur sur chaque copie.
Le déguisement : Il réorganise aussi les pages de manière invisible (comme si on changeait l'ordre des chapitres sans changer le contenu de l'histoire). C'est ce qu'on appelle une "reparamétrisation".

Le Client reçoit ces copies brouillées. Il ne peut pas voir le livre original exact, et même s'il en a plusieurs, il ne peut pas reconstituer le secret du Chef.

Étape 2 : L'Oubli Local (Côté Client)

Le Client prend sa copie brouillée et sa propre recette secrète (qu'il garde dans sa poche). Il dit à l'IA : « Oublie cette recette sur cette copie brouillée. »
L'IA modifie la copie pour oublier la recette. Le Client ne modifie que sa copie, il ne touche pas au livre original du Chef.

Étape 3 : Le "Dé-brouillage" Magique (Post-Processus)

Le Client renvoie les changements (les pages modifiées) au Chef.

Le Chef enlève d'abord le "déguisement" (il remet les pages dans l'ordre original).
Ensuite, il utilise une technique de moyenne intelligente (appelée "agrégation harmonique").

L'analogie du bruit :
Imaginez que le Chef a envoyé 2 copies. Sur la copie 1, il a ajouté du "sel" à gauche. Sur la copie 2, il a ajouté du "sel" à droite, exactement la même quantité mais dans la direction opposée.
Quand le Client modifie les copies et renvoie les changements, le Chef additionne les deux résultats.

Le changement réel (l'oubli de la recette) s'additionne et devient plus fort.
Le "sel" ajouté (le bruit) s'annule parfaitement car il était opposé !

Résultat : Le Chef obtient une mise à jour parfaite pour oublier la recette, sans jamais avoir vu la recette du Client et sans jamais avoir révélé son livre exact.

3. Pourquoi c'est génial ?

Confidentialité totale : Le Client garde ses données, le Chef garde ses secrets.
Efficacité : Même avec le "bruit" ajouté pour protéger la vie privée, la méthode annule ce bruit à la fin. C'est comme si le Chef avait fait l'opération sans bruit du tout.
Stabilité : En utilisant plusieurs copies, cela aide à stabiliser le processus, un peu comme si plusieurs chefs essayaient de corriger une erreur ensemble pour être sûrs de ne pas gâcher le plat.

En résumé

MPU est comme un magicien qui fait disparaître un objet sans jamais montrer ses mains ni l'objet lui-même. Il utilise des doubles, du brouillage et une annulation mathématique pour que l'IA oublie ce qu'elle ne doit plus savoir, tout en protégeant les secrets de tout le monde.

C'est une solution élégante pour résoudre le problème du "droit à l'oubli" dans un monde où les données et les modèles sont de plus en plus précieux et sensibles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'apprentissage automatique (Machine Unlearning) vise à supprimer sélectivement des données indésirables, des connaissances ou des comportements d'un modèle entraîné sans avoir à le réentraîner entièrement, ce qui serait prohibitif en termes de coût pour les grands modèles de langage (LLM).

Cependant, les déploiements réels imposent une contrainte de double non-divulgation souvent négligée :

Confidentialité des données client : Le client (qui détient les données à oublier) ne peut pas révéler ses données brutes ni ses statistiques suffisantes au serveur.
Propriété intellectuelle du serveur : Le serveur (qui possède le modèle) ne souhaite pas révéler ses paramètres exacts au client pour éviter la rétro-ingénierie ou le vol de propriété intellectuelle.

Les méthodes existantes (comme le federated unlearning ou les approches basées sur l'influence) échouent souvent dans ce scénario car elles nécessitent soit l'accès direct aux paramètres du serveur, soit la révélation de données sensibles, soit l'utilisation de statistiques auxiliaires (comme des données de substitution) qui peuvent compromettre la confidentialité.

2. Méthodologie : Le Framework MPU

Les auteurs proposent MPU (Multiple Perturbed Copies Unlearning), un framework agnostique aux algorithmes conçu pour résoudre ce dilemme de confidentialité. L'idée centrale est de permettre au serveur de publier des copies perturbées du modèle, d'effectuer l'apprentissage de l'oubli localement chez le client, puis d'agréger les mises à jour en annulant le bruit introduit.

Le processus se déroule en trois étapes par tour de communication :

A. Pré-traitement (Génération de copies perturbées)

Le serveur ne diffuse pas le modèle exact $\theta$ . Au lieu de cela, il génère $m \ge 2$ copies perturbées :

Injection de bruit structuré : Le serveur ajoute un bruit gaussien $\epsilon$ à chaque bloc du modèle. Ce bruit est conçu pour satisfaire une contrainte de somme nulle (zero-sum) sur l'ensemble des $m$ copies. Cela signifie que la somme des bruits sur toutes les copies est nulle.
Reparamétrisation inversible et préservant la fonction : Le serveur applique une transformation $T$ $T$ aux paramètres (basée sur les symétries des réseaux de neurones, comme les permutations de canaux dans les FFN ou les changements de base orthogonaux dans les têtes d'attention). Cette transformation est :
- Inversible : Le serveur peut retrouver les paramètres originaux.
- Préservant la fonction : La sortie du modèle $f_{T(\theta)}(x)$ reste identique à $f_\theta(x)$ .
- Indépendante des données : La transformation est aléatoire mais déterministe pour chaque copie.

Le client reçoit ces copies perturbées et reparamétrisées, mais ne peut pas reconstruire les paramètres originaux du serveur.

B. Côté Client (Apprentissage local)

Le client exécute son algorithme d'oubli (ex: GradAscent, NPO, DPO) sur son jeu de données privé (Forget Set) en utilisant la copie perturbée reçue. Il calcule une mise à jour locale $\Delta^{(k)}$ et la renvoie au serveur.

C. Post-traitement (Agrégation et débruitage)

Le serveur reçoit les mises à jour des $m$ copies. Il effectue deux opérations :

Inversion de la reparamétrisation : Il applique $T^{-1}$ pour ramener chaque mise à jour dans l'espace de paramètres original.
Agrégation harmonique (Harmonic Denoising) : Il agrège les mises à jour inversées en utilisant des poids harmoniques spécifiques ( $w_k \propto 1/\alpha_k$ $w_{k} \propto 1/ α_{k}$ , où $\alpha_k$ $α_{k}$ est un facteur d'échelle du bruit).
- Grâce à la propriété de somme nulle du bruit initial et à l'agréation harmonique, le terme d'erreur du premier ordre induit par le bruit s'annule mathématiquement.
- Le résultat est une mise à jour globale $\bar{\Delta}$ qui correspond théoriquement à la mise à jour d'oubli idéale (sans bruit), tout en n'ayant jamais exposé les paramètres exacts ni les données brutes.

3. Contributions Clés

Framework d'oubli à double non-divulgation : C'est la première solution à permettre l'oubli machine sous des contraintes strictes de confidentialité (pas de données client, pas de paramètres serveur exacts) sans recourir à des données de substitution ou des statistiques auxiliaires.
Reparamétrisations inversibles pour Transformers : Les auteurs généralisent les reparamétrisations préservant la fonction (permutations de canaux, transformations orthogonales) aux architectures Transformer modernes, y compris celles utilisant RoPE (Rotary Positional Embeddings) comme les modèles Llama.
Garanties théoriques d'annulation du bruit : Ils prouvent mathématiquement que l'agréation harmonique élimine exactement le terme d'erreur du premier ordre du bruit injecté, garantissant que la mise à jour finale est cohérente avec l'oubli sans bruit.
Évaluation empirique robuste : Le framework a été testé avec sept algorithmes d'oubli différents sur des modèles Llama et Qwen, démontrant des performances comparables, voire supérieures, aux bases de référence sans bruit.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark TOFU (Task of Fictitious Unlearning) avec des modèles de 1B et 3B paramètres.

Performance d'oubli (Forget Quality) : MPU atteint des performances d'oubli comparables aux bases de référence sans bruit (Clean). Dans certains cas (ex: NPO, GradDiff), MPU surpasse même la base de référence sans bruit, probablement grâce à l'effet de stabilisation apporté par l'agrégation multi-copies.
Utilité du modèle (Model Utility) : La capacité du modèle à effectuer des tâches générales est préservée. L'injection de bruit n'a pas dégradé significativement l'utilité, et MPU maintient des scores d'utilité similaires aux méthodes sans bruit.
Robustesse au bruit : Le framework est robuste à différents niveaux de bruit ( $\kappa$ ). Même avec 10% de bruit, la dégradation moyenne de la plupart des algorithmes est inférieure à 1%.
Efficacité : L'utilisation de seulement 2 copies ( $m=2$ ) s'avère suffisante pour obtenir de bons résultats, minimisant ainsi la surcharge computationnelle et de communication par rapport à l'utilisation de plus de copies.
Comparaison avec les baselines : Les méthodes "bruitées" simples (sans débruitage) échouent souvent à oublier correctement ou dégradent l'utilité. MPU résout ce problème grâce à son mécanisme d'annulation du bruit.

5. Signification et Impact

Ce travail est significatif car il comble un vide critique dans le déploiement sécurisé des LLM. Il permet de concilier la propriété intellectuelle des fournisseurs de modèles et la confidentialité des données des clients, deux exigences souvent incompatibles avec les méthodes d'oubli actuelles.

Sécurité et Vie privée : Il offre une solution pratique pour le "droit à l'oubli" dans des environnements cloud où les données ne peuvent pas quitter le client et où le modèle ne peut pas être entièrement ouvert.
Stabilité de l'optimisation : Le mécanisme d'agrégation multi-copies agit non seulement comme un outil de confidentialité, mais aussi comme un régularisateur qui stabilise les mises à jour d'oubli, souvent instables sur des petits jeux de données.
Généralité : L'approche étant agnostique à l'algorithme d'oubli, elle peut être intégrée à n'importe quelle méthode d'optimisation existante pour l'oubli, rendant la technologie accessible et évolutive.

En résumé, MPU établit un nouveau standard pour l'oubli machine sécurisé, démontrant qu'il est possible de supprimer efficacement des connaissances d'un LLM sans compromettre la confidentialité des données ni la propriété du modèle.

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

1. Le Problème : Le Dilemme du "Je ne veux pas te voir, toi non plus"

2. La Solution MPU : La Technique des "Copies Brouillées"

Étape 1 : Le Service de "Copies Brouillées" (Pré-Processus)

Étape 2 : L'Oubli Local (Côté Client)

Étape 3 : Le "Dé-brouillage" Magique (Post-Processus)

3. Pourquoi c'est génial ?

En résumé

1. Problématique et Contexte

2. Méthodologie : Le Framework MPU

A. Pré-traitement (Génération de copies perturbées)

B. Côté Client (Apprentissage local)

C. Post-traitement (Agrégation et débruitage)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank