MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cuoco stellato (il Server) che ha preparato un enorme libro di ricette (il Modello di Intelligenza Artificiale). Questo libro contiene migliaia di piatti, ma c'è un problema: una persona (il Cliente) ha scoperto che una delle ricette è stata rubata da un suo amico e vuole che il cuoco la cancelli immediatamente dal libro.

Tuttavia, c'è un grosso ostacolo:

Il Cliente non può mostrare la ricetta rubata al cuoco (perché è un segreto).
Il Cuoco non può mostrare il libro delle ricette completo al cliente (perché è la sua proprietà intellettuale).

Come fanno a cancellare quella ricetta specifica senza che nessuno mostri i propri segreti all'altro? È qui che entra in gioco MPU.

L'idea geniale: Il "Trucco degli Specelli Distorti"

MPU è come un mago che risolve questo dilemma usando un trucco basato su copie distorte e matematica intelligente. Ecco come funziona, passo dopo passo:

1. Il Cuoco crea "Fotocopie Rovinate" (Pre-Process)

Invece di dare al cliente il libro delle ricette originale, il cuoco ne fa due copie (o più). Ma non le dà così come sono:

Le "sporca" leggermente: Aggiunge un po' di "polvere" casuale sulle pagine (rumore). Questo serve a nascondere i dettagli precisi delle ricette originali.
Le "rimodella": Cambia l'ordine delle parole o dei simboli in modo che il libro sembri diverso, ma il sapore del piatto rimanga esattamente lo stesso. È come se avessi scritto una ricetta usando un codice segreto che solo il cuoco sa decifrare.

Il cliente riceve queste due copie "distorte" e "codificate".

2. Il Cliente cancella il segreto (L'Unlearning)

Il cliente prende le sue due copie distorte e dice: "Ok, so che in queste copie c'è la ricetta rubata. La cancellerò dalle mie copie, ma non vi dirò quale ricetta era o come l'ho trovata".
Il cliente esegue la cancellazione sulle sue copie e ottiene due piccoli "aggiustamenti" (differenze) rispetto a ciò che aveva ricevuto.

3. Il Cuoco fa la "Magia della Media" (Post-Process)

Il cliente rimanda gli aggiustamenti al cuoco. A questo punto, il cuoco fa due cose miracolose:

Decodifica: Usa la sua chiave segreta per rimuovere il "codice" e riportare gli aggiustamenti alla forma originale.
Cancella la polvere (Denoising): Qui sta il trucco matematico. Poiché il cuoco aveva aggiunto la "polvere" in modo intelligente (una copia aveva un po' di polvere a sinistra, l'altra a destra), quando mescola le due risposte del cliente, la polvere si annulla a vicenda!

È come se due persone cercassero di spingere un tavolo in direzioni opposte con la stessa forza: il tavolo non si muove. Allo stesso modo, il "rumore" che il cuoco aveva aggiunto sparisce, lasciando solo la cancellazione pulita della ricetta rubata.

Perché è così speciale?

Nessuno mente: Il cliente non ha mai visto il libro vero, e il cuoco non ha mai visto la ricetta rubata.
È preciso: Anche se hanno usato copie "sporche", alla fine il libro del cuoco è stato aggiornato esattamente come se avesse cancellato la ricetta guardando il libro originale.
È sicuro: Se qualcuno intercetta i messaggi, vede solo numeri casuali e codici incomprensibili.

In sintesi

Pensa a MPU come a un gioco di squadra dove due persone devono rimuovere un oggetto da una stanza chiusa a chiave senza mai entrare nella stanza o mostrare l'oggetto.

Il Server (Cuoco) lancia dentro dei palloncini gonfiati in modo casuale (le copie distorte).
Il Cliente (Amico) spinge via l'oggetto usando i palloncini.
Il Server raccoglie i palloncini sgonfiati e, grazie a una formula magica, capisce esattamente quanto e dove spingere per rimuovere l'oggetto, senza che la polvere dei palloncini (il rumore) rovini il risultato finale.

Grazie a questo metodo, le Intelligenze Artificiali possono dimenticare cose che non dovrebbero sapere, rispettando la privacy di tutti, proprio come se avessero cancellato un ricordo da un diario senza mai aprirlo davanti agli occhi di nessuno.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Dilemma della Privacy nell'Unlearning

L'articolo affronta una sfida critica nell'ambito del Machine Unlearning (apprendimento di rimozione) per i Large Language Models (LLM). In molti scenari reali di deployment, esiste un vincolo di doppia non-divulgazione:

Protezione dei Dati del Cliente: Il cliente possiede un "set da dimenticare" (forget set) contenente dati sensibili o privati che non può condividere con il server (né i dati grezzi, né statistiche sufficienti).
Protezione della Proprietà Intellettuale del Server: Il server ospita un modello proprietario e non desidera rivelare i suoi parametri esatti al cliente per evitare il furto di proprietà intellettuale o la reverse engineering.

Le soluzioni esistenti falliscono in questo contesto: i metodi basati su federated learning spesso richiedono la condivisione di statistiche o la ri-trasmissione di dati; i metodi di editing post-hoc richiedono l'accesso diretto ai parametri e ai dati; le tecniche di sharding richiedono una struttura di training specifica e la conservazione di stati per shard. Non esiste un framework che permetta un unlearning efficace mantenendo i dati del cliente locali e i parametri del server offuscati.

2. Metodologia: Il Framework MPU

Gli autori propongono MPU (Multiple Perturbed Copies Unlearning), un framework agnostico rispetto all'algoritmo di unlearning, progettato per funzionare in un ciclo di comunicazione server-cliente. Il processo si articola in tre fasi principali:

A. Pre-Process: Generazione di Copie Perturbate

Il server non invia il modello originale, ma genera e distribuisce al cliente $m \ge 2$ copie perturbate del modello globale corrente ( $\theta_{r-1}$ ). Ogni copia subisce due trasformazioni:

Iniezione di Rumore Strutturato: Vengono aggiunti vettori di rumore gaussiano indipendenti per ogni blocco del modello. La chiave è che il rumore è generato in modo da soddisfare un vincolo di somma zero (zero-sum) tra le $m$ copie. Se $\epsilon_k$ è il rumore della copia $k$ , allora $\sum_{k=1}^m \epsilon_k = 0$ .
Reparametrizzazione Invertibile e Funzionale: Il server applica una trasformazione ai parametri (es. permutazione dei canali nascosti nelle FFN o trasformazioni ortogonali nelle teste di attenzione) che preserva la funzione del modello ( $f_{T(\Theta)}(x) = f_\Theta(x)$ ) ma oscura lo spazio dei parametri originali. Questa trasformazione è invertibile e basata su simmetrie del modello (es. simmetrie di permutazione nelle reti feed-forward).

B. Unlearning Locale (Client-Side)

Il cliente riceve le $m$ copie perturbate e reparametrizzate. Esegue localmente un algoritmo di unlearning standard (come GradAscent, NPO, DPO, ecc.) sul proprio set di dati privato (forget set) per ciascuna copia. Il cliente restituisce al server solo gli aggiornamenti (gradienti o spostamenti dei parametri) calcolati su ciascuna copia, senza rivelare i dati o i parametri originali.

C. Post-Process: Aggregazione e Denoising

Il server riceve gli aggiornamenti locali. Per ricostruire l'aggiornamento globale corretto:

Inversione della Reparametrizzazione: Il server applica la trasformazione inversa a ciascun aggiornamento ricevuto per riportarlo nello spazio dei parametri originale.
Aggregazione Armonica: Gli aggiornamenti vengono aggregati utilizzando pesi armonici specifici. Grazie alla proprietà di somma zero del rumore generato nella fase Pre-Process e alla linearità locale degli aggiornamenti, il termine di errore del primo ordine introdotto dal rumore si annulla esattamente durante l'aggregazione.
- Matematicamente, se l'aggiornamento ideale è $\Delta^*$ e il rumore è $\epsilon$ , l'aggiornamento aggregato $\bar{\Delta}$ approssima $\Delta^*$ eliminando il termine lineare $J\epsilon$ , lasciando solo termini di ordine superiore (che sono trascurabili per rumore piccolo).

3. Contributi Chiave

Framework di Unlearning a Doppia Non-Divulgazione: MPU è la prima soluzione che permette l'unlearning senza che il cliente condivida dati (né grezzi né statistiche) e senza che il server riveli i parametri esatti, senza ricorrere a dati surrogati o assunzioni distribuzionali aggiuntive.
Reparametrizzazioni Invertibili per Transformer: Gli autori generalizzano le trasformazioni di simmetria (permutazioni e basi ortogonali) alle architetture moderne Transformer, inclusi i meccanismi RoPE (Rotary Positional Embeddings) usati in modelli come Llama, garantendo l'invarianza funzionale.
Garanzie Teoriche di Cancellazione del Rumore: Viene dimostrato teoricamente che l'aggregazione armonica con rumore strutturato a somma zero elimina l'errore del primo ordine, garantendo che l'aggiornamento finale del server sia coerente con quello che si otterrebbe in un setting senza rumore.
Efficienza di Memoria: Nonostante l'uso concettuale di $m$ copie, il framework è implementato in modalità streaming, richiedendo solo $O(d)$ memoria (dove $d$ è la dimensione del modello) invece di $O(md)$, rendendolo scalabile.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli come Llama-3.2 e Qwen2.5 utilizzando il benchmark TOFU (Task of Fictitious Unlearning).

Performance di Unlearning: MPU raggiunge prestazioni di "Qualità di Dimenticanza" (Forget Quality) comparabili o superiori rispetto ai baseline privi di rumore (noise-free). In molti casi, l'uso di più copie stabilizza l'ottimizzazione, permettendo a MPU di superare il baseline noise-free, specialmente per algoritmi instabili come GradAscent.
Robustezza al Rumore: Anche con livelli di rumore significativi (es. $\kappa = 0.1$ ), la degradazione delle prestazioni è minima (spesso inferiore all'1%).
Preservazione dell'Utilità: L'utilità del modello (Model Utility) su dati non dimenticati rimane stabile, indicando che l'unlearning è selettivo e non danneggia le capacità generali.
Privacy: Le metriche di privacy (PrivLeak) mostrano che MPU protegge efficacemente i dati del cliente e i parametri del server, mantenendo il leakage vicino a quello di un modello ri-addestrato.
Scalabilità: Il metodo funziona bene anche su modelli più grandi (3B parametri) e con diverse dimensioni del set da dimenticare.

5. Significato e Impatto

Il lavoro di MPU è significativo perché risolve un collo di bottiglia fondamentale nell'adozione pratica dell'unlearning per LLM in ambienti commerciali e sensibili.

Abilitazione di Scenari Reali: Permette a fornitori di servizi LLM di soddisfare le richieste di cancellazione dei dati (GDPR, "diritto all'oblio") senza compromettere la sicurezza dei dati dei clienti o la proprietà intellettuale del modello.
Stabilità dell'Algoritmo: Dimostra che l'uso di copie multiple e l'aggregazione intelligente possono migliorare la stabilità degli algoritmi di unlearning, che spesso soffrono di instabilità quando operano su piccoli set di dati.
Fondamento Teorico: Fornisce una base matematica solida per l'uso di rumore strutturato e simmetrie di modello per scopi di privacy e sicurezza, andando oltre la semplice applicazione della Differential Privacy.

In sintesi, MPU offre un protocollo sicuro, efficiente e teoricamente fondato per l'unlearning collaborativo, colmando il divario tra le esigenze di privacy dei dati e la protezione della proprietà intellettuale dei modelli.

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

L'idea geniale: Il "Trucco degli Specelli Distorti"

1. Il Cuoco crea "Fotocopie Rovinate" (Pre-Process)

2. Il Cliente cancella il segreto (L'Unlearning)

3. Il Cuoco fa la "Magia della Media" (Post-Process)

Perché è così speciale?

In sintesi

1. Il Problema: Il Dilemma della Privacy nell'Unlearning

2. Metodologia: Il Framework MPU

A. Pre-Process: Generazione di Copie Perturbate

B. Unlearning Locale (Client-Side)

C. Post-Process: Aggregazione e Denoising

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Impatto

Articoli simili

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank