Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Il paper presenta OrthoGrad, un nuovo metodo di disapprendimento automatico che proietta i gradienti dei dati da rimuovere nello spazio ortogonale ai gradienti di un piccolo insieme di dati di ritenzione, permettendo così di eliminare concetti specifici senza compromettere le prestazioni del modello anche quando l'intero dataset di addestramento non è disponibile.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di aver addestrato un assistente personale molto intelligente (come un modello di intelligenza artificiale) leggendo milioni di libri, ascoltando ore di conversazioni e guardando milioni di foto. Questo assistente è diventato bravissimo a fare il suo lavoro.

Poi, succede un problema: ti rendi conto che tra tutti quei dati c'è qualcosa che non dovresti aver visto. Magari è una foto privata di un vicino, un codice sorgente protetto da copyright, o una registrazione vocale di qualcuno che vuole essere "dimenticato". La legge o l'etica ti dicono: "Devi rimuovere questa informazione dal tuo assistente, ma senza fargli perdere la capacità di fare tutto il resto!"

Questo è il problema dell'"Machine Unlearning" (dimenticare le macchine).

Il Problema: Il Bilancino Instabile

Fino a poco tempo fa, il modo per risolvere questo problema era come cercare di bilanciare un bilancino su una corda.

  • Da un lato, dovevi spingere l'assistente a non ricordare più i dati cattivi (salire su una collina).
  • Dall'altro, dovevi spingerlo a ricordare tutto il resto (scendere in una valle).

Il problema è che spesso non hai più a disposizione l'intero "libro" originale con cui è stato addestrato. Hai solo una piccola parte di quel libro (un "set di ritenzione") per fargli da guida. Se provi a bilanciare spingendo e tirando su una corda così sottile (con pochi dati di riferimento), l'assistente finisce per cadere: dimentica tutto, anche quello che doveva sapere, oppure non dimentica davvero quello che doveva cancellare.

La Soluzione: OrthoGrad (La Tecnica del "Passo Laterale")

Gli autori di questo paper, Aviv Shamsian e il suo team, hanno inventato un metodo chiamato OrthoGrad. Immaginalo non come un bilancino, ma come un danzatore esperto.

Ecco come funziona, passo dopo passo:

  1. Analizza la "Danza" dei Dati Giusti:
    Prima di toccare i dati da cancellare, OrthoGrad guarda i pochi dati che vuole mantenere (il set di ritenzione). Non guarda la "media" di questi dati (come facevano i metodi vecchi), ma osserva ogni singolo dato come se fosse un passo di danza specifico.

    • Metafora: Immagina di voler camminare in una stanza piena di persone (i dati buoni) senza urtarle. Invece di guardare la folla come un blocco unico, OrthoGrad nota esattamente dove si trova ogni singola persona.
  2. Crea uno Spazio Sicuro (Il Piano Orizzontale):
    Il metodo calcola uno "spazio" matematico (un piano) che è perfettamente perpendicolare (ortogonale) a tutti i passi di danza dei dati buoni.

    • Metafora: Se i dati buoni ti spingono verso Nord, Est e Sud, OrthoGrad ti dice: "Ok, non spingiamo verso Nord, Est o Sud. Muoviamoci solo verso l'alto o verso il basso (o lateralmente), in una direzione che non tocca assolutamente nessuno dei dati buoni".
  3. Il Passo Laterale:
    Quando deve cancellare i dati cattivi, OrthoGrad non spinge l'assistente in una direzione che lo costringe a scontrarsi con i dati buoni. Invece, proietta la spinta per cancellare esattamente in quella direzione "sicura" e laterale.

    • Risultato: L'assistente dimentica i dati cattivi (perché si muove in quella direzione), ma non tocca per niente la sua conoscenza dei dati buoni, perché si è mosso in un piano che non li interseca.

Perché è Geniale?

  • Funziona anche con pochi dati: I metodi precedenti avevano bisogno di un "libro" enorme per fare la media. OrthoGrad, guardando ogni singolo dato (per-sample), riesce a trovare la strada sicura anche se ha solo una manciata di pagine di riferimento.
  • È preciso: Non è un "tentativo ed errore". È una mossa geometrica calcolata per non disturbare nulla.
  • È veloce: Usando una tecnica chiamata LoRA (che è come mettere un "adesivo intelligente" sul modello invece di riscriverlo tutto intero), il processo è molto più leggero e veloce.

In Sintesi

Immagina di dover cancellare una macchia di inchiostro da un muro bianco, ma hai paura di rovinare il bel quadro che c'è appeso accanto.

  • I vecchi metodi: Provavano a strofinare il muro con un panno bagnato, sperando che l'inchiostro venisse via senza toccare il quadro. Spesso rovinavano il quadro o non toglievano la macchia.
  • OrthoGrad: Guarda il quadro, capisce esattamente la sua forma, e poi usa un panno che si muove solo in una direzione parallela al muro, ma che non tocca mai il quadro. La macchia sparisce, il quadro resta intatto, e tutto è successo in un attimo.

Questo metodo permette di rispettare la privacy e le leggi sul copyright anche quando non abbiamo accesso all'intero archivio originale dei dati, rendendo l'IA più sicura e rispettosa.