LEA: Label Enumeration Attack in Vertical Federated Learning

Each language version is independently generated for its own context, not a direct translation.

Immagina il Federated Learning Verticale (VFL) come una grande cena di gruppo dove tutti portano un ingrediente diverso per cucinare lo stesso piatto.

Il contesto: C'è un gruppo di amici (le "parti passive") che hanno le verdure, la carne e le spezie. C'è un solo amico speciale (la "parte attiva") che ha il ricettario segreto (le etichette, ovvero la risposta corretta: "questo piatto è buono" o "questo è velenoso").
La regola: Nessuno condivide i propri ingredienti grezzi con gli altri. Si mescolano solo gli odori e i sapori intermedi (i dati elaborati) per capire come migliorare il piatto. L'obiettivo è allenare un cuoco (il modello AI) che sappia cucinare bene senza che nessuno rubi gli ingredienti degli altri.

Il Problema: Il Ladro Silenzioso

Il paper introduce un nuovo tipo di ladro, chiamato LEA (Label Enumeration Attack).
Finora, si pensava che per rubare il segreto del ricettario (le etichette), il ladro avesse bisogno di un "ricettario di prova" o di una lista di ingredienti già etichettati (dati di supporto) per confrontarli. Senza questa lista, il ladro era bloccato.

Ma il paper scopre che il ladro può fare a meno di tutto questo.

Come funziona l'attacco LEA? (L'Analogia del Gioco di Abbinamento)

Immagina che il ladro (una delle parti passive) abbia un mucchio di verdure (i suoi dati) ma non sappia quale sia il sapore finale.

Il Raggruppamento (Clustering): Il ladro guarda le verdure e dice: "Queste carote sembrano simili, questi pomodori pure". Raggruppa tutto in 10 cesti diversi basandosi sull'aspetto.
L'Enumerazione (Il Gioco delle Ipotesi): Il ladro sa che ci sono 10 tipi di piatti possibili (le etichette). Invece di indovinare a caso, prova tutte le combinazioni possibili.
- Ipotesi 1: Il cesto delle carote è "Pizza", quello dei pomodori è "Insalata"...
- Ipotesi 2: Il cesto delle carote è "Insalata", quello dei pomodori è "Pizza"...
- E così via, fino a provare milioni di combinazioni (tutte le permutazioni possibili).
La Prova del Forno (Simulazione): Per ogni ipotesi, il ladro cucina un "finto piatto" (addestra un modello simulato) e lo manda al cuoco principale.
Il Rilevatore di Falsi (Similarità): Il ladro osserva come reagisce il cuoco principale. Se l'ipotesi del ladro è corretta (ha indovinato quale cesto corrisponde a quale piatto), la reazione del cuoco sarà identica a quella che otterrebbe se avesse cucinato il piatto vero. Se l'ipotesi è sbagliata, la reazione sarà strana.
La Vittoria: Il ladro confronta le reazioni. Quella combinazione che "suona" esattamente come il vero piatto è la soluzione! Ora il ladro sa esattamente quale etichetta corrisponde a quale gruppo di dati, rubando il segreto senza aver mai visto il ricettario originale.

La Sfida: Troppi Tentativi (Il Problema della Computazione)

C'è un problema: se ci sono 10 tipi di piatti, ci sono 3,6 milioni di modi per mescolarli! Provarli tutti richiederebbe anni di tempo di calcolo. È come cercare di aprire una cassaforte provando ogni singola combinazione di numeri: teoricamente possibile, ma praticamente impossibile.

La Soluzione Geniale: Binary-LEA (Il Taglio Intelligente)

Gli autori hanno pensato: "Non dobbiamo provare tutte le combinazioni insieme!".
Invece di cercare di indovinare tutti i 10 piatti insieme, dividiamo il problema:

Proviamo a indovinare solo 2 piatti alla volta.
Una volta risolti quei 2, li togliamo e proviamo gli altri 2.
Questo riduce il lavoro da "milioni di tentativi" a "pochi centinaia".
È come risolvere un puzzle non guardando tutti i pezzi insieme, ma facendone solo un paio alla volta. È molto più veloce ed efficiente.

Perché è pericoloso?

Questo attacco è spaventoso perché:

Non ha bisogno di aiuti: Non serve avere dati etichettati prima. Basta avere i propri dati e un po' di intelligenza.
Funziona ovunque: Funziona sia quando si condividono solo i risultati finali, sia quando si condividono parti del modello.
È difficile da fermare: I metodi di difesa classici (come aggiungere un po' di "rumore" ai dati o comprimerli) non funzionano bene. È come cercare di coprire un odore con un profumo: il ladro riesce comunque a capire qual è l'odore originale perché la "firma" chimica è troppo forte.

La Difesa Proposta

Gli autori suggeriscono una difesa intelligente: il "Trucco del Nome Falso".
Prima di iniziare a cucinare, il cuoco principale (la parte attiva) crea una tabella segreta che cambia i nomi dei piatti.

Invece di dire "Pizza", dice "Xylofono".
Invece di dire "Insalata", dice "Zebra".
Il ladro riesce a indovinare che il cesto A corrisponde allo "Xylofono", ma non sa che "Xylofono" significa "Pizza". Senza la tabella segreta, il ladro vince la partita ma non capisce il significato reale.
Tuttavia, questa difesa fallisce se il ladro ha un piccolo aiuto esterno (un po' di dati etichettati) o se i piatti sono molto sbilanciati (es. 90% pizza e 10% insalata), perché il ladro può indovinare basandosi sulle quantità.

In Sintesi

Questo paper ci dice che nel mondo della collaborazione sicura (Federated Learning), il segreto delle etichette è più fragile di quanto pensassimo. Anche senza dati di supporto, un attaccante intelligente può usare la logica e la simulazione per scoprire chi è chi. È un monito importante: dobbiamo inventare nuove difese, perché i vecchi metodi non bastano più.

Each language version is independently generated for its own context, not a direct translation.

Titolo: LEA: Attacco di Enumerazione delle Etichette nel Federated Learning Verticale

1. Il Problema

Il Federated Learning Verticale (VFL) è un paradigma di apprendimento automatico in cui diverse parti collaborano per addestrare un modello utilizzando dataset che condividono lo stesso spazio dei campioni ma possiedono feature diverse. In uno scenario tipico, una sola parte (la parte "attiva") detiene le etichette (label), mentre le altre (parti "passive") detengono solo le feature.
Sebbene il VFL sia progettato per proteggere la privacy delle feature delle parti passive e delle etichette della parte attiva, esistono vulnerabilità. Gli attacchi di inferenza delle etichette esistenti richiedono spesso:

Dati di supporto (auxiliary data) di alta qualità.
Scenari specifici (es. solo classificazione binaria o solo VFL di tipo Split).
Conoscenza preliminare della distribuzione delle etichette.

Questi requisiti limitano l'applicabilità pratica degli attacchi reali. Il paper si pone l'obiettivo di dimostrare che è possibile inferire le etichette private della parte attiva senza alcun dato di supporto esterno, sfruttando solo le feature locali della parte passiva e il processo di addestramento federato.

2. Metodologia: L'Attacco LEA

Gli autori propongono il Label Enumeration Attack (LEA), un attacco basato su un'intuizione fondamentale: i dati locali di una parte passiva sono intrinsecamente classificabili (clusterizzabili) anche senza conoscere le etichette vere.

Il processo di attacco si articola in tre fasi principali:

Clustering e Enumerazione:
- L'adversario (parte passiva) esegue un clustering non supervisionato sulle proprie feature locali, raggruppando i campioni in $n$ cluster (dove $n$ è il numero di classi).
- L'adversario genera tutte le possibili permutazioni delle $n$ etichette ( $n!$ ) e le assegna ai cluster nei propri modelli simulati. Questo crea $n!$ dataset simulati completi.
Addestramento dei Modelli Simulati:
- L'adversario copia il proprio modello locale $n!$ volte.
- Ogni modello simulato viene addestrato per una sola epoca (o iterazione) su uno dei $n!$ dataset simulati (con una diversa permutazione di etichette).
- Parallelamente, l'adversario partecipa all'addestramento federato normale per ottenere i gradienti di perdita reali della prima iterazione.
Valutazione della Similarità del Modello:
- Il cuore della metodologia risiede nel confrontare i gradienti di perdita della prima iterazione dei modelli simulati con quelli reali.
- Viene utilizzata la similarità del coseno tra i gradienti della prima round.
- Intuizione tecnica: Anche se i parametri finali dei modelli possono divergere a causa di ottimi locali diversi, i gradienti della prima iterazione (che riflettono la direzione iniziale di aggiornamento basata sui dati) sono altamente indicativi. Il modello simulato che utilizza la permutazione di etichette corretta (quella che corrisponde alla realtà) produrrà gradienti con la massima similarità del coseno rispetto ai gradienti reali.
- Una volta identificato il modello "attacco" corretto, questo viene addestrato fino alla convergenza per predire le etichette vere.

Ottimizzazione: Binary-LEA
Poiché enumerare $n!$ modelli è computazionalmente proibitivo per $n$ grandi (es. $10! \approx 3.6$ milioni), gli autori propongono Binary-LEA.

Trasforma il problema di classificazione multiclasse in $\lfloor n/2 \rfloor$ problemi di classificazione binaria.
Riduce la complessità computazionale da $O(n!)$ a $O(n^3)$ , rendendo l'attacco fattibile anche per un numero elevato di classi.

3. Contributi Chiave

Nuovo Vettore di Attacco: Introduzione del LEA, il primo attacco di inferenza delle etichette che non richiede dataset di supporto (auxiliary data) ed è applicabile sia a scenari AggVFL (modello globale non addestrabile) che SplitVFL (modello globale addestrabile).
Metrica di Similarità Innovativa: Dimostrazione che la similarità basata sui gradienti di perdita della prima iterazione è superiore alla similarità basata sui parametri del modello per identificare il modello corretto, specialmente in scenari SplitVFL dove i modelli possono convergere in ottimi locali diversi.
Ottimizzazione Computazionale: Sviluppo di Binary-LEA che riduce drasticamente il costo computazionale, permettendo l'attacco su task con molte classi.
Valutazione delle Difese: Analisi rigorosa delle difese esistenti (rumore sui gradienti, compressione) e proposta di una nuova strategia difensiva basata su una tabella di mappatura delle etichette.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su dataset reali (Breast Cancer, Give-me-some-credit, MNIST) in configurazioni a 2, 3 e 4 parti.

Accuratezza: Senza dataset di supporto, LEA ha dimostrato un miglioramento dell'accuratezza dell'attacco compreso tra il 50% e il 90% rispetto agli stati dell'arte (come Passive Model Completion - PMC).
- Su dataset binari (Breast Cancer, Give-me-some-credit), l'accuratezza dell'attacco (ASR) supera il 90-95%.
- Su task multiclasse (MNIST-10), l'accuratezza rimane superiore all'80% anche con Binary-LEA.
Indipendenza dai Dati di Supporto: A differenza degli attacchi precedenti, LEA funziona efficacemente anche quando l'adversario non possiede alcun campione etichettato.
Robustezza alle Difese:
- Rumore (Noise): L'aggiunta di rumore di Laplace ai gradienti non impedisce l'attacco a meno che non sia estremamente elevato (degradando anche il modello legittimo).
- Compressione: La compressione dei gradienti non altera significativamente la similarità relativa necessaria per l'attacco.
Difesa Proposta: Una tabella di mappatura delle etichette (che permuta le etichette reali prima di calcolare la loss) può mitigare l'attacco, ma fallisce se l'adversario possiede anche una piccola quantità di dati etichettati o se la distribuzione delle etichette è fortemente sbilanciata.

5. Significato e Implicazioni

Questo lavoro rivela una vulnerabilità critica e sottovalutata nel Federated Learning Verticale: la privacy delle etichette non è garantita solo dal fatto che le etichette non vengano condivise esplicitamente. Se i dati locali delle parti passive sono sufficientemente informativi per il clustering, un avversario può ricostruire le etichette private tramite enumerazione e analisi dei gradienti.

Impatto sulla Sicurezza: Mette in discussione l'efficacia delle attuali misure di difesa basate su rumore e compressione contro questo tipo di attacco.
Direzione Futura: Evidenzia la necessità di sviluppare nuove contromisure specifiche per proteggere la privacy delle etichette in VFL, andando oltre le tecniche standard di privacy differenziale applicate ai gradienti.
Avvertenza: Il paper dimostra che l'ipotesi di sicurezza "honest-but-curious" nel VFL è più fragile del previsto, richiedendo una rivalutazione dei protocolli di sicurezza per applicazioni reali in settori sensibili come la finanza e la sanità.