LEA: Label Enumeration Attack in Vertical Federated Learning

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Das Puzzle ohne Bild

Stellen Sie sich Vertikales Federated Learning (VFL) wie ein riesiges Puzzle vor, das von mehreren Freunden gemeinsam gelöst wird.

Der eine Freund (der „Aktive") hat das Bild auf der Rückseite der Puzzleteile – also die Lösung (die Labels, z. B. „ist das Bild ein Hund oder eine Katze?").
Die anderen Freunde (die „Passiven") haben nur die Puzzleteile selbst – also die Merkmale (z. B. die Farben, Formen, Texturen), aber keine Ahnung, was das fertige Bild sein soll.

Normalerweise ist das sicher: Die Passiven schicken nur ihre Teile zum Aktiven, der Aktive rechnet die Lösung aus und sagt den Passiven nur, wie gut ihre Teile passen. Niemand muss die Daten austauschen.

Der neue Angriff: LEA (Label Enumeration Attack)

Die Forscher haben herausgefunden, dass ein neugieriger Passiver (der Angreifer) trotzdem die Lösung erraten kann, ohne Hilfe von außen und ohne eine eigene Liste mit Lösungen zu haben.

Stellen Sie sich vor, der Angreifer ist ein Detektiv, der ein Versteckspiel spielt. Er weiß nicht, welche Person (Label) zu welchem Versteck (Datenpunkt) gehört. Aber er hat eine geniale Idee:

Die Gruppierung (Clustering): Der Angreifer schaut sich seine eigenen Puzzleteile an und sortiert sie in Haufen. „Diese Teile sehen sich alle sehr ähnlich, sie gehören sicher zur selben Kategorie." Er macht also grobe Schätzungen: „Haufen A ist wahrscheinlich 'Hund', Haufen B ist wahrscheinlich 'Katze'."
Das Raten (Enumeration): Da er nicht weiß, welcher Haufen wirklich was ist, probiert er alle möglichen Kombinationen aus.
- Szenario 1: Haufen A = Hund, Haufen B = Katze.
- Szenario 2: Haufen A = Katze, Haufen B = Hund.
- (Bei 10 Kategorien wären das theoretisch 3,6 Millionen Kombinationen!)
Der Test: Für jede dieser Kombinationen baut der Angreifer eine eigene, kleine Version des Puzzlespiels und spielt es einmal durch.
Der Vergleich: Jetzt kommt der Trick. Der Angreifer beobachtet, wie der echte Aktive im echten Spiel reagiert (welche „Schreie" oder Signale er sendet, wenn die Teile nicht passen). Der Angreifer vergleicht diese Signale mit den Signalen seiner eigenen kleinen Spiele.
- Wenn seine kleine Version (z. B. „Haufen A ist ein Hund") fast exakt die gleichen Signale sendet wie das echte Spiel, dann hat er das Rätsel gelöst! Er weiß nun: „Aha, Haufen A ist wirklich ein Hund!"

Die Metapher: Es ist, als würde jemand 100 verschiedene Schlüssel ausprobieren, um eine Tür zu öffnen. Er dreht jeden Schlüssel einmal. Derjenige Schlüssel, bei dem das Schloss genau so klickt wie das Original, ist der richtige.

Die zwei großen Hürden und wie sie gelöst wurden

Die Forscher stießen auf zwei Probleme bei diesem „Raten":

1. Das Problem der Ähnlichkeit (Wie erkennt man den richtigen Schlüssel?)
Selbst wenn zwei Modelle mit den gleichen Daten trainiert werden, sehen ihre inneren Zahlen (Gewichte) am Ende oft unterschiedlich aus, wie zwei Menschen, die denselben Weg gehen, aber unterschiedliche Schuhe tragen.

Die Lösung: Die Forscher sagten: „Vergleichen wir nicht die Schuhe am Ende, sondern den ersten Schritt." Sie verglichen die Richtung, in die sich das Modell beim allerersten Versuch bewegt hat (die Gradienten). Das ist wie zu schauen, in welche Richtung ein Kompass zeigt, bevor er sich beruhigt. Das ist viel genauer und schneller.

2. Das Problem der Zeit (Zu viele Kombinationen!)
Wenn es 10 Kategorien gibt, gibt es 3,6 Millionen Kombinationen. Das dauert ewig, um alle durchzuprobieren.

Die Lösung (Binary-LEA): Statt alles auf einmal zu raten, teilen sie das Problem auf. Sie fragen nur: „Ist es A oder B?" (Ja/Nein-Fragen).
- Statt 3,6 Millionen Versuche braucht man nur noch eine handvoll Vergleiche (wie beim Rate-Spiel „Wer ist es?", wo man die Möglichkeiten immer halbiert).
- Das reduziert die Rechenzeit von „Jahrzehnten" auf „Stunden".

Warum ist das gefährlich?

Bisher dachte man, VFL sei sicher, solange man keine „Hilfsdaten" (eine kleine Liste mit Lösungen) hat. Diese Attacke zeigt: Nein, man braucht gar keine Hilfsdaten. Wenn die Daten des Angreifers nur halbwegs gut sortierbar sind (z. B. Bilder von Hunden sehen sich ähnlich), kann er die privaten Labels (die Lösungen) fast perfekt erraten.

Gibt es einen Schutz?

Die Forscher testeten zwei gängige Schutzmaßnahmen:

Rauschen hinzufügen (wie statisches Funkeln im Radio): Das half kaum. Der Angreifer konnte das Signal immer noch erkennen.
Daten komprimieren (nur die wichtigsten Infos senden): Auch das half nicht wirklich.

Der einzige (teilweise) Schutz: Eine „Geheimschrift" für die Labels. Der Aktive tauscht die echten Labels (z. B. „Hund") gegen zufällige Pseudonyme (z. B. „X123") aus.

Aber: Wenn der Angreifer ein paar echte Beispiele kennt oder wenn eine Kategorie viel häufiger ist als die andere (z. B. 90% „Gesund", 10% „Krank"), kann er die Geheimschrift trotzdem knacken.

Fazit

Diese Arbeit ist wie eine Warnung an alle, die Daten zusammenarbeiten wollen: Vertrauen Sie nicht blind darauf, dass die Lösung geheim bleibt. Selbst ohne die Lösung zu sehen, kann ein neugieriger Partner durch geschicktes Raten und Vergleichen die Geheimnisse lüften. Es braucht dringend neue, robustere Schutzmechanismen für die Zukunft.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vertikales Federated Learning (VFL) ist ein Paradigma, bei dem mehrere Parteien (Passive Parties) gemeinsam ein Modell trainieren, wobei jede Partei unterschiedliche Merkmale (Features) für dieselben Datenproben besitzt, während nur eine Partei (Active Party) die Labels (Zielvariablen) hält. Obwohl VFL darauf ausgelegt ist, die Privatsphäre der Daten zu schützen, indem nur Zwischenwerte ausgetauscht werden, stellen Label-Inferenz-Angriffe eine erhebliche Bedrohung dar.

Bisherige Angriffe auf die Label-Privatsphäre in VFL leiden unter zwei wesentlichen Einschränkungen:

Abhängigkeit von Hilfsdaten: Viele bestehende Angriffe benötigen eine kleine Menge an gelabelten Hilfsdaten (Auxiliary Data), um effektiv zu sein. In realen Szenarien ist es jedoch oft unmöglich, solche Daten zu beschaffen.
Eingeschränkte Anwendbarkeit: Viele Methoden funktionieren nur in spezifischen VFL-Settings (z. B. nur AggVFL oder nur SplitVFL) oder für bestimmte Modellarchitekturen.

Das Ziel dieses Papers ist es, einen Angriff zu entwickeln, der ohne Hilfsdaten auskommt und in vielfältigen VFL-Szenarien (sowohl AggVFL als auch SplitVFL) sowie für verschiedene Modelltypen (Logistische Regression, Neuronale Netze) anwendbar ist.

2. Methodik: Label Enumeration Attack (LEA)

Die Autoren schlagen einen neuen Angriff vor, den Label Enumeration Attack (LEA). Die Grundidee basiert auf der Annahme, dass die lokalen Daten der passiven Partei (des Angreifers) inhärent klassifizierbar sind.

Der Angriffsprozess:

Clustering: Der Angreifer führt ein unüberwachtes Clustering auf seinen lokalen Datenmerkmalen durch, um die Proben in $n$ Cluster zu gruppieren (wobei $n$ die Anzahl der Klassen ist).
Enumeration (Aufzählung): Da der Angreifer die wahren Labels nicht kennt, generiert er alle möglichen $n!$ Permutationen der Labels und weist diese den Clustern zu. Dies erzeugt $n!$ simulierte Datensätze.
Simulation: Der Angreifer erstellt $n!$ simulierte Modelle (bzw. simuliert das obere Modell in SplitVFL) und trainiert diese jeweils eine Epoche auf den simulierten Datensätzen.
Ähnlichkeitsmessung (Kerninnovation): Anstatt die finalen Modellgewichte zu vergleichen (was aufgrund lokaler Optima und Initialisierungsunterschiede unzuverlässig ist), vergleicht der Angreifer die Gradienten des ersten Trainingsrunden-Losses ( $\nabla \theta$ $\nabla θ$ ) der simulierten Modelle mit den Gradienten, die er während des echten, gemeinsamen Trainings mit der Active Party erhält.
- Es wird die Kosinussimilarität der Gradienten verwendet.
- Das simulierte Modell, dessen Gradienten die höchste Similarität zum echten Gradienten aufweisen, entspricht der korrekten Label-Zuordnung.
Vorhersage: Das identifizierte „Angriffsmodell" wird weiter trainiert, um die wahren Labels der Proben vorherzusagen.

Optimierung: Binary-LEA
Da das Trainieren von $n!$ Modellen bei großen $n$ (z. B. $n=10 \rightarrow 3,6$ Mio. Modelle) rechnerisch prohibitiv ist, schlagen die Autoren Binary-LEA vor:

Das Mehrklassenproblem wird in $\lfloor n/2 \rfloor$ binäre Teilprobleme zerlegt.
Statt $n!$ Permutationen werden nur noch $O(n^3)$ Permutationen benötigt.
Dies reduziert die Komplexität drastisch von $O(n!)$ auf $O(n^3)$ , ohne die Effektivität signifikant zu beeinträchtigen.

3. Schlüsselbeiträge

Neuartiger Angriff ohne Hilfsdaten: LEA ist der erste Label-Inferenz-Angriff, der in VFL-Szenarien ohne jegliche Hilfsdaten (Auxiliary Data) auskommt und dennoch hohe Erfolgsraten erzielt.
Robuste Ähnlichkeitsmetrik: Die Autoren beweisen theoretisch und empirisch, dass der Vergleich der ersten Loss-Gradienten (First-Round Loss Gradients) robuster und genauer ist als der Vergleich der finalen Modellparameter, insbesondere in SplitVFL-Szenarien, wo das obere Modell simuliert werden muss.
Effizienzsteigerung: Durch die Einführung von Binary-LEA wird der rechnerische Aufwand von faktoriell auf kubisch reduziert, was den Angriff auch für komplexere Klassifizierungsaufgaben praktikabel macht.
Breite Anwendbarkeit: Der Angriff funktioniert sowohl in AggVFL (Aggregations-basiert) als auch in SplitVFL (Split-Model-basiert) und ist auf logistische Regressionen sowie neuronale Netze (MLP, ResNet) anwendbar.

4. Ergebnisse

Die Experimente wurden auf realen Datensätzen (Breast Cancer, Give-me-some-credit, MNIST) in verschiedenen VFL-Konfigurationen durchgeführt:

Angriffserfolgsrate (ASR): LEA erreicht eine Angriffsgenauigkeit von 50 % bis 90 % im Vergleich zu state-of-the-art Angriffen (wie Passive Model Completion), die oft ohne Hilfsdaten versagen.
Vergleich mit PMC: Während die Passive Model Completion (PMC) ohne Hilfsdaten kaum besser als zufälliges Raten ist, erreicht LEA in fast allen Szenarien eine Genauigkeit nahe der des normal trainierten Modells (z. B. >90 % auf Breast Cancer und Give-me-some-credit).
Einfluss des Clustering: Die Genauigkeit des Angriffs korreliert stark mit der Qualität des Clustering. Selbst wenn der Angreifer nur einen kleinen Teil der Merkmale besitzt (z. B. 10 %), kann bei guter Trennbarkeit der Daten eine hohe Angriffsgenauigkeit erzielt werden.
Zeitkosten: Binary-LEA reduziert die Trainingszeit für MNIST-10 (10 Klassen) von theoretisch mehreren Jahren (bei LEA) auf ca. 4924 Sekunden.

5. Verteidigung und Signifikanz

Gegenwart von Verteidigungsmechanismen:
Die Autoren untersuchten gängige Verteidigungsstrategien:

Gradient Noise (Rauschen): Fügt Laplace-Rauschen hinzu. Die Ergebnisse zeigen, dass LEA selbst bei signifikantem Rauschen robust bleibt, solange die relative Reihenfolge der Gradienten-Similarität erhalten bleibt.
Gradient Compression: Komprimiert die Gradienten. Auch hier bleibt LEA effektiv, da die komprimierten Informationen immer noch die wesentlichen Merkmale enthalten.
Label Mapping Table: Eine neue Verteidigung, bei der die Active Party Labels vor dem Training permutiert. Dies funktioniert nur, wenn der Angreifer keine Hilfsdaten hat und die Label-Verteilung ausgeglichen ist. Bei unausgewogenen Datensätzen oder wenn der Angreifer auch nur wenige gelabelte Hilfsdaten besitzt, ist diese Methode wirkungslos.

Signifikanz:
Dieses Paper zeigt auf, dass die Annahme der Sicherheit von VFL bezüglich der Label-Privatsphäre trügerisch sein kann. Selbst ohne Zugriff auf externe gelabelte Daten können passive Parteien die Labels der Active Party rekonstruieren, sofern ihre lokalen Daten eine gewisse Trennbarkeit aufweisen. Dies unterstreicht die Dringlichkeit, neue und robustere Verteidigungsmechanismen für VFL zu entwickeln, die über einfache Gradienten-Modifikationen hinausgehen. Die Arbeit liefert somit einen wichtigen Beitrag zum Verständnis der Sicherheitslücken in verteilten Lernsystemen.

LEA: Label Enumeration Attack in Vertical Federated Learning

Das Grundproblem: Das Puzzle ohne Bild

Der neue Angriff: LEA (Label Enumeration Attack)

Die zwei großen Hürden und wie sie gelöst wurden

Warum ist das gefährlich?

Gibt es einen Schutz?

Fazit

1. Problemstellung

2. Methodik: Label Enumeration Attack (LEA)

3. Schlüsselbeiträge

4. Ergebnisse

5. Verteidigung und Signifikanz

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank