LEA: Label Enumeration Attack in Vertical Federated Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você e seus amigos estão tentando montar um quebra-cabeça gigante, mas cada um de vocês tem apenas uma parte das peças. Vocês não podem mostrar as peças uns aos outros (por privacidade), então vocês trocam apenas "dicas" sobre como as peças se encaixam para montar a imagem final. Isso é o que chamamos de Aprendizado Federado Vertical.

No entanto, existe um segredo: apenas uma pessoa (o "Participante Ativo") sabe qual é a imagem final do quebra-cabeça (os "rótulos" ou respostas). Os outros (os "Participantes Passivos") só têm as peças, mas não sabem o que estão montando.

O artigo que você enviou descreve um novo truque de hacker chamado LEA (Ataque de Enumeração de Rótulos). Vamos explicar como funciona usando uma analogia simples:

1. O Cenário: O Jogo do "Quem Sou Eu?"

Imagine que o Participante Ativo é um professor que tem a lista de notas dos alunos (os rótulos). Os Participantes Passivos são os alunos que têm apenas os cadernos de exercícios (os dados), mas não sabem as respostas. Eles querem aprender a resolver os exercícios juntos sem mostrar os cadernos.

O problema é que um aluno desonesto (o Adversário) quer descobrir as notas dos outros sem ser pego.

2. O Problema dos Ataques Antigos

Antes desse novo método, para tentar adivinhar as notas, o aluno desonesto precisava de uma "cola" (dados auxiliares). Ele precisava ter uma lista de nomes e notas de outro lugar para comparar. Sem essa cola, ele ficava no escuro.

3. A Solução: O Truque do LEA (Enumeração de Rótulos)

O novo ataque, o LEA, é genial porque não precisa de cola. Ele funciona como um detetive muito inteligente usando dois passos mágicos:

Passo A: Agrupar por "Vibe" (Clustering)

O aluno desonesto olha para os cadernos de todos e diz: "Olha, os alunos que têm essa letra de caligrafia e esse tipo de erro parecem ser do mesmo grupo". Ele separa todos os alunos em grupos (clusters) baseados apenas nas características deles, sem saber as notas.

Analogia: É como separar uma caixa de misturas de cores em grupos de "tons quentes" e "tons frios" sem saber qual cor é qual.

Passo B: O Jogo do "E Se...?" (Enumeração)

Agora, o aluno sabe que existem, por exemplo, 3 grupos de alunos. Ele sabe que as notas são A, B e C. Mas ele não sabe quem tirou o quê.
Então, ele começa a adivinhar todas as combinações possíveis:

Cenário 1: Grupo 1 = A, Grupo 2 = B, Grupo 3 = C.
Cenário 2: Grupo 1 = B, Grupo 2 = A, Grupo 3 = C.
... e assim por diante, até tentar todas as combinações.

Para cada cenário, ele cria um "robô simulado" (um modelo de IA) e treina ele com essa suposição.

Passo C: O Teste de Verdade (Comparação de Gradientes)

Aqui está a parte mais inteligente. O aluno desonesto participa da aula real e recebe uma "dica" do professor (o gradiente de perda). Ele compara a "dica" que recebeu na vida real com as "dicas" que seus robôs simulados geraram em cada cenário.

Se o robô simulado com a suposição "Grupo 1 = A" gerar uma dica muito parecida com a do professor real, BINGO! O aluno descobriu que o Grupo 1 realmente tira nota A.
Ele não precisa esperar o robô terminar de aprender tudo; ele olha apenas a primeira "dica" (o primeiro gradiente) para saber qual cenário está certo. É como cheirar a comida para saber se é salgada ou doce, sem precisar comer o prato inteiro.

4. O Problema do Tempo e a "Versão Binária"

Se houver 10 tipos de notas, tentar todas as combinações é como tentar abrir um cofre com milhões de combinações. Levaria anos!
Para resolver isso, os autores criaram o Binary-LEA.

Analogia: Em vez de tentar adivinhar a cor de 10 bolas de uma vez, o hacker pergunta: "A bola 1 é vermelha ou azul?". Depois "A bola 2 é vermelha ou azul?". Ele divide o problema gigante em pequenos problemas de "Sim ou Não". Isso torna o ataque rápido e possível, mesmo com muitos dados.

5. Por que isso é perigoso?

O artigo mostra que:

Não precisa de dados extras: O hacker consegue fazer isso apenas com os dados que ele já tem.
Funciona em vários cenários: Funciona tanto se o professor tiver o modelo final quanto se o modelo for dividido.
É difícil de defender:
- Adicionar "ruído" (barulho) às dicas não ajuda muito; o hacker ainda consegue distinguir o padrão.
- Comprimir as dicas também não funciona bem.
- A única defesa sugerida é o professor usar um "código secreto" (tabela de mapeamento) para trocar as notas antes de enviar as dicas. Mas, se o hacker tiver um pouquinho de informação extra ou se as notas forem muito desbalanceadas (muitos zeros, poucos uns), ele ainda consegue quebrar o código.

Resumo Final

O LEA é como um detetive que, ao invés de roubar a lista de respostas, tenta todas as combinações possíveis de quem tirou qual nota, agrupando os alunos por semelhança e testando qual hipótese bate com a "vibe" da aula. É um ataque poderoso que mostra que, mesmo sem compartilhar dados brutos, a privacidade das respostas (rótulos) em sistemas colaborativos ainda está em risco.

Os autores concluem que precisamos de novas formas de proteger essas informações, pois os métodos atuais de segurança não são suficientes contra essa nova técnica.

Each language version is independently generated for its own context, not a direct translation.

Título: LEA: Ataque de Enumeração de Rótulos em Aprendizado Federado Vertical

1. O Problema

O Aprendizado Federado Vertical (VFL) é um paradigma onde múltiplos participantes colaboram para treinar um modelo de machine learning, possuindo características (features) diferentes para as mesmas amostras, mas mantendo os rótulos (labels) exclusivamente em uma única parte ativa. Embora o VFL vise proteger a privacidade dos dados, os rótulos contêm informações sensíveis (ex: diagnósticos médicos, histórico de crédito).

Ataques anteriores de inferência de rótulos no VFL enfrentavam limitações significativas:

Dependiam fortemente de dados auxiliares (um conjunto de dados rotulado pequeno) para serem eficazes.
Eram restritos a cenários específicos (ex: apenas classificação binária ou apenas modelos de regressão logística).
Frequentemente exigiam que o adversário tivesse acesso a uma fração do conjunto de dados original.

O artigo identifica a necessidade de um ataque que funcione sem dados auxiliares e seja aplicável a diversos cenários VFL, explorando a vulnerabilidade inerente de que os dados locais de uma parte passiva são, em essência, classificáveis.

2. Metodologia: Ataque de Enumeração de Rótulos (LEA)

A proposta central é o LEA (Label Enumeration Attack), um ataque baseado em enumeração de permutações de rótulos combinado com algoritmos de agrupamento (clustering).

Principais Etapas do Ataque:

Agrupamento (Clustering): O adversário (parte passiva) aplica um algoritmo de clustering não supervisionado em seus dados locais para agrupar as amostras em $n$ clusters (onde $n$ é o número de classes de rótulos). A premissa é que os dados possuem estrutura intrínseca que permite essa separação.
Enumeração de Rótulos: O adversário gera todas as $n!$ permutações possíveis de atribuição de rótulos aos clusters. Isso cria $n!$ conjuntos de dados simulados, cada um com uma atribuição de rótulos diferente.
Treinamento de Modelos Simulados: O adversário cria $n!$ cópias de seu modelo local. Cada cópia é treinada por uma única rodada (epoch) em um dos conjuntos de dados simulados (com uma permutação de rótulos específica).
Avaliação de Similaridade (O Diferencial): Para identificar qual permutação corresponde aos rótulos reais, o adversário compara os gradientes de perda da primeira rodada ( $\nabla \theta$ $\nabla θ$ ) dos modelos simulados com os gradientes recebidos durante o treinamento federado real (benigno).
- Utiliza-se a Semelhança Cosseno entre os gradientes.
- A hipótese é que o modelo simulado treinado com a permutação de rótulos correta (ou muito próxima) produzirá gradientes de perda na primeira rodada altamente similares aos do modelo real, pois a direção de atualização dos parâmetros será a mesma.
Seleção e Predição: O modelo simulado com a maior semelhança de cosseno é selecionado como o "modelo de ataque". Ele é então treinado até a convergência no seu conjunto de dados simulado correspondente para prever os rótulos reais das amostras.

Otimização: Binary-LEA
Como treinar $n!$ modelos é computacionalmente proibitivo para grandes $n$ (fatorial), os autores propõem o Binary-LEA.

Transforma o problema de classificação multiclasse em múltiplas tarefas de classificação binária.
Reduz a complexidade computacional de $O(n!)$ para $O(n^3)$ .
Agrupa os clusters em pares, treina modelos binários e sintetiza os resultados para recuperar os rótulos originais.

3. Principais Contribuições

Ataque sem Dados Auxiliares: O LEA é o primeiro ataque de inferência de rótulos no VFL que não requer nenhum conjunto de dados rotulado externo, dependendo apenas da capacidade de clustering dos dados locais do adversário.
Generalidade: Funciona tanto em cenários AggVFL (onde o modelo global é uma função de agregação) quanto em SplitVFL (onde o modelo global é treinável), e é eficaz em modelos de Regressão Logística e Redes Neurais.
Métrica de Similaridade Eficiente: Demonstra que comparar a semelhança cosseno dos gradientes da primeira rodada é superior e mais eficiente do que comparar os parâmetros finais do modelo, especialmente em SplitVFL onde modelos podem convergir para mínimos locais diferentes.
Redução de Complexidade: A proposta do Binary-LEA torna o ataque viável para cenários com muitas classes, reduzindo drasticamente o custo computacional.
Análise de Defesa: Avalia mecanismos de defesa existentes (ruído de gradiente e compressão) e propõe uma nova estratégia baseada em tabela de mapeamento de rótulos.

4. Resultados Experimentais

Os experimentos foram realizados em conjuntos de dados reais (Breast Cancer, Give-me-some-credit, MNIST) em configurações de 2 a 4 partes.

Precisão do Ataque:
- O LEA alcançou taxas de sucesso (ASR) entre 50% e 90%, superando significativamente os ataques state-of-the-art (como Passive Model Completion - PMC) que dependem de dados auxiliares.
- Em cenários sem dados auxiliares, o LEA superou os métodos existentes em até 90% de precisão.
- A precisão do ataque está diretamente correlacionada com a precisão do clustering (CA). Mesmo com apenas 10% das features, se o clustering for preciso, o ataque tem alta taxa de sucesso.
Eficiência Computacional:
- Para o dataset MNIST-10 (10 classes), o ataque LEA padrão exigiria um tempo de computação de aproximadamente 3 anos devido à explosão combinatória ( $10!$ ).
- O Binary-LEA reduziu esse tempo para cerca de 4.900 segundos (aprox. 1,3 horas), mantendo uma alta precisão de ataque.
Resiliência a Defesas:
- O ataque é robusto contra ruído de gradiente (Laplace) e compressão de gradiente, desde que a ordem de magnitude da similaridade dos gradientes não seja alterada drasticamente.
- A defesa proposta (tabela de mapeamento de rótulos) funciona apenas se o adversário não tiver dados auxiliares e a distribuição de rótulos for equilibrada. Se o adversário tiver dados rotulados ou se a distribuição for muito desigual, a defesa falha.

5. Significado e Conclusão

Este trabalho expõe uma vulnerabilidade crítica e fundamental no VFL: a possibilidade de inferir rótulos sensíveis sem qualquer conhecimento prévio ou dados auxiliares, apenas explorando a estrutura dos dados locais e os gradientes de treinamento.

Impacto na Segurança: O LEA demonstra que a segurança do VFL não pode depender apenas da ocultação de dados brutos, pois a estrutura dos dados (clustering) pode vazar informações sobre os rótulos.
Direções Futuras: O estudo sugere que as defesas atuais (ruído e compressão) são insuficientes contra ataques sofisticados de enumeração. A necessidade de novas estratégias de defesa, como o mapeamento de rótulos (com suas limitações) ou mecanismos que perturbem a estrutura de clustering dos dados, é urgente.

Em resumo, o LEA redefine o estado da arte em ataques de privacidade no VFL, mostrando que a inferência de rótulos é viável, eficiente e altamente precisa mesmo na ausência de dados auxiliares, desafiando a comunidade a desenvolver proteções mais robustas.

LEA: Label Enumeration Attack in Vertical Federated Learning

1. O Cenário: O Jogo do "Quem Sou Eu?"

2. O Problema dos Ataques Antigos

3. A Solução: O Truque do LEA (Enumeração de Rótulos)

Passo A: Agrupar por "Vibe" (Clustering)

Passo B: O Jogo do "E Se...?" (Enumeração)

Passo C: O Teste de Verdade (Comparação de Gradientes)

4. O Problema do Tempo e a "Versão Binária"

5. Por que isso é perigoso?

Resumo Final

Título: LEA: Ataque de Enumeração de Rótulos em Aprendizado Federado Vertical

1. O Problema

2. Metodologia: Ataque de Enumeração de Rótulos (LEA)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank