LEA: Label Enumeration Attack in Vertical Federated Learning

Este artigo apresenta a LEA (Ataque de Enumeração de Rótulos), um novo método de ataque à privacidade em Aprendizado Federado Vertical que, sem necessidade de dados auxiliares, enumera mapeamentos de rótulos utilizando similaridade de gradientes e uma estratégia binária otimizada para superar limitações de cenários anteriores e resistir a mecanismos de defesa comuns.

Wenhao Jiang, Shaojing Fu, Yuchuan Luo, Lin Liu

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você e seus amigos estão tentando montar um quebra-cabeça gigante, mas cada um de vocês tem apenas uma parte das peças. Vocês não podem mostrar as peças uns aos outros (por privacidade), então vocês trocam apenas "dicas" sobre como as peças se encaixam para montar a imagem final. Isso é o que chamamos de Aprendizado Federado Vertical.

No entanto, existe um segredo: apenas uma pessoa (o "Participante Ativo") sabe qual é a imagem final do quebra-cabeça (os "rótulos" ou respostas). Os outros (os "Participantes Passivos") só têm as peças, mas não sabem o que estão montando.

O artigo que você enviou descreve um novo truque de hacker chamado LEA (Ataque de Enumeração de Rótulos). Vamos explicar como funciona usando uma analogia simples:

1. O Cenário: O Jogo do "Quem Sou Eu?"

Imagine que o Participante Ativo é um professor que tem a lista de notas dos alunos (os rótulos). Os Participantes Passivos são os alunos que têm apenas os cadernos de exercícios (os dados), mas não sabem as respostas. Eles querem aprender a resolver os exercícios juntos sem mostrar os cadernos.

O problema é que um aluno desonesto (o Adversário) quer descobrir as notas dos outros sem ser pego.

2. O Problema dos Ataques Antigos

Antes desse novo método, para tentar adivinhar as notas, o aluno desonesto precisava de uma "cola" (dados auxiliares). Ele precisava ter uma lista de nomes e notas de outro lugar para comparar. Sem essa cola, ele ficava no escuro.

3. A Solução: O Truque do LEA (Enumeração de Rótulos)

O novo ataque, o LEA, é genial porque não precisa de cola. Ele funciona como um detetive muito inteligente usando dois passos mágicos:

Passo A: Agrupar por "Vibe" (Clustering)

O aluno desonesto olha para os cadernos de todos e diz: "Olha, os alunos que têm essa letra de caligrafia e esse tipo de erro parecem ser do mesmo grupo". Ele separa todos os alunos em grupos (clusters) baseados apenas nas características deles, sem saber as notas.

  • Analogia: É como separar uma caixa de misturas de cores em grupos de "tons quentes" e "tons frios" sem saber qual cor é qual.

Passo B: O Jogo do "E Se...?" (Enumeração)

Agora, o aluno sabe que existem, por exemplo, 3 grupos de alunos. Ele sabe que as notas são A, B e C. Mas ele não sabe quem tirou o quê.
Então, ele começa a adivinhar todas as combinações possíveis:

  • Cenário 1: Grupo 1 = A, Grupo 2 = B, Grupo 3 = C.
  • Cenário 2: Grupo 1 = B, Grupo 2 = A, Grupo 3 = C.
  • ... e assim por diante, até tentar todas as combinações.

Para cada cenário, ele cria um "robô simulado" (um modelo de IA) e treina ele com essa suposição.

Passo C: O Teste de Verdade (Comparação de Gradientes)

Aqui está a parte mais inteligente. O aluno desonesto participa da aula real e recebe uma "dica" do professor (o gradiente de perda). Ele compara a "dica" que recebeu na vida real com as "dicas" que seus robôs simulados geraram em cada cenário.

  • Se o robô simulado com a suposição "Grupo 1 = A" gerar uma dica muito parecida com a do professor real, BINGO! O aluno descobriu que o Grupo 1 realmente tira nota A.
  • Ele não precisa esperar o robô terminar de aprender tudo; ele olha apenas a primeira "dica" (o primeiro gradiente) para saber qual cenário está certo. É como cheirar a comida para saber se é salgada ou doce, sem precisar comer o prato inteiro.

4. O Problema do Tempo e a "Versão Binária"

Se houver 10 tipos de notas, tentar todas as combinações é como tentar abrir um cofre com milhões de combinações. Levaria anos!
Para resolver isso, os autores criaram o Binary-LEA.

  • Analogia: Em vez de tentar adivinhar a cor de 10 bolas de uma vez, o hacker pergunta: "A bola 1 é vermelha ou azul?". Depois "A bola 2 é vermelha ou azul?". Ele divide o problema gigante em pequenos problemas de "Sim ou Não". Isso torna o ataque rápido e possível, mesmo com muitos dados.

5. Por que isso é perigoso?

O artigo mostra que:

  1. Não precisa de dados extras: O hacker consegue fazer isso apenas com os dados que ele já tem.
  2. Funciona em vários cenários: Funciona tanto se o professor tiver o modelo final quanto se o modelo for dividido.
  3. É difícil de defender:
    • Adicionar "ruído" (barulho) às dicas não ajuda muito; o hacker ainda consegue distinguir o padrão.
    • Comprimir as dicas também não funciona bem.
    • A única defesa sugerida é o professor usar um "código secreto" (tabela de mapeamento) para trocar as notas antes de enviar as dicas. Mas, se o hacker tiver um pouquinho de informação extra ou se as notas forem muito desbalanceadas (muitos zeros, poucos uns), ele ainda consegue quebrar o código.

Resumo Final

O LEA é como um detetive que, ao invés de roubar a lista de respostas, tenta todas as combinações possíveis de quem tirou qual nota, agrupando os alunos por semelhança e testando qual hipótese bate com a "vibe" da aula. É um ataque poderoso que mostra que, mesmo sem compartilhar dados brutos, a privacidade das respostas (rótulos) em sistemas colaborativos ainda está em risco.

Os autores concluem que precisamos de novas formas de proteger essas informações, pois os métodos atuais de segurança não são suficientes contra essa nova técnica.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →