Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este artigo propõe o primeiro método para o esquecimento de rótulos em Aprendizado Federado Vertical, utilizando um mecanismo de mixup em nível de representação e otimização baseada em gradiente para garantir a privacidade sem revelar dados sensíveis, mantendo a eficiência computacional e a utilidade do modelo.

Hanlin Gu, Hong Xi Tae, Lixin Fan, Chee Seng Chan

Publicado 2026-03-02
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você e seus vizinhos decidem construir um quebra-cabeça gigante juntos para prever o futuro (como se alguém vai pagar um empréstimo ou se tem uma doença).

  • Você (o "Participante Ativo") tem as etiquetas (as respostas: "sim, pagará" ou "não, tem doença"). Mas você não pode mostrar essas respostas a ninguém, pois são segredos muito sensíveis.
  • Seus vizinhos (os "Participantes Passivos") têm as peças do quebra-cabeça (os dados: histórico bancário, raios-X, etc.). Eles também não podem mostrar as peças inteiras a você.

Juntos, vocês montam o quebra-cabeça sem nunca trocar as peças ou as respostas. Isso é o Aprendizado Federado Vertical. É ótimo para a privacidade, mas e se alguém disser: "Espera! Eu quero que meu dado seja esquecido. Apague a minha resposta do modelo!"?

Aqui entra o problema: apagar uma peça de um quebra-cabeça que já foi montado é difícil. Se você simplesmente tentar "desmontar" a parte errada, pode estragar o resto da imagem. E pior: no processo de apagar, você pode acabar revelando quais peças estavam sendo apagadas, violando a privacidade de quem pediu para ser esquecido.

A Solução: O "Borrão Mágico" e a "Recuperação Rápida"

Este paper apresenta uma nova maneira de fazer esse "esquecimento" de forma rápida, segura e sem estragar o resto do modelo. Eles chamam isso de Esquecimento de Few-Shot (Poucas Amostras) com Privacidade Garantida.

Aqui está como funciona, passo a passo, usando analogias:

1. O Problema: Não temos tempo para refazer tudo

Normalmente, para apagar uma pessoa do modelo, teríamos que recriar o quebra-cabeça inteiro do zero, sem aquela pessoa. Isso demoraria dias e custaria muito dinheiro. Além disso, para fazer isso, teríamos que mostrar aos vizinhos exatamente quais peças estavam sendo removidas, o que vazaria a informação de quem pediu para ser esquecido.

2. A Ideia Genial: O "Borrão Mágico" (Mixup de Variedade)

Em vez de usar todas as peças do modelo para apagar a pessoa, os autores usam apenas poucas peças de exemplo (talvez 30 ou 40) que são públicas e seguras.

Mas, como poucas peças não são suficientes? Eles usam uma técnica chamada "Manifold Mixup".

  • A Analogia: Imagine que você tem uma foto de um gato e uma de um cachorro. Em vez de apenas olhar para eles, você pega um pincel mágico e cria milhares de fotos misturadas (um "gato-cachorro", um "cachorro-gato", etc.) no meio do caminho.
  • Na prática: O sistema pega as representações matemáticas (os "traços" das peças) das poucas amostras públicas e cria milhares de versões sintéticas delas. Isso dá ao modelo uma visão muito mais rica e suave do que está acontecendo, permitindo que ele entenda o que precisa ser apagado sem precisar ver todos os dados originais.

3. O Apagamento: O "Empurrão Inverso"

Agora que temos essas imagens misturadas e ricas, o sistema faz algo inteligente:

  • O "Participante Ativo" (que tem as respostas) dá um empurrão na direção oposta da resposta que quer apagar. É como se ele dissesse ao modelo: "Esqueça que isso é um gato, pense que é o oposto!".
  • Como as peças sintéticas são tão boas, esse empurrão funciona muito rápido e precisa, apagando a influência da pessoa que pediu para ser esquecida em segundos.
  • O Truque de Privacidade: Os vizinhos (participantes passivos) recebem apenas os "sinais" desse empurrão. Eles não sabem qual pessoa específica foi apagada, apenas que o modelo precisa mudar um pouco. É como se alguém dissesse "ajustem a iluminação" sem dizer "apaguem a foto do João".

4. A Recuperação: "Arrumando a Casa"

Às vezes, quando você apaga algo, a casa fica um pouco bagunçada. O modelo pode ficar um pouco confuso com as pessoas que não foram apagadas.

  • Para resolver isso, eles fazem uma fase de recuperação rápida. Usando apenas algumas poucas amostras das pessoas que ficaram, eles ajustam o modelo de volta para que ele continue funcionando perfeitamente para todos os outros.

Por que isso é incrível?

  1. Velocidade Relâmpago: Enquanto outros métodos levam horas ou dias para re-treinar, isso leva segundos.
  2. Privacidade Real: Ninguém descobre quem foi apagado. O processo em si não vaza segredos.
  3. Funciona em Tudo: Eles testaram com imagens de raio-X (câncer, COVID), fotos de carros, e até textos de perguntas e respostas na internet. Funciona em todos os casos.
  4. Não Quebra o Modelo: Ao contrário de tentar apagar algo grosseiramente (que poderia fazer o modelo esquecer tudo), essa técnica mantém a precisão alta para quem continua no sistema.

Resumo Final

Imagine que você tem um livro de receitas secreto. Alguém pede para apagar a receita do "Bolo de Chocolate" porque não quer que ninguém saiba que ele gosta disso.

  • O jeito antigo: Você rasga todas as páginas, reescreve o livro do zero sem a receita do bolo. Demorado e arriscado (alguém pode ver que você rasgou a página do bolo).
  • O jeito novo deste paper: Você pega algumas páginas de receitas genéricas, cria variações mágicas delas, e dá um "tapinha" no livro para que a receita do bolo desapareça magicamente, enquanto as outras receitas continuam perfeitas. E ninguém sabe qual receita sumiu, apenas que o livro foi levemente ajustado.

É uma forma inteligente, rápida e segura de respeitar o "direito ao esquecimento" em um mundo onde os dados são divididos entre várias empresas.