Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Each language version is independently generated for its own context, not a direct translation.

Imagine que você e seus vizinhos decidem construir um quebra-cabeça gigante juntos para prever o futuro (como se alguém vai pagar um empréstimo ou se tem uma doença).

Você (o "Participante Ativo") tem as etiquetas (as respostas: "sim, pagará" ou "não, tem doença"). Mas você não pode mostrar essas respostas a ninguém, pois são segredos muito sensíveis.
Seus vizinhos (os "Participantes Passivos") têm as peças do quebra-cabeça (os dados: histórico bancário, raios-X, etc.). Eles também não podem mostrar as peças inteiras a você.

Juntos, vocês montam o quebra-cabeça sem nunca trocar as peças ou as respostas. Isso é o Aprendizado Federado Vertical. É ótimo para a privacidade, mas e se alguém disser: "Espera! Eu quero que meu dado seja esquecido. Apague a minha resposta do modelo!"?

Aqui entra o problema: apagar uma peça de um quebra-cabeça que já foi montado é difícil. Se você simplesmente tentar "desmontar" a parte errada, pode estragar o resto da imagem. E pior: no processo de apagar, você pode acabar revelando quais peças estavam sendo apagadas, violando a privacidade de quem pediu para ser esquecido.

A Solução: O "Borrão Mágico" e a "Recuperação Rápida"

Este paper apresenta uma nova maneira de fazer esse "esquecimento" de forma rápida, segura e sem estragar o resto do modelo. Eles chamam isso de Esquecimento de Few-Shot (Poucas Amostras) com Privacidade Garantida.

Aqui está como funciona, passo a passo, usando analogias:

1. O Problema: Não temos tempo para refazer tudo

Normalmente, para apagar uma pessoa do modelo, teríamos que recriar o quebra-cabeça inteiro do zero, sem aquela pessoa. Isso demoraria dias e custaria muito dinheiro. Além disso, para fazer isso, teríamos que mostrar aos vizinhos exatamente quais peças estavam sendo removidas, o que vazaria a informação de quem pediu para ser esquecido.

2. A Ideia Genial: O "Borrão Mágico" (Mixup de Variedade)

Em vez de usar todas as peças do modelo para apagar a pessoa, os autores usam apenas poucas peças de exemplo (talvez 30 ou 40) que são públicas e seguras.

Mas, como poucas peças não são suficientes? Eles usam uma técnica chamada "Manifold Mixup".

A Analogia: Imagine que você tem uma foto de um gato e uma de um cachorro. Em vez de apenas olhar para eles, você pega um pincel mágico e cria milhares de fotos misturadas (um "gato-cachorro", um "cachorro-gato", etc.) no meio do caminho.
Na prática: O sistema pega as representações matemáticas (os "traços" das peças) das poucas amostras públicas e cria milhares de versões sintéticas delas. Isso dá ao modelo uma visão muito mais rica e suave do que está acontecendo, permitindo que ele entenda o que precisa ser apagado sem precisar ver todos os dados originais.

3. O Apagamento: O "Empurrão Inverso"

Agora que temos essas imagens misturadas e ricas, o sistema faz algo inteligente:

O "Participante Ativo" (que tem as respostas) dá um empurrão na direção oposta da resposta que quer apagar. É como se ele dissesse ao modelo: "Esqueça que isso é um gato, pense que é o oposto!".
Como as peças sintéticas são tão boas, esse empurrão funciona muito rápido e precisa, apagando a influência da pessoa que pediu para ser esquecida em segundos.
O Truque de Privacidade: Os vizinhos (participantes passivos) recebem apenas os "sinais" desse empurrão. Eles não sabem qual pessoa específica foi apagada, apenas que o modelo precisa mudar um pouco. É como se alguém dissesse "ajustem a iluminação" sem dizer "apaguem a foto do João".

4. A Recuperação: "Arrumando a Casa"

Às vezes, quando você apaga algo, a casa fica um pouco bagunçada. O modelo pode ficar um pouco confuso com as pessoas que não foram apagadas.

Para resolver isso, eles fazem uma fase de recuperação rápida. Usando apenas algumas poucas amostras das pessoas que ficaram, eles ajustam o modelo de volta para que ele continue funcionando perfeitamente para todos os outros.

Por que isso é incrível?

Velocidade Relâmpago: Enquanto outros métodos levam horas ou dias para re-treinar, isso leva segundos.
Privacidade Real: Ninguém descobre quem foi apagado. O processo em si não vaza segredos.
Funciona em Tudo: Eles testaram com imagens de raio-X (câncer, COVID), fotos de carros, e até textos de perguntas e respostas na internet. Funciona em todos os casos.
Não Quebra o Modelo: Ao contrário de tentar apagar algo grosseiramente (que poderia fazer o modelo esquecer tudo), essa técnica mantém a precisão alta para quem continua no sistema.

Resumo Final

Imagine que você tem um livro de receitas secreto. Alguém pede para apagar a receita do "Bolo de Chocolate" porque não quer que ninguém saiba que ele gosta disso.

O jeito antigo: Você rasga todas as páginas, reescreve o livro do zero sem a receita do bolo. Demorado e arriscado (alguém pode ver que você rasgou a página do bolo).
O jeito novo deste paper: Você pega algumas páginas de receitas genéricas, cria variações mágicas delas, e dá um "tapinha" no livro para que a receita do bolo desapareça magicamente, enquanto as outras receitas continuam perfeitas. E ninguém sabe qual receita sumiu, apenas que o livro foi levemente ajustado.

É uma forma inteligente, rápida e segura de respeitar o "direito ao esquecimento" em um mundo onde os dados são divididos entre várias empresas.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda o desafio crítico do aprendizado de máquina esquecido (machine unlearning) no contexto de Aprendizado Federado Vertical (VFL).

Contexto VFL: No VFL, diferentes organizações (partes) colaboram para treinar um modelo mantendo seus dados privados. Geralmente, há uma parte ativa (que possui os rótulos/labels) e várias partes passivas (que possuem as características/features).
A Lacuna: Embora o "esquecimento" (unlearning) tenha sido amplamente estudado no Aprendizado Federado Horizontal (HFL), ele é negligenciado no VFL. As soluções existentes focam principalmente na remoção de partes passivas inteiras (quando um cliente sai do sistema) ou de características.
O Desafio Específico: O artigo foca no esquecimento de rótulos (label unlearning). Em cenários sensíveis (como saúde ou finanças), um usuário pode exigir que um rótulo específico (ex: diagnóstico de HIV ou aprovação de empréstimo) seja removido do modelo para cumprir regulamentos como GDPR e CCPA ("Direito ao Esquecimento").
Dificuldades:
1. Privacidade: O processo de esquecimento não deve revelar quais amostras ou rótulos estão sendo removidos às partes passivas.
2. Eficiência: O VFL exige sincronização estrita entre as partes. Re-treinar o modelo inteiro é computacionalmente proibitivo e lento.
3. Dados Limitados: O acesso aos dados originais que precisam ser esquecidos pode ser restrito ou impossível de obter novamente, exigindo métodos que funcionem com poucos dados (few-shot).

2. Metodologia Proposta

Os autores propõem um framework inovador de esquecimento de rótulos com poucos exemplos (few-shot) que utiliza Manifold Mixup em nível de representação. O processo ocorre em três etapas principais:

A. Manifold Mixup Vertical (Aumento de Dados)

Para contornar a escassez de dados de treinamento para o esquecimento, o método utiliza uma pequena quantidade de dados públicos rotulados ( $D_{p,u}$ ) associados ao rótulo a ser esquecido.

Em vez de misturar características brutas, o método aplica Manifold Mixup nas embeddings (representações) geradas pelas partes passivas.
A parte ativa gera embeddings sintéticas interpolando as representações locais das partes passivas. Isso cria uma distribuição de estados mais plana e rica, permitindo que o modelo aprenda a "esquecer" o rótulo com muito poucos exemplos reais.

B. Esquecimento de Rótulo Baseado em Gradiente

Uma vez geradas as embeddings aumentadas ( $\vec{H}^u$ ), o processo de esquecimento é realizado:

Parte Ativa: Executa Ascensão de Gradiente (Gradient Ascent) sobre a perda do modelo em relação às embeddings aumentadas e aos rótulos a serem esquecidos. Isso força o modelo a maximizar o erro nesses dados, efetivamente "esquecendo" a associação com o rótulo.
Partes Passivas: Recebem os gradientes da parte ativa (relativos às embeddings) e atualizam seus modelos locais usando a ascensão de gradiente inversa. Isso permite que elas removam a influência do rótulo sem nunca terem acesso aos rótulos brutos ou aos dados originais.

C. Recuperação de Precisão (Remained Accuracy Recovery)

O esquecimento agressivo pode degradar a performance do modelo nos dados que não devem ser esquecidos (dados retidos, $D_{p,r}$ ).

Para mitigar isso, uma etapa final de otimização é realizada usando um pequeno conjunto de dados retidos.
O modelo é ajustado via Descida de Gradiente (Gradient Descent) para recuperar a precisão nas classes restantes, garantindo que a utilidade do modelo seja preservada.

3. Contribuições Chave

Primeiro Trabalho em VFL: É a primeira proposta dedicada especificamente ao esquecimento de rótulos no cenário de VFL, diferenciando-se dos trabalhos anteriores focados em clientes ou características.
Mecanismo Few-Shot com Mixup: Desenvolveu um método que utiliza apenas uma pequena fração de dados públicos (ex: 40 amostras por rótulo) para realizar o esquecimento, graças ao Manifold Mixup em nível de representação.
Privacidade de Processo (Process Privacy): O artigo introduz o conceito de "privacidade de processo" no VFL, garantindo que o protocolo de esquecimento não revele quais amostras estão sendo deletadas. Eles formalizam isso através da divergência KL entre as crenças anteriores e posteriores das partes passivas sobre o conjunto de exclusão.
Eficiência Computacional: O método é extremamente rápido (segundos), evitando o re-treinamento completo do modelo.

4. Resultados Experimentais

Os autores validaram o método em sete conjuntos de dados diversos (MNIST, CIFAR-10/100, ModelNet, MRI de Tumores Cerebrais, Radiografia COVID-19 e Yahoo Answers) e diferentes arquiteturas (ResNet18, VGG16, MixText).

Utilidade (Preservação de Precisão): O método manteve a precisão nos dados retidos ( $D_r$ ) quase inalterada (ex: >98% em CIFAR-10), superando significativamente métodos como Fisher Forgetting e Amnesiac, que degradaram severamente a performance.
Eficácia do Esquecimento: A precisão nos dados esquecidos ( $y_u$ ) caiu para próximo de 0% (ou nível aleatório), indicando que o modelo "esqueceu" o rótulo.
Taxa de Sucesso do Ataque (ASR): O método obteve uma baixa Taxa de Sucesso de Ataque de Membro (Membership Inference Attack), demonstrando robustez contra ataques que tentam inferir se um dado estava no treinamento.
Eficiência de Tempo: O tempo de execução foi de 16x a 1200x mais rápido do que métodos baseados em re-treinamento ou ajuste fino (Fine-Tuning) que utilizam o conjunto de dados completo.
Privacidade: Enquanto o re-treinamento padrão revela 100% do conjunto de exclusão para as partes passivas, o método proposto reduziu essa vazão para níveis baixos (ex: 14,38% no CIFAR-10 e 4,04% no CIFAR-100).

5. Significado e Impacto

Este trabalho estabelece uma nova direção para a privacidade em sistemas colaborativos de aprendizado de máquina.

Viabilidade Prática: Demonstra que é possível cumprir o "Direito ao Esquecimento" em ambientes federados verticais (comuns em bancos e saúde) sem sacrificar a precisão do modelo ou a privacidade dos dados.
Segurança de Dados: Ao garantir que as partes passivas não aprendam quais dados estão sendo removidos, o método mitiga riscos de vazamento de informações sensíveis durante o processo de conformidade regulatória.
Escalabilidade: A abordagem few-shot e a eficiência computacional tornam o esquecimento de rótulos viável para sistemas em tempo real, onde o re-treinamento completo é impossível.

Em resumo, o artigo oferece uma solução robusta, eficiente e privada para um problema crítico em VFL, permitindo que organizações colaborem em modelos de IA mantendo o controle total sobre a privacidade e a exclusão de dados sensíveis.