Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de receitas muito famoso, cheio de milhares de pratos. De repente, você percebe que uma receita específica (digamos, o "Bolo Secreto do Vovô") foi roubada de alguém e você precisa, por lei, apagar essa receita do livro para sempre.

O problema é que, na era da Inteligência Artificial, "apagar" não é tão simples quanto rasgar uma página.

Este artigo de pesquisa, escrito por um grupo da Coreia do Sul, descobriu algo assustador sobre como as IAs tentam esquecer coisas. Eles chamam isso de "Supressão vs. Deleção".

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Grande Mal-Entendido: Esconder vs. Apagar

Até agora, os cientistas testavam se uma IA havia "esquecido" algo apenas olhando para o que ela dizia (a saída).

A Analogia: Imagine que você pergunta a um aluno: "Qual é a receita do Bolo Secreto?". Se o aluno responder "Não sei" ou "Eu não tenho essa receita", os professores acham que ele esqueceu.
A Realidade: O artigo mostra que, na maioria dos casos, o aluno não esqueceu. Ele apenas aprendeu a não falar a resposta quando perguntado diretamente. A receita ainda está lá, escrita em letras miúdas no fundo da mente dele, pronta para ser usada se alguém der uma dica certa.

Isso é chamado de Supressão (esconder a informação) em vez de Deleção (apagar a informação de verdade).

2. A Ferramenta Mágica: O "Espelho de Raio-X"

Como os autores descobriram que a informação ainda estava lá? Eles criaram um novo método usando uma tecnologia chamada Sparse Autoencoders (Autoencoders Esparsos).

A Analogia: Pense na IA como uma grande fábrica de produção de bolo.
- As camadas iniciais da fábrica misturam farinha e ovos (características básicas).
- As camadas do meio são onde a "alma" do bolo é criada (o sabor, a textura, a identidade do bolo).
- A camada final é onde o bolo é embrulhado e entregue ao cliente.

Os métodos antigos de "esquecer" apenas mudavam o embalador na saída (fazendo ele dizer "não temos bolo"). Mas a fábrica do meio ainda estava produzindo o bolo secreto.

Os autores usaram seus "Espelhos de Raio-X" para olhar dentro das camadas do meio da fábrica. Eles encontraram os "especialistas" (pequenos circuitos) que sabiam exatamente como fazer o Bolo Secreto.

3. O Experimento: O "Botão de Restauração"

Para provar que a informação não havia sido apagada, eles fizeram algo genial:

Pegaram a IA que supostamente havia "esquecido" o bolo.
Usaram o Espelho de Raio-X para encontrar os circuitos do "Bolo Secreto".
Deram um "empurrãozinho" (chamado de steering) nesses circuitos, forçando-os a se comportarem como se a IA nunca tivesse esquecido.

O Resultado: Assim que deram esse empurrão, a IA voltou a fazer o Bolo Secreto com 99% de precisão!
Isso provou que a IA nunca apagou a receita; ela apenas a escondeu.

4. O Que Eles Encontraram?

Eles testaram 12 métodos diferentes de "apagar" dados e descobriram:

A maioria falha: Quase todos os métodos comuns apenas suprimem a resposta. A informação continua viva e recuperável lá no fundo.
Até o "Recomeço" falha: Mesmo quando você retreina a IA do zero (como se fosse um aluno novo), ela ainda lembra do Bolo Secreto! Isso acontece porque a IA aprendeu coisas gerais na internet antes de começar (o "pré-treinamento"). Essas memórias são tão fortes que nem um "recomeço" as apaga.
A única solução real: Para apagar de verdade, você precisa destruir os circuitos específicos no meio da fábrica (as camadas intermediárias), não apenas mudar o que é dito na saída.

5. Por Que Isso Importa?

Imagine que você tem um banco de dados com fotos de pessoas. Você pede para a IA esquecer a foto do "Sr. Silva".

O que os testes antigos diziam: "Ok, a IA não reconhece mais o Sr. Silva quando você mostra a foto dele." (Tudo seguro!)
O que este artigo diz: "Cuidado! Se um hacker souber exatamente como 'empurrar' os circuitos internos da IA, ele pode fazer a IA revelar a foto do Sr. Silva de novo."

Isso é um risco enorme para a privacidade, especialmente porque as IAs são compartilhadas na internet. Se uma IA "apagou" algo de mentira, ela pode ser vendida ou usada por alguém mal-intencionado que consegue recuperar os segredos.

Conclusão Simples

Este artigo nos ensina que não basta a IA dizer que esqueceu. Precisamos garantir que ela realmente apagou a memória do meio.

Os autores sugerem que, no futuro, precisamos de testes mais rigorosos que olhem para dentro da "cabeça" da máquina, e não apenas para o que ela fala. Se não fizermos isso, corremos o risco de distribuir IAs que parecem seguras, mas que na verdade guardam todos os nossos segredos escondidos, esperando apenas um empurrãozinho para serem revelados.

Each language version is independently generated for its own context, not a direct translation.

Título: Supressão ou Deleção: Uma Análise Baseada em Restauração no Nível de Representação do Desaprendizado de Máquina

1. O Problema

Com a proliferação de plataformas de compartilhamento de modelos (como Hugging Face) e a exigência de regulamentações como o GDPR (direito ao esquecimento), o Desaprendizado de Máquina (Machine Unlearning - MU) tornou-se crucial para remover dados sensíveis, privados ou com direitos autorais de modelos pré-treinados.

No entanto, a avaliação atual dos métodos de desaprendizado baseia-se quase exclusivamente em métricas baseadas em saída (output-based metrics), como:

Precisão no conjunto de dados esquecido (forget set).
Eficácia contra ataques de inferência de associação (Membership Inference Attacks - MIAs).

A Lacuna: Essas métricas não conseguem verificar se as informações foram realmente deletadas das representações internas do modelo ou se foram apenas suprimidas (mascaradas na saída, mas mantidas nas camadas intermediárias). A supressão é insuficiente para o desaprendizado verdadeiro, pois as representações semânticas persistem e podem ser recuperadas, criando riscos de privacidade ocultos.

2. Metodologia: O Framework de Análise Baseado em Restauração

Os autores propõem um novo framework para distinguir entre supressão e deleção no nível de representação, utilizando Sparse Autoencoders (SAEs) e steering (direcionamento) em tempo de inferência.

O processo divide-se em duas fases principais:

Seleção de Características (Feature Selection):
- Utilizam SAEs para identificar características "especialistas" (expert features) específicas de cada classe nas camadas intermediárias da rede (onde a informação semântica se concentra).
- O pipeline envolve coletar ativações, filtrar características não informativas, calcular pontuações F1 para discriminação de classe e selecionar as top características.
- Alinham as características entre o modelo original e o modelo desaprendido usando o algoritmo de Hungarian para garantir correspondência correta.
Restauração Seletiva (Selective Restoration):
- Extraem as ativações de uma camada alvo ( $\ell$ ) tanto do modelo original quanto do modelo desaprendido.
- Codificam essas ativações via SAE.
- Realizam a restauração: substituem os valores das características do modelo desaprendido pelos valores do modelo original (usando um coeficiente de direção $\alpha$ ).
- Decodificam a representação restaurada e a propagam pelas camadas restantes do modelo desaprendido.
- Lógica de Avaliação: Se a precisão na classe esquecida aumentar significativamente após o steering, isso indica que a informação foi apenas suprimida (ainda existe na representação). Se a precisão permanecer baixa, houve deleção.

3. Contribuições Principais

Novo Framework de Análise: Introdução de um método quantitativo baseado em restauração que utiliza SAEs para distinguir supressão de deleção real.
Análise Empírica Abrangente: Aplicação do framework a 12 métodos principais de desaprendizado em tarefas de classificação de imagens (CIFAR-10 e ImageNette).
Novas Diretrizes de Avaliação: Proposição de critérios que priorizam a verificação no nível de representação em vez de métricas de saída, essencial para aplicações críticas de privacidade na era de modelos pré-treinados.

4. Resultados Chave

A aplicação do framework revelou descobertas alarmantes sobre o estado atual do desaprendizado:

Predominância da Supressão: A maioria dos métodos de desaprendizado aproximado (como AdvNegGrad, SCRUB, RandomLabel, Finetune, SalUn) apenas suprime as informações. Mesmo alcançando 0% de precisão no conjunto de esquecimento, a precisão é restaurada para níveis próximos ao original (muitas vezes >80% ou 100%) ao injetar as características originais nas camadas intermediárias.
Retenção em Camadas Intermediárias: As representações semânticas específicas da classe permanecem codificadas nas camadas intermediárias (os "gargalos semânticos"), mesmo após o desaprendizado.
O Paradoxo do Retreinamento: Até mesmo o método de Retreinamento (re-treinar o modelo do zero apenas com os dados retidos) mostrou altas taxas de restauração. Isso indica que as características semânticas robustas herdadas do pré-treinamento original não são removidas apenas pelo ajuste de pesos no conjunto de dados retido.
Dependência da Profundidade da Camada: A eficácia da restauração varia conforme a complexidade do dataset. Em datasets mais simples (CIFAR-10), a informação concentra-se em camadas médias; em datasets complexos (ImageNette), concentra-se em camadas mais profundas.
Exceções (Deleção Real): Métodos que realizam modificações estruturais diretas, como o EU-K (que utiliza redefinição de camadas) ou métodos de amortecimento de pesos direcionados (como SSD e Bad-T), conseguiram taxas de restauração próximas de zero, demonstrando deleção efetiva.

5. Significado e Implicações

Risco de Segurança: Modelos que passam nos testes atuais de desaprendizado podem ainda conter "memória" latente de dados sensíveis. Se distribuídos em plataformas web, esses modelos podem ser explorados para recuperar informações privadas.
Ineficácia das Métricas Atuais: Métricas baseadas em saída são enganosas e insuficientes para garantir a privacidade em cenários de modelos pré-treinados.
Novas Diretrizes para o Futuro:
- Design de Métodos: O desaprendizado deve ser "consciente da camada" (layer-aware), focando na modificação direta das representações intermediárias onde a informação semântica reside, e não apenas na função de perda ou saída.
- Avaliação: É necessário implementar auditorias no nível de representação e testes de restauração como padrão para aplicações críticas de privacidade.

Conclusão

O trabalho demonstra que a maioria dos métodos atuais de desaprendizado falha em realizar a deleção real, operando apenas como supressão superficial. A persistência de representações semânticas recuperáveis representa um risco significativo de privacidade. Os autores concluem que a comunidade deve migrar de avaliações baseadas em comportamento de saída para verificações baseadas em mecanismos internos para garantir a segurança na redistribuição de modelos.

Código disponível em: https://github.com/Yurim990507/suppression-or-deletion