Unlearning Evaluation through Subset Statistical Independence

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de receitas muito famoso, escrito por um grupo de chefs. Esse livro ensina a fazer pratos deliciosos. Agora, imagine que um dos chefs, o "Chef João", decide que quer que sua receita secreta de bolo de chocolate seja apagada do livro, talvez porque ele queira vender a receita sozinho ou por questões de privacidade.

O problema é: como você garante que o livro foi realmente editado e que o "Chef João" não deixou nenhum rastro da sua receita? Se você apenas rasgar a página, o livro pode ainda ter "cheiro" de bolo de chocolate nas outras páginas, ou o livro pode ter sido reescrito de forma tão diferente que ficou sem graça.

Até hoje, para verificar se o livro foi limpo de verdade, os especialistas precisavam de duas coisas difíceis:

Reescrever o livro inteiro do zero (o que é caro e demorado) para comparar com a versão editada.
Fazer um interrogatório detalhado em cada receita individual para ver se ela "sabe" que foi ensinada (o que é complexo e muitas vezes falha).

Este novo artigo, apresentado na conferência ICLR 2026, propõe uma maneira muito mais inteligente e simples de fazer essa verificação. Eles chamam seu método de SDE (Avaliação de Dependência Metade-Metade).

A Ideia Principal: O "Efeito Manada"

A ideia central do artigo é baseada em uma observação curiosa: quando um modelo de inteligência artificial (o "livro de receitas") é treinado com um grupo de dados, esses dados aprendem a "dançar juntos".

Dados que treinaram o modelo: Eles compartilham uma "história em comum". Se você pegar duas receitas que foram usadas para treinar o livro, elas têm uma conexão invisível, como se fossem velhas amigas que se conhecem desde a infância. Elas reagem de forma coordenada.
Dados que NÃO treinaram o modelo: Se você pegar receitas que nunca viram o livro, elas são estranhas umas para as outras. Não há essa conexão invisível. Elas são independentes.

Quando um algoritmo de "esquecimento" (unlearning) funciona bem, ele deve quebrar essa conexão. As receitas do "Chef João" devem deixar de ser "amigas" do livro e passar a se comportar como estranhas.

Como o Método Funciona (A Analogia do Espelho)

Em vez de tentar ler cada receita individualmente ou reescrever o livro todo, os autores fazem o seguinte teste:

Dividir ao Meio: Pegue um grupo de receitas suspeitas (as que deveriam ter sido apagadas) e divida-as em dois grupos aleatórios, como se fosse cortar um bolo em duas metades.
O Teste de Espelho: Coloque essas duas metades frente a frente e pergunte: "Elas ainda estão conversando entre si?"
- Se o modelo não esqueceu nada, as duas metades ainda vão "conversar" (ter alta dependência estatística), porque ainda carregam o "cheiro" do treinamento.
- Se o modelo esqueceu de verdade, as duas metades ficarão em silêncio. Elas não terão mais essa conexão especial.

Para medir esse "conversa", eles usam uma ferramenta matemática chamada HSIC (Critério de Independência Hilbert-Schmidt). Pense no HSIC como um detector de mentiras ou um medidor de afinidade. Se o valor for alto, significa que os dados ainda estão "grudados" no modelo (não foram esquecidos). Se for baixo, significa que a conexão foi cortada (o esquecimento funcionou).

Por que isso é revolucionário?

Não precisa do "Livro Original": Você não precisa ter a versão do livro antes de rasgar a página para comparar. O método funciona sozinho, apenas olhando para a versão atual.
Não precisa de interrogatórios individuais: Em vez de perguntar "Você conhece esta receita específica?", o método olha para o grupo todo. É como dizer: "Este grupo de pessoas parece que se conhece?" em vez de perguntar a cada um individualmente.
Funciona mesmo com poucos dados: Métodos antigos falhavam se você tentava apagar apenas 5% dos dados. Este método é tão sensível que consegue detectar se o "esquecimento" funcionou, mesmo que seja apenas uma pequena fatia do bolo.

O Resultado na Prática

Os autores testaram isso em vários cenários, desde reconhecimento de imagens de gatos e cachorros até a criação de imagens por inteligência artificial.

Eles descobriram que muitos métodos que os especialistas achavam que estavam funcionando bem (baseados em testes antigos) na verdade não estavam esquecendo nada. O modelo parecia ter "esquecido", mas as receitas ainda estavam conversando entre si. O novo método SDE conseguiu expor essas falhas, mostrando claramente quais modelos realmente limparam o "cheiro" do Chef João e quais apenas fingiram.

Resumo em uma frase

Este artigo apresenta um novo "detector de rastro" que verifica se uma inteligência artificial realmente esqueceu um pedaço de sua memória, analisando se os dados apagados ainda têm uma "conexão secreta" com o resto do sistema, sem precisar reescrever o sistema do zero. É como checar se um fantasma saiu de casa olhando se a porta ainda está trancada, em vez de revirar toda a casa.

Each language version is independently generated for its own context, not a direct translation.

Título: Avaliação de Esquecimento (Unlearning) Através da Independência Estatística de Subconjuntos

1. O Problema

A avaliação da eficácia do Machine Unlearning (aprendizado de máquina com esquecimento) permanece um desafio significativo. O objetivo do unlearning é remover a influência de amostras específicas de treinamento (dados de esquecimento) de um modelo já treinado, atendendo a requisitos de privacidade (como o "direito ao esquecimento") ou segurança (remoção de backdoors).

As limitações dos métodos de avaliação existentes incluem:

Dependência de Retreinamento: A maioria das abordagens compara o modelo "esquecido" com um modelo retreinado do zero usando apenas os dados restantes. Isso é impraticável em cenários reais onde o retreinamento é custoso ou impossível.
Ataques de Inferência de Membro (MIA): Métodos baseados em MIA frequentemente exigem acesso a estatísticas internas de treinamento (como distribuições de perda ou intervalos de confiança), modelos sombra treinados com a mesma distribuição de dados ou rótulos de supervisão, o que raramente está disponível em avaliações post-hoc.
Foco em Amostra Individual: As abordagens atuais tentam inferir se uma única amostra foi treinada, o que é estatisticamente fraco quando o unlearning remove um subconjunto pequeno e aleatório (5%–20%) dos dados, pois os sinais individuais (como perda ou confiança) tornam-se ambíguos após o esquecimento.

2. Metodologia Proposta: SDE (Split-half Dependence Evaluation)

Os autores propõem uma mudança de paradigma: em vez de avaliar amostras individuais, avaliam a dependência estatística em nível de subconjunto. A premissa central é que a participação no treinamento induz dependências inter-amostrais nas representações internas do modelo devido a atualizações de gradiente compartilhadas e co-adaptação. Dados nunca vistos (fora do treinamento) não deveriam exibir essa dependência.

A metodologia baseia-se em três pilares principais:

Critério de Independência de Hilbert-Schmidt (HSIC):
- Utilizam o HSIC, uma medida baseada em kernels para quantificar a dependência estatística entre duas variáveis aleatórias.
- O valor do HSIC é zero se as variáveis forem independentes e maior se houver dependência.
Teste de Dependência "Split-half" (Metade-Metade):
- Dado um subconjunto alvo $S$ e um modelo $h$ , o subconjunto é dividido aleatoriamente em duas metades iguais, $S_1$ e $S_2$ .
- Calcula-se o HSIC entre as ativações das duas metades: $H(S, h) = \text{HSIC}(h(S_1), h(S_2))$ .
- Hipótese: Se $S$ foi parte dos dados de treinamento, $S_1$ e $S_2$ compartilharão uma "pegada" comum nos parâmetros do modelo, resultando em alta dependência ( $H(S, h)$ alto). Se $S$ não foi treinado, as metades serão independentes ( $H(S, h)$ próximo de zero).
Protocolo de Avaliação Sem Retreinamento:
- O método não requer um modelo retreinado de referência.
- Utiliza conjuntos de referência pequenos e conhecidos: um conjunto de dados dentro do treinamento ( $S_{IT}$ ) e um conjunto fora do treinamento ( $S_{OOT}$ ).
- A eficácia do unlearning é determinada comparando a distribuição de dependência do subconjunto de esquecimento ( $S_{tar}$ ) com as distribuições de referência. Se $S_{tar}$ for estatisticamente mais próximo de $S_{OOT}$ do que de $S_{IT}$ , o unlearning é considerado bem-sucedido.
- A distância entre distribuições é medida usando a Divergência de Jensen-Shannon (JSD).

3. Contribuições Chave

Avaliação Autônoma: Elimina a necessidade de retreinar modelos de referência ou treinar classificadores auxiliares (atacantes), tornando o processo viável em cenários de implantação real.
Foco em Subconjuntos: Aborda a limitação estatística de avaliar amostras individuais, focando na dependência coletiva de um grupo de dados, o que é mais robusto e alinhado com os fluxos de trabalho de unlearning.
Análise Teórica e Empírica: Fornecem uma análise matemática (Apêndice A) demonstrando que a dependência surge de um componente de influência compartilhada ( $\Delta\theta_S$ ) introduzido durante o treinamento, que persiste nas representações do modelo.
Robustez: O método funciona em diferentes camadas do modelo (não apenas na saída final), em diferentes arquiteturas e mesmo em modelos parcialmente treinados.

4. Resultados Experimentais

Os autores realizaram extensos experimentos em datasets como SVHN, CIFAR-10, CIFAR-100 e Tiny-ImageNet, utilizando arquiteturas como AllCNN e ResNet-18, além de modelos de difusão (EDM).

Distinção In/Out-of-Training: O método consegue distinguir com alta precisão (F1 > 0.9 em muitos casos) entre subconjuntos treinados e não treinados. A dependência é significativamente maior para dados de treinamento sob um modelo treinado, enquanto modelos aleatórios não mostram essa diferença.
Comparação com Métricas Existentes:
- O SDE superou consistentemente métricas baseadas em distância de distribuição (como MMD e Distância de Wasserstein), especialmente em subconjuntos menores.
- Em comparação com a taxa de sucesso de ataques de inferência de membro (ASR), o SDE revelou falhas em métodos de unlearning que pareciam eficazes sob a ASR.
Avaliação de Algoritmos de Unlearning:
- Ao testar algoritmos como Random-label, Unroll, SalUn e Sparsity, o SDE identificou que o método Unroll, embora tenha alta precisão e baixa ASR, falha em remover a influência dos dados (baixa taxa de "out-of-training" - OTR).
- Em contraste, o método Random-label mostrou alta eficácia de esquecimento segundo o SDE.
Robustez a Hiperparâmetros: O método é robusto a diferentes tamanhos de subconjunto e proporções de esquecimento (5% a 20%). A escolha do parâmetro de largura de banda do kernel ( $\sigma$ ) é crítica, mas heurísticas simples (como $\sigma = \sqrt{dim}$ ) funcionam bem na maioria dos casos.

5. Significado e Impacto

Este trabalho representa um avanço crucial na área de privacidade e segurança de IA:

Mudança de Paradigma na Avaliação: Propõe uma mudança de métricas baseadas em "similaridade com retreinamento" ou "ataques de inferência" para uma avaliação baseada em independência estatística intrínseca.
Viabilidade Prática: Oferece uma ferramenta de auditoria que pode ser aplicada por terceiros sem acesso aos dados originais de treinamento, hiperparâmetros ou capacidade de retreinar o modelo.
Revelação de Falhas Ocultas: Demonstra que métricas tradicionais (como ASR) podem superestimar a eficácia do unlearning, enquanto o SDE fornece evidências mais claras e confiáveis de que os dados foram realmente "esquecidos" pelo modelo.
Aplicabilidade Geral: A abordagem é válida tanto para modelos discriminativos (classificação) quanto generativos (difusão), sugerindo uma solução unificada para a avaliação de unlearning.

Em resumo, o SDE oferece um procedimento de avaliação simples, robusto e independente, que alinha a verificação de unlearning com a realidade de cenários de implantação onde o retreinamento e o acesso a dados completos não são opções.

Unlearning Evaluation through Subset Statistical Independence

A Ideia Principal: O "Efeito Manada"

Como o Método Funciona (A Analogia do Espelho)

Por que isso é revolucionário?

O Resultado na Prática

Resumo em uma frase

Título: Avaliação de Esquecimento (Unlearning) Através da Independência Estatística de Subconjuntos

1. O Problema

2. Metodologia Proposta: SDE (Split-half Dependence Evaluation)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank