Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha famoso e quer criar o prato perfeito. Você tem uma receita secreta (seus dados privados, como fotos de família ou registros médicos) que você não pode mostrar a ninguém por questões de privacidade. Mas você também não quer cozinhar apenas com o que tem na sua despensa, porque é pouco.

Então, você decide usar sua receita secreta apenas para escolher os melhores ingredientes de um mercado público gigante (o "Data Pool"). Você olha para seus ingredientes secretos, pensa: "Ah, esse tomate aqui combina muito com o meu prato secreto", e pega esse tomate do mercado. Você faz isso com vários ingredientes, cria uma lista de compras (o "Conjunto Curado") e, finalmente, cozinha seu prato usando apenas essa lista de compras.

A lógica parecia perfeita: "Como eu nunca cozinhei com meus ingredientes secretos, ninguém pode saber o que eles eram, certo?"

A má notícia: Este novo artigo de pesquisa, apresentado na conferência ICLR 2026, diz que não é assim que funciona. Mesmo que você nunca use os ingredientes secretos na panela final, o simples ato de escolher quais ingredientes comprar vaza segredos sobre a sua receita original.

Os pesquisadores chamam isso de "Curation Leaks" (Vazamentos de Curadoria). Eles mostraram que um "detetive" (o atacante) pode descobrir quais ingredientes estavam na sua lista secreta apenas observando três coisas:

1. A Lista de Pontuações (O "Radar de Combinação")

Antes de comprar, você calculou uma nota para cada ingrediente do mercado: "Quão bem este tomate combina com meu prato secreto?".

A Analogia: Imagine que você tem um radar que mede a afinidade entre cada item do mercado e seus segredos.
O Vazamento: Se o seu radar diz "Tomate X tem nota 9.9", o detetive sabe imediatamente que o "Tomate X" é muito parecido com algo que você tem em segredo. Em alguns métodos (chamados de "baseados em imagem"), é como se você tivesse dito em voz alta: "O tomate X é o meu melhor amigo secreto!". O atacante pode reverter esse cálculo e descobrir exatamente o que estava na sua lista.

2. A Lista de Compras Final (O "Carrinho de Supermercado")

Você comprou apenas os ingredientes que tiveram as notas mais altas.

A Analogia: O detetive não vê suas anotações, mas vê o que você colocou no carrinho.
O Vazamento: Se o detetive sabe que você só compra os 100 melhores tomates, e ele vê que o "Tomate X" está no seu carrinho, ele deduz que o "Tomate X" deve ser muito parecido com o seu segredo. O artigo mostra que, mesmo sem ver as notas, apenas vendo o que foi escolhido, o atacante pode reconstruir grande parte da sua lista secreta, especialmente se a lista secreta for pequena.

3. O Prato Final (O "Modelo Treinado")

Aqui é onde fica mais sutil. Você cozinha o prato final usando apenas os ingredientes do mercado.

A Analogia: O prato final tem um "sabor" único.
O Vazamento: Os pesquisadores inventaram um truque genial. Eles "envenenaram" o mercado público com ingredientes falsos, mas com um rótulo estranho (ex: uma foto de um gato com a legenda "isto é uma pizza"). Se o seu prato secreto tiver um gato, a curadoria vai escolher essa foto estranha com mais frequência. Quando o prato final é servido, ele terá um "gosto" de pizza onde deveria ter gato. O atacante prova o prato e diz: "Hum, esse prato tem gosto de pizza... isso só acontece se o chef tivesse um gato secreto!". Assim, eles descobrem o segredo sem nunca terem visto a receita.

Por que isso importa?

Muitas empresas e pesquisadores estão usando essa técnica de "curadoria" para treinar Inteligência Artificial em áreas sensíveis, como medicina e finanças, achando que é seguro porque não usam os dados sensíveis diretamente no treinamento.

Este estudo diz: Cuidado! O processo de seleção em si é vulnerável.

Se você tem um conjunto de dados pequeno e sensível (como um hospital com poucos pacientes), o risco é enorme.
Métodos que usam "médias" (como o TRAK) são um pouco mais seguros, mas ainda vazam informações se o grupo de dados for pequeno.

A Solução?

Os autores sugerem usar Privacidade Diferencial (Differential Privacy).

A Analogia: É como adicionar um pouco de "ruído" ou "neblina" nas suas notas antes de escolher os ingredientes. Você ainda escolhe os melhores tomates, mas a nota exata fica um pouco borrada. Isso impede que o detetive saiba com certeza se o "Tomate X" era o seu favorito absoluto ou apenas um bom tomate.

Resumo da Ópera:
Não basta esconder os dados sensíveis e usar apenas dados públicos. O processo de escolha também deixa rastros. Se você está curando dados para treinar uma IA, precisa proteger não só o treinamento, mas também a etapa de seleção, ou seus segredos podem ser descobertos apenas olhando para o que foi escolhido.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Privacidade na Curadoria de Dados

A curadoria de dados tornou-se um componente essencial em pipelines de aprendizado de máquina modernos, visando selecionar subconjuntos de dados de alto valor para melhorar a precisão do modelo e a eficiência computacional. Recentemente, a curadoria foi proposta como uma solução para aprendizado de máquina privado: em vez de treinar diretamente em dados sensíveis (o que pode vazar informações através das previsões do modelo), os dados privados são usados apenas para guiar a seleção de dados públicos úteis. O modelo final é treinado exclusivamente nesse conjunto público curado.

A premissa intuitiva é que, como o modelo final nunca "viu" os dados privados, a privacidade está preservada. No entanto, este trabalho demonstra que essa suposição é falsa. O processo de curadoria em si (cálculo de pontuações, seleção do subconjunto e o modelo treinado) pode vazar informações de pertencimento (membership) sobre o conjunto de dados privado que orientou a seleção.

2. Metodologia e Cenário de Ameaça

Os autores propõem um estudo sistemático de ataques de inferência de pertencimento (Membership Inference Attacks - MIAs) contra pipelines de curadoria.

Cenário de Ameaça:

Objetivo do Adversário: Determinar se uma amostra específica $t$ pertence ao conjunto de dados privado $T$ (usado para curadoria), e não se ela estava no conjunto de treinamento do modelo final.
Conhecimentos do Adversário:
1. O conjunto de dados público completo $D$ .
2. O conjunto de dados alvo $T$ (o adversário conhece as amostras que deseja testar).
3. O algoritmo de curadoria utilizado (ex: baseado em embeddings ou TRAK).
Superfícies de Ataque: O adversário pode observar três estágios diferentes:
1. Pontuações de Curadoria (Scores): Valores contínuos atribuídos aos dados públicos.
2. Máscaras de Seleção (Subconjuntos): Apenas a informação binária de quais dados públicos foram selecionados.
3. Modelo Final Treinado: Acesso de caixa-preta ao modelo treinado no conjunto curado.

Métodos de Curadoria Analisados:

Curadoria Baseada em Embeddings de Imagem (Image-based): Usa similaridade de cosseno entre embeddings (ex: CLIP) de dados públicos e privados. A pontuação de um dado público é a máxima similaridade com qualquer dado privado.
TRAK (Tracing with the Randomly-projected After Kernel): Usa funções de influência baseadas em gradientes projetados para atribuir pontuações de influência aos dados públicos em relação ao conjunto privado.

3. Contribuições Principais e Técnicas de Ataque

Os autores desenvolveram 7 ataques distintos cobrindo os três estágios do pipeline:

A. Ataques Baseados em Pontuações (Scores)

LiRA Adaptado (Likelihood Ratio Attack): Adaptação do LiRA clássico, onde "modelos sombra" são substituídos por "execuções de curadoria sombra". O adversário executa a curadoria em subconjuntos aleatórios de $T$ para modelar as distribuições de pontuação para membros e não-membros.
Votação Personalizada (Image-based): Explora a estrutura determinística de vizinho mais próximo. O adversário pode reverter a pontuação para identificar exatamente qual amostra privada foi o vizinho mais próximo de uma amostra pública, acumulando votos para inferir pertencimento.
Mínimos Quadrados (TRAK): Como as pontuações do TRAK são combinações lineares das contribuições de cada alvo, o ataque resolve um sistema linear para recuperar a máscara de pertencimento que melhor explica as pontuações observadas.

B. Ataques de Seleção de Subconjunto (Binary Selection)

LiRA Binário: Adapta o LiRA para o cenário onde apenas a seleção binária (incluído/não incluído) é observada, modelando a probabilidade de seleção como uma distribuição Bernoulli.
Votação Iterativa (Image-based): Um algoritmo que refina iterativamente uma hipótese do conjunto alvo. O adversário compara o subconjunto curado observado com o gerado por sua hipótese, ajustando os votos de pertencimento com base em amostras "sobrecarregadas" ou "subcarregadas".

C. Ataques End-to-End (Modelo Final)

Injeção de "Fingerprint" (Impressão Digital): O adversário injeta uma pequena quantidade de amostras manipuladas (fingerprinted) no pool de dados públicos antes da curadoria.
- Mecanismo: Essas amostras são projetadas para serem selecionadas se e somente se um alvo específico estiver presente no conjunto privado.
- Detecção: Se o modelo final for treinado com essas amostras, ele exibe um sinal mensurável (ex: alta probabilidade em conceitos semanticamente não relacionados) que o adversário pode detectar via consulta ao modelo, inferindo assim a presença do alvo no conjunto de curadoria.
- Viabilidade: O ataque funciona mesmo com uma taxa de envenenamento extremamente baixa (0,0005%).

4. Resultados Experimentais

Os experimentos foram realizados em 6 conjuntos de dados (CIFAR-10/100, Food101, PCAM, RESISC45, STL-10) e um pool público de 12,8 milhões de amostras.

Curadoria Baseada em Imagens (Image-based):
- Extremamente Vulnerável: Os ataques de pontuação e seleção alcançam altas taxas de sucesso (TPR > 90% em alguns casos com FPR baixo).
- Causa: A estrutura de vizinho mais próximo cria uma relação determinística direta. Amostras privadas que são vizinhos de dados públicos expõem diretamente sua presença.
- Esparsidade: A vulnerabilidade é correlacionada com a densidade de vizinhos; conjuntos onde muitos dados públicos têm um vizinho privado são mais vulneráveis.
Curadoria TRAK:
- Proteção Natural (em grande escala): Devido ao mecanismo de média (averaging) dos gradientes, o TRAK dilui o sinal de pertencimento individual. Em grandes conjuntos de dados, o ataque é quase aleatório (AUC $\approx$ 0.5).
- Vulnerabilidade em Pequena Escala: Em conjuntos de dados privados pequenos (comuns em domínios sensíveis como saúde), o efeito de média é fraco, tornando o TRAK altamente vulnerável a ataques de inferência.
Ataques End-to-End:
- Confirmou-se que mesmo modelos treinados apenas em dados públicos curados vazam informações sobre os dados privados que guiaram a curadoria.
- A injeção de fingerprints é eficaz e realista, dado que dados públicos são frequentemente raspados da internet e podem ser manipulados.
Ablação de Tamanho do Conjunto Alvo:
- Para o TRAK, o sucesso do ataque cai drasticamente à medida que o tamanho do conjunto alvo aumenta.
- Para a curadoria baseada em imagens, o vazamento persiste em todas as escalas, embora a proporção de amostras expostas diminua.

5. Mitigação e Defesas

O estudo avalia a Privacidade Diferencial (DP) como defesa:

DP para Image-based: Adição de ruído gaussiano ao mecanismo de "Report Noisy Max" (para a pontuação de vizinho mais próximo) ou cálculo de média com ruído.
DP para TRAK: Privatização do cálculo da média dos gradientes.
Resultados: A aplicação de DP (com $\epsilon = 10$ ) reduz o sucesso do ataque para níveis próximos da linha de base (aleatória), mitigando efetivamente o vazamento.
Remoção de Amostras: A remoção das amostras mais vulneráveis não é uma defesa eficaz. Para a curadoria baseada em imagens, isso cria um "efeito cebola" (privacy onion effect), onde a remoção expõe amostras que antes estavam protegidas.

6. Significado e Conclusão

Este trabalho revela uma lacuna crítica na segurança da privacidade em ML: a curadoria de dados não é inerentemente privada.

Risco Sistêmico: O vazamento ocorre em todas as etapas (pontuações, seleção e modelo final), desafiando a suposição de que o uso de dados públicos como intermediário protege os dados privados.
Implicações Práticas: Em domínios sensíveis (saúde, finanças) onde conjuntos de dados são pequenos e a curadoria é essencial, os riscos de privacidade são altos, especialmente com métodos baseados em embeddings.
Direção Futura: A avaliação de privacidade deve se estender além do treinamento do modelo para incluir todo o processo de seleção de dados. A implementação de garantias formais, como Privacidade Diferencial, é necessária para tornar os pipelines de curadoria seguros.

Em resumo, o artigo demonstra que sem proteções adicionais, a curadoria de dados pode ser um vetor de ataque que compromete a confidencialidade dos dados sensíveis que ela pretende proteger.

Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning

1. A Lista de Pontuações (O "Radar de Combinação")

2. A Lista de Compras Final (O "Carrinho de Supermercado")

3. O Prato Final (O "Modelo Treinado")

Por que isso importa?

A Solução?

1. O Problema: Privacidade na Curadoria de Dados

2. Metodologia e Cenário de Ameaça

3. Contribuições Principais e Técnicas de Ataque

A. Ataques Baseados em Pontuações (Scores)

B. Ataques de Seleção de Subconjunto (Binary Selection)

C. Ataques End-to-End (Modelo Final)

4. Resultados Experimentais

5. Mitigação e Defesas

6. Significado e Conclusão

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank