Human-Centred LLM Privacy Audits: Findings and Frictions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um espelho mágico chamado Inteligência Artificial (IA). Esse espelho não reflete apenas o seu rosto; ele tenta adivinhar quem você é, onde mora, o que gosta e até o que você pensa, baseando-se em tudo o que a IA "leu" na internet sobre pessoas com o seu nome.

O problema? Você não sabe o que esse espelho está vendo. Ele pode estar mostrando informações corretas, mas também pode estar inventando coisas ou misturando sua vida com a de um famoso que tem o mesmo nome.

Este artigo, escrito por pesquisadores da Alemanha e dos EUA, apresenta uma nova ferramenta chamada LMP2 e os resultados de um estudo sobre como podemos "auditar" (ou seja, checar) o que essas IAs sabem sobre nós.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Espelho que Fala (O que é o LMP2?)

Os pesquisadores criaram uma ferramenta chamada LMP2. Pense nela como um detector de mentiras ou um raio-X para a sua privacidade na IA.

Como funciona: Você entra no site, digita seu nome e escolhe algumas características (como "cor dos olhos", "profissão" ou "cidade onde mora").
A mágica: A ferramenta faz milhares de perguntas sutis para a IA (como "Onde [Seu Nome] mora?") e analisa as respostas. Ela não pede a resposta direta, mas sim tenta "completar frases" para ver o que a IA pensa que é verdade.
O resultado: Ela te mostra um cartão com uma lista: "A IA acha que você mora em X com 80% de certeza" ou "A IA acha que você gosta de Y".

2. O que eles descobriram? (Os achados)

Eles testaram essa ferramenta em 458 pessoas e em 8 modelos diferentes de IA (como o GPT-4o).

Para Famosos: A IA é um detetive muito bom para celebridades. Se você é famoso, a IA sabe quase tudo sobre você (religião, orientação sexual, endereço) com muita precisão, porque há muita informação na internet.
Para Pessoas Comuns: A IA é um adivinho com sorte. Para pessoas comuns, ela acerta coisas básicas (como gênero ou idioma nativo) em cerca de 60% dos casos. Mas, quando não sabe, ela chuta.
- Analogia: Se você perguntar a um palhaço qual é o seu número de telefone e ele não souber, ele pode inventar um número aleatório e dizer com 100% de certeza que é o seu. Isso é perigoso.
O Chute Perigoso: A IA pode inventar detalhes sensíveis (como "você tem uma doença X" ou "você mora em Y") e ter tanta confiança na mentira que parece verdade.

3. O Dilema das Pessoas (O que os usuários sentiram)

Os pesquisadores perguntaram às pessoas: "Isso é um problema de privacidade?"

A Surpresa: A maioria das pessoas não achou que as respostas corretas eram uma violação de privacidade. Elas pensaram: "Ah, é só a IA lembrando de coisas que eu publiquei".
O Medo Real: No entanto, 72% das pessoas queriam ter o poder de apagar ou corrigir o que a IA diz sobre elas.
- Analogia: Imagine que alguém escreveu um diário sobre você na internet. Você não se importa se o diário está correto, mas você quer ter uma borracha na mão caso alguém escreva algo errado ou que você não queira que ninguém leia.

4. Os 9 Obstáculos (Por que é difícil consertar isso?)

O artigo lista vários "atritos" (dificuldades) que tornam esse processo complicado:

A IA é um Camaleão: A resposta muda dependendo de como você pergunta. Se você mudar uma palavra na pergunta, a IA pode dar uma resposta diferente. Isso torna difícil provar que ela "sabe" algo de verdade.
Memória vs. Adivinhação: Às vezes a IA "lembrou" de um fato real (memorizou). Outras vezes, ela apenas "adivinhou" baseado em estereótipos (ex: "homens com esse nome geralmente são engenheiros"). É muito difícil saber a diferença só olhando a resposta.
O Espelho Quebrado: Nomes comuns podem confundir a IA. Se você se chama "João Silva", a IA pode misturar sua vida com a de um João Silva famoso.
A Verdade Muda: Você pode ter mudado de emprego ou cidade. A IA pode estar "atualizada" com uma versão antiga de você, criando uma realidade falsa sobre quem você é hoje.
Falta de Tradução: A ferramenta funciona bem em inglês, mas pode falhar em outras línguas ou culturas, ignorando nuances importantes.

5. Conclusão: O que precisamos fazer?

O estudo conclui que a IA está criando uma "crise de avaliação". Como as respostas são probabilísticas (chances) e não fatos absolutos, é difícil exigir que as empresas "consertem" o erro.

A lição principal:
Precisamos de ferramentas que não apenas mostrem o que a IA sabe, mas que nos deem controle. Precisamos de um botão de "editar" ou "apagar" para o que a IA pensa sobre nós, assim como temos para nossas fotos no Instagram.

Em resumo: A IA está construindo uma versão digital de você. Às vezes ela acerta, às vezes ela inventa. E nós, os donos dessa versão, precisamos ter a chave para corrigir o que está errado.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) aprendem associações estatísticas a partir de corpora massivos e interações de usuários, podendo inferir ou revelar informações sensíveis sobre indivíduos. No entanto, existe uma lacuna crítica: as pessoas não possuem meios práticos para inspecionar o que um modelo associa ao seu nome ou identidade.

Limitações Atuais: As auditorias de privacidade organizacionais não revelam associações específicas do modelo (como traços inferidos ou dados de memória) para indivíduos. Os controles de "memória" em aplicativos comerciais gerenciam apenas memórias explícitas, não as associações condicionadas ao nome ou inferências latentes no nível do modelo.
Riscos: Essas associações podem violar a integridade contextual, causar danos individuais (exposição, discriminação) e concentrar poder informacional.
Desafio Técnico: A saída dos LLMs é estocástica, sensível à elicitação (como o prompt é formulado) e muitas vezes opera como uma "caixa preta", dificultando a distinção entre memorização real, inferência contextual e palpites baseados em médias populacionais.

2. Metodologia e Ferramenta (LMP2)

Os autores introduzem o LMP2 (Language Model Privacy Probe), uma ferramenta de auditoria baseada em navegador projetada para usuários finais.

Abordagem de Sondagem (Probing): O método adapta a técnica de "canários" (frases curtas que assertam uma tripla sujeito-propriedade-valor) para APIs de caixa preta.
Mecanismo de Fragmentação: Como as APIs comerciais não expõem probabilidades completas para strings arbitrárias, o LMP2 reformula a tarefa:
1. Os valores de verdade (ground truth) fornecidos pelo usuário são truncados para um prefixo de dois caracteres.
2. O sistema gera 20 prefixos contrafatuais aleatórios.
3. O modelo é instruído a completar apenas a última palavra(s) corrigida.
4. Isso é feito com até 5 paráfrases de baixa ambiguidade para cada propriedade.
Métricas de Saída: O sistema agrega os resultados para gerar duas métricas para o usuário:
- Força de Associação: Combina a frequência de produção de um valor com sua probabilidade média (ou peso de voto), normalizada entre os principais candidatos.
- Confiança (Confidence): Mede o quão concentrada está a evidência (se as saídas convergem para um único valor ou permanecem dispersas).
Estudos Empíricos:
- Avaliação Técnica: Teste em 8 LLMs (3 open-source e 5 via API, incluindo GPT-4o, GPT-5, Gemini, etc.) usando dois conjuntos de sujeitos: Famosos (100 figuras públicas com dados verificáveis) e Sintéticos (100 nomes não existentes).
- Estudos com Usuários: Dois estudos baseados em ferramentas e uma pesquisa com residentes da UE ( $N_{total} = 458$ ), onde os usuários auditaram suas próprias associações e forneceram feedback sobre precisão e privacidade.

3. Principais Resultados

A. Desempenho dos Modelos (Dados Técnicos)

Separação por Sujeito: Há uma separação clara de confiança entre indivíduos famosos e sintéticos. Modelos exibem associações estáveis condicionadas ao nome para pessoas com alta presença na web, enquanto tendem a "palpites" para nomes inexistentes.
Precisão Variável:
- Atributos de baixa cardinalidade ou correlacionados ao nome (ex.: sexo/gênero, língua nativa) apresentam alta precisão.
- Atributos de classe aberta ou relacionais (ex.: patrimônio líquido, padrasto) têm desempenho fraco.
- GPT-4o: No estudo com usuários, previu corretamente 11 de 50 características com $\ge 60\%$ de precisão (incluindo 94,4% para sexo/gênero e 82,9% para orientação sexual).
Erros de Alta Confiança: Modelos frequentemente fazem palpites enviesados com alta confiança (ex.: assumir "ambidestro" para destreza manual ou "+1" para números de telefone) quando as associações condicionadas ao nome são fracas.

B. Percepções e Comportamento dos Usuários

Interesse vs. Ação: 60% dos participantes expressaram interesse em uma ferramenta de autoauditoria. No entanto, ao usar a ferramenta, eles evitaram selecionar características de alta sensibilidade (como número de telefone ou condições médicas, escolhidas por <3%), preferindo traços físicos ou demográficos menos sensíveis.
Percepção de Violação: Curiosamente, 87% das saídas não foram vistas como violações de privacidade, mesmo quando as previsões do modelo eram precisas.
Desejo de Controle: Apesar de não verem tudo como violação, 72% dos participantes desejavam a opção de apagar ou corrigir informações geradas pelo modelo sobre eles.

4. Contribuições e "Atritos" (Frictions)

O artigo identifica nove atritos fundamentais que dificultam auditorias de privacidade centradas no humano, contribuindo para uma "crise de avaliação" em IA generativa:

Lacuna de Tradução: Dificuldade em traduzir avaliações técnicas isoladas (ex.: extração de dados) em autoauditorias acionáveis para usuários.
Ambiguidade do Escopo: Falta de clareza sobre o que constitui uma "associação" (memorização vs. inferência vs. palpite) e o que a auditoria pode certificar legalmente.
Viés do Contexto do Estudo: A dependência de autoexposição voluntária leva a uma subobservação de categorias de alto risco (usuários evitam testar dados sensíveis).
Entrelaçamento de Mecanismos: É impossível distinguir, apenas pela saída, se o modelo memorizou um dado, inferiu de pistas contextuais ou usou priors populacionais.
Identificação Indireta e Ambiguidade de Nomes: Nomes comuns podem puxar associações enviesadas de pessoas famosas, e o contexto necessário para desambiguar pode introduzir novos vieses.
Múltiplas Verdades e Deriva Temporal: Atributos pessoais mudam com o tempo; a inconsistência nas saídas do modelo não elimina o risco, apenas destaca a natureza probabilística.
Além de Atributos Fatos Normativos: A privacidade envolve perfis inferidos e julgamentos subjetivos, não apenas fatos discretos, complicando a definição de "verdade" para auditoria.
Cobertura Linguística: A ferramenta atual é limitada ao inglês e script latino, ignorando como a tokenização e a representação variam em outros idiomas.
Sistemas Implantados: O uso de ferramentas externas (RAG, busca na web) torna a atribuição de responsabilidade opaca, pois a mesma pergunta pode gerar respostas diferentes dependendo do contexto de recuperação.

5. Significado e Conclusão

O trabalho demonstra que auditorias baseadas em saída estabelecem associações, mas não provam proveniência. Um dado correto pode ser um erro afortunado ou uma memorização real; ambos geram riscos de privacidade ao serem vinculados a uma identidade.

Recomendações: Para avançar, as auditorias devem definir explicitamente o escopo (o que conta como associação), comunicar a estabilidade das saídas através de diferentes prompts e fornecer evidências temporais (metadados) para suportar contestação legal e correção.
Impacto: O estudo destaca que a auditoria de privacidade em LLMs não é apenas um problema de medição técnica, mas um desafio de design socio-técnico que requer novas interfaces e frameworks legais para lidar com a natureza probabilística e contextual da IA generativa.

O artigo conclui que, sem resolver esses atritos, as auditorias correm o risco de identificar problemas sem habilitar intervenções significativas ou responsabilização.

Human-Centred LLM Privacy Audits: Findings and Frictions

1. O Espelho que Fala (O que é o LMP2?)

2. O que eles descobriram? (Os achados)

3. O Dilema das Pessoas (O que os usuários sentiram)

4. Os 9 Obstáculos (Por que é difícil consertar isso?)

5. Conclusão: O que precisamos fazer?

1. O Problema

2. Metodologia e Ferramenta (LMP2)

3. Principais Resultados

A. Desempenho dos Modelos (Dados Técnicos)

B. Percepções e Comportamento dos Usuários

4. Contribuições e "Atritos" (Frictions)

5. Significado e Conclusão

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance