No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor que quer saber se um aluno trapaceou na prova. O aluno estudou as respostas da prova antes de fazer o teste. Como você descobre isso?

Um método novo, chamado CDD (Detectar Contaminação pela Distribuição de Respostas), foi criado recentemente para grandes modelos de IA. A ideia era brilhante: se o aluno (a IA) "decoreu" a resposta, ele vai dar a mesma resposta exata toda vez que você fizer a mesma pergunta, mesmo que você peça para ele tentar de formas diferentes. O CDD olha para a "repetição" das respostas. Se for tudo igual, ele grita: "Ei, isso foi decorado!".

Mas o artigo que você enviou revela um grande problema: esse método falha completamente em modelos de IA menores e mais modernos.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema do "Aluno que Entende, mas não Decora"

O estudo testou modelos pequenos (de 70 milhões a 410 milhões de parâmetros) que foram treinados com dados "vazados" (a prova de verdade).

O Cenário: Eles usaram uma técnica de treinamento chamada LoRA (que é como dar ao aluno apenas um caderno de anotações pequeno, em vez de permitir que ele reescreva todo o livro).
O Resultado: O aluno aprendeu o conteúdo! Ele resolveu os problemas corretamente. Mas, quando você pediu para ele responder a mesma pergunta 50 vezes de formas levemente diferentes, ele não deu a mesma resposta. Ele variou um pouco, como um humano faria.
A Falha do CDD: Como as respostas não eram idênticas, o método CDD disse: "Tudo limpo! Nada foi decorado". Mas a mentira estava lá! O aluno sabia a resposta, só não a repetiu como um robô.

Analogia: Imagine que você pergunta a um amigo: "Qual é a capital da França?".

Memorização Total (CDD funciona): Ele responde "Paris" 50 vezes, exatamente igual, sem pensar.
Aprendizado Real (CDD falha): Ele responde "Paris", depois "A capital é Paris", depois "Paris, na França". Ele sabe a resposta, mas o CDD acha que ele não sabe porque as frases são diferentes.

2. O "Limiar da Decoreba"

O estudo descobriu que existe um limiar (uma linha invisível).

Se o treinamento for "leve" (poucos parâmetros ajustados ou pouco tempo de estudo), o modelo aprende, mas não decora. O CDD fica cego.
Só quando o treinamento é "pesado" (muito poder de processamento ou muito tempo), o modelo começa a "travar" na resposta exata. Só aí o CDD funciona.

É como se o CDD só conseguisse detectar trapaça se o aluno estivesse tão nervoso que repetisse a resposta como um papagaio. Se o aluno estiver calmo e inteligente, mas trapaceiro, o CDD não vê nada.

3. A Solução Mais Simples e Eficaz

O artigo compara o CDD com outros métodos mais antigos, como medir a Perplexidade (que é basicamente medir o "nível de surpresa" do modelo).

A Analogia da Surpresa: Se você pergunta a um modelo que nunca viu uma pergunta, ele fica confuso e gagueja (alta perplexidade). Se ele já viu a pergunta (mesmo que não a tenha decorado palavra por palavra), ele responde com confiança e fluidez (baixa perplexidade).
O Veredito: Os métodos baseados em "surpresa" (Perplexidade e Min-k% Prob) funcionaram sempre, mesmo quando o CDD falhou. Eles detectaram a trapaça mesmo quando o aluno estava "inteligente" e variando as respostas.

4. Por que isso importa?

Hoje em dia, quase todo mundo usa modelos pequenos e técnicas de treinamento leves (como LoRA) para adaptar IAs a tarefas específicas.

O Perigo: Se as empresas usarem apenas o método CDD para checar se seus modelos foram treinados com dados de testes (o que é proibido e enganoso), elas vão pensar que estão seguras. Mas, na verdade, o modelo pode estar "vazado" e trapaceando, e o CDD não vai avisar.
A Lição: Não confie apenas na "repetição perfeita" para achar trapaça. Às vezes, o trapaceiro é inteligente e variado. Métodos que medem a "confiança" interna do modelo (probabilidades) são muito melhores para pegar esses casos.

Resumo em uma frase

O método CDD é como um detector de mentiras que só funciona se a pessoa estiver tremendo e repetindo a mesma frase; o estudo mostra que, em modelos de IA menores, os "trapaceiros" são inteligentes e variam suas respostas, enganando o detector, enquanto métodos mais simples (que medem a confiança) pegam a trapaça de qualquer jeito.

Each language version is independently generated for its own context, not a direct translation.

Título: Sem Memorização, Sem Detecção: Detecção de Contaminação Baseada em Distribuição de Saída em Modelos de Linguagem Pequenos

Autor: Omer Sela (Universidade de Tel Aviv)

1. O Problema

A contaminação de dados ocorre quando dados de avaliação (benchmarks) estão presentes no conjunto de treinamento de um modelo de linguagem (LLM). Isso compromete a confiabilidade das métricas de desempenho, pois o modelo pode estar apenas "decorando" as respostas em vez de raciocinar.

Recentemente, foi introduzido o método CDD (Contamination Detection via output Distribution), que detecta contaminação medindo a "picozidade" (peakedness) da distribuição de saída do modelo. A premissa é que, se um modelo memorizou uma resposta, ele produzirá saídas idênticas mesmo sob amostragem estocástica (temperatura), resultando em uma distribuição de saída colapsada. O CDD foi validado em modelos grandes (7B parâmetros) e promete ser aplicável a modelos "caixa-preta" (apenas requerendo texto gerado).

A Questão Central: O CDD funciona em Modelos de Linguagem Pequenos (SLMs) (70M a 410M parâmetros), especialmente quando utilizados com técnicas de ajuste fino eficientes em parâmetros (como LoRA)?

2. Metodologia

O estudo foi conduzido de forma controlada para isolar os efeitos da capacidade de memorização na detecção de contaminação.

Modelos: Utilização da família Pythia (70M, 160M e 410M parâmetros).
Datasets: GSM8K (matemática), HumanEval (código) e MATH (matemática de competição).
Configuração de Contaminação: Os dados de teste foram injetados no conjunto de treinamento com níveis de repetição controlados (0, 1, 5 e 10 vezes).
Variáveis de Ajuste Fino (Fine-Tuning):
- Método: LoRA (Low-Rank Adaptation) com ranks $r=8$ e $r=256$ , e Ajuste Fino Completo (Full Fine-Tuning).
- Duração: 3 e 20 épocas.
- Isso criou um espectro de capacidade treinável que varia de 98K parâmetros (LoRA r=8 em 70M) até 405M (Full FT em 410M).
Métodos de Detecção Comparados:
1. CDD: Mede a similaridade (distância de edição) entre uma saída greedy e múltiplas amostras com temperatura.
2. Perplexidade (PPL): Baseada na probabilidade do modelo sobre o prompt (requer acesso às probabilidades de saída).
3. Min-k% Prob: Analisa a probabilidade média dos $k\%$ tokens menos prováveis (requer acesso às probabilidades).
4. Sobreposição de N-gramas: Baseline que usa acesso ao corpus de treinamento (considerado "verdade absoluta" para confirmar a injeção).

3. Principais Contribuições e Descobertas

A. O Limiar de Memorização

A descoberta central é que o sucesso do CDD depende estritamente de que o ajuste fino produza memorização verbatim (cópia exata) dos dados.

Em configurações de baixa capacidade (ex: LoRA $r=8$ em modelos pequenos), o modelo aprende o padrão dos dados (o training loss diminui), mas não memoriza a resposta específica.
Consequentemente, a distribuição de saída não colapsa; o modelo gera respostas diversas mesmo para prompts contaminados.
Resultado: Nessas condições, o CDD performa no nível do acaso (50% de precisão), falhando silenciosamente em detectar a contaminação, mesmo que ela seja verificável.

B. O CDD é Inferior a Métodos Baseados em Probabilidade

Em todas as 27 condições testadas (combinações de datasets, métodos de FT e níveis de contaminação):

Métodos baseados em probabilidade (Perplexidade e Min-k% Prob) superaram consistentemente o CDD.
Enquanto o CDD falhava no nível do acaso em configurações de LoRA de baixo rank, os métodos baseados em probabilidade já detectavam a contaminação com alta precisão.
Isso indica que a "familiaridade" com os dados (detectada por PPL) ocorre muito antes da "memorização rígida" (detectada por CDD).

C. Sensibilidade ao Tamanho do Modelo e Capacidade

O CDD só começa a funcionar quando o número de parâmetros treináveis ultrapassa um limiar crítico.
Para o modelo de 410M, a transição de "não detectável" para "detectável" ocorre ao aumentar o rank do LoRA de 8 para 256 ou ao usar Full Fine-Tuning.
O tamanho do modelo amplifica a memorização, mas não a cria se o método de ajuste fino (ex: LoRA r=8) limitar a capacidade de convergência para uma única saída.

D. Cenários de Baixa Contaminação

Em cenários realistas onde a contaminação ocorre apenas uma vez ( $c=1$ ), o CDD falha completamente em todos os datasets e configurações de LoRA. Métodos baseados em probabilidade, no entanto, já mostram sinais significativos de detecção.

4. Resultados Quantitativos Chave

Precisão do CDD:
- LoRA $r=8$ (3 épocas): ~0.50 (nível de acaso) em todos os tamanhos de modelo e datasets.
- LoRA $r=256$ (3 épocas): Precisão salta para >0.90 apenas no modelo de 410M, mas permanece baixa em modelos menores.
- Full Fine-Tuning: Alta precisão (>0.95), mas requer acesso total aos parâmetros.
Precisão de Métodos Baseados em Probabilidade:
- Perplexidade e Min-k% Prob atingiram precisão de 1.0 (ou próximo disso) em muitas condições onde o CDD falhou, especialmente em níveis baixos de contaminação.
Correlação com Loss de Treinamento:
- O training loss diminui em todas as configurações (indicando aprendizado), mas a precisão do CDD só sobe quando o loss cai drasticamente (indicando memorização/colapso da distribuição). Existe uma "zona cega" onde o modelo aprende, mas o CDD não detecta.

5. Significado e Implicações

Falha Silenciosa em SLMs: O uso do CDD como única ferramenta de auditoria para pequenos modelos de linguagem, especialmente aqueles adaptados via LoRA, é perigoso. Ele pode fornecer uma falsa segurança de que não há contaminação, quando na verdade o modelo foi treinado nos dados de teste.
Limitação da Abordagem de Distribuição: A detecção baseada apenas na distribuição de saída (texto gerado) é insuficiente para SLMs. A "picozidade" é um sinal tardio que só aparece após a memorização completa, enquanto sinais probabilísticos internos aparecem muito antes.
Recomendação Prática: Para auditoria de modelos pequenos, a comunidade deve priorizar métodos que exigem acesso às probabilidades de saída (como Perplexidade e Min-k% Prob), pois eles são mais robustos e sensíveis a diferentes regimes de ajuste fino.
Reconciliação com Trabalhos Anteriores: Os resultados positivos do CDD em modelos de 7B parâmetros (no artigo original) devem-se ao fato de que, mesmo com LoRA de baixo rank, modelos grandes têm milhões de parâmetros treináveis, o que permite a memorização. Em modelos pequenos (70M-410M), a mesma configuração de rank resulta em poucos parâmetros, impedindo a memorização necessária para o CDD funcionar.

Conclusão

O artigo demonstra que a eficácia da detecção de contaminação via distribuição de saída (CDD) é contingente à capacidade do modelo de memorizar dados de treinamento. Em modelos de linguagem pequenos e em configurações de ajuste fino eficientes (LoRA), essa memorização frequentemente não ocorre, tornando o CDD inútil. Métodos baseados em probabilidade são superiores e mais confiáveis para detectar contaminação nesses cenários.