Detecting Functional Memorization in Code Language Models

Este artigo introduz um framework de avaliação contrafactual demonstrando que modelos de linguagem de código podem memorizar lógica funcional além da sobreposição textual literal, necessitando de novas métricas de auditoria que avaliem a similaridade baseada em execução em vez de apenas correspondência de texto.

Autores originais: Matthieu Meeus, Anil Ramakrishna, Matthew Grange, Zheng Xu, Luca Melis

Publicado 2026-06-12
📖 3 min de leitura☕ Leitura rápida

Autores originais: Matthieu Meeus, Anil Ramakrishna, Matthew Grange, Zheng Xu, Luca Melis

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você tem uma biblioteca gigante de códigos de computador, como um enorme livro de receitas repleto de milhões de receitas. Você treina um chef de IA superinteligente (um Grande Modelo de Linguagem) para ler cada página dessa biblioteca para que ele possa aprender a cozinhar.

Agora, imagine que você pede a esse chef de IA para escrever uma nova receita para "Tofu Apimentado".

A Forma Antiga de Verificar (Similaridade Textual)
Anteriormente, os pesquisadores verificavam se a IA estava "trapaceando" (memorizando) olhando para as palavras. Se a IA escrevesse uma receita que parecesse quase exatamente com uma no livro — usando os mesmos ingredientes, a mesma estrutura de frases e a mesma ortografia — eles diziam: "Aha! Ela memorizou essa receita!"

Mas aqui está o problema: Duas receitas podem fazer exatamente o mesmo prato delicioso, mas parecer completamente diferentes no papel. Uma pode dizer "adicione 2 xícaras de farinha", enquanto a outra diz "despeje 480ml de pó branco". Elas são funcionalmente idênticas (fazem o mesmo bolo), mas textualmente diferentes.

A Nova Descoberta (Memorização Funcional)
Este artigo diz: "Descobrimos que o chef de IA está memorizando a lógica das receitas, não apenas as palavras."

Mesmo quando a IA muda as palavras, os nomes das variáveis e a estrutura das frases, ela ainda pode estar seguindo secretamente os mesmos passos exatos da biblioteca. É como se a IA tivesse aprendido uma fórmula secreta para o "molho especial" de uma empresa específica do livro. Mesmo que ela escreva uma receita nova que pareça totalmente diferente, se ela ainda usar exatamente essa fórmula secreta, ela vazou o segredo comercial da empresa.

Como Eles Pegaram (O Teste Contrafactual)
Para provar isso, os pesquisadores montaram um experimento inteligente, como um "teste de gêmeos":

  1. O Chef "Experiente" (Modelo Alvo): Esta IA foi treinada na biblioteca específica que contém as receitas secretas.
  2. O Chef "Ingênuo" (Modelo de Referência): Esta IA é exatamente o mesmo modelo, mas nunca viu aquelas receitas secretas específicas. Ela viu apenas a biblioteca geral.

Eles pediram a ambos os chefs para escreverem uma receita baseada em um comando simples (como "Faça um molho para a cidade X").

  • Se o Chef Ingênuo adivinhasse um molho aleatório e genérico, mas o Chef Experiente escrevesse um molho que usava a exata mesma lógica secreta como a da biblioteca (mesmo com palavras diferentes), eles sabiam que o Chef Experiente havia memorizado a lógica.

Os Resultados
O estudo descobriu que, embora os detectores de "correspondência de texto" perdessem a maioria desses casos, os detectores de "correspondência de lógica" os capturavam.

  • Detectores de texto diziam: "Essas receitas parecem diferentes. Sem trapaça."
  • Detectores de lógica diziam: "Espere, essas receitas produzem exatamente o mesmo resultado usando exatamente os mesmos passos ocultos. Isso é memorização!"

Por Que Isso Importa
O artigo conclui que não podemos apenas verificar se uma IA está copiando palavras. Temos que verificar se ela está copiando o cérebro por trás do código. Se um algoritmo de negociação proprietário de uma empresa ou regras de moderação de conteúdo estiverem nos dados de treinamento, a IA pode reproduzir essa lógica secreta em um novo disfarce, vazando informações sensíveis mesmo que não copie uma única palavra literalmente.

Em Resumo:
A IA não é apenas uma fotocopiadora; ela é uma imitadora. Ela pode aprender a ideia de uma receita secreta e reescrevê-la com sua própria voz. Os autores criaram novas ferramentas para flagrar a IA quando ela faz essa "imitação de lógica", mostrando que as verificações de segurança atuais estão focadas demais em ortografia e gramática, perdendo o tipo de cópia mais profundo e perigoso.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →