Beyond Public Access in LLM Pre-Training Data

Utilizando um conjunto de dados legalmente obtido de 34 livros protegidos por direitos autorais da O'Reilly Media, este estudo emprega o ataque de inferência de associação DE-COP para revelar que o modelo GPT-4o da OpenAI exibe reconhecimento estatisticamente significativo de conteúdo com paywall (AUROC 0,82), ao passo que o modelo menor GPT-4o Mini não o faz, destacando assim a necessidade de maior transparência corporativa e de estruturas formais de licenciamento para dados de treinamento de IA.

Autores originais: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Publicado 2026-05-07
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

A Grande Questão: A IA Comeu o "Bolo" com Acesso Restrito?

Imagine um estudante gigante (a IA) que está se preparando para uma prova final massiva. Para aprender, esse estudante precisa ler milhões de livros. Alguns desses livros são gratuitos e estão em uma estante de biblioteca pública (dados públicos). Outros estão trancados atrás de um paywall, disponíveis apenas para quem paga uma taxa de assinatura (dados não públicos).

A grande questão que este artigo faz é: O estudante trapaceou? Ele se esgueirou para a seção trancada da biblioteca para ler os livros pagos, mesmo não sendo suposto que o fizesse?

O Experimento: O "Teste de Degustação"

Os pesquisadores não apenas perguntaram à IA: "Você leu isso?", porque a IA poderia mentir ou dizer "Não sei". Em vez disso, eles montaram um teste de degustação engenhoso.

  1. A Montagem: Eles pegaram 34 livros da O'Reilly Media (uma famosa editora de tecnologia). Cada livro tem um capítulo de "amostra gratuita" (público) e o restante do livro atrás de um paywall (não público).
  2. O Truque: Eles pegaram um parágrafo de um livro e pediram à IA para escolher o parágrafo real, escrito por humanos, entre uma linha de quatro opções. As outras três opções eram parágrafos falsos escritos por uma IA diferente, que soavam muito semelhantes, mas não eram os originais.
  3. A Lógica: Se a IA já tivesse "visto" o parágrafo real antes durante seu treinamento, ela deveria ser capaz de identificá-lo facilmente, como reconhecer uma música que você ouviu cem vezes. Se não a tivesse visto, deveria apenas estar chutando aleatoriamente (como escolher uma carta de um baralho).

Os Resultados: Quem Passou no Teste?

Os pesquisadores testaram três versões diferentes dos "estudantes" de IA da OpenAI:

  • O Estudante Mais Velho (GPT-3.5 Turbo): Este estudante parou de estudar dois anos antes. Quando testado nos livros, ele não se saiu melhor do que um chute aleatório. Parecia não ter memória dos livros pagos.
  • O Estudante Pequeno (GPT-4o Mini): Este é um modelo mais novo, mas menor e menos poderoso. Mesmo tendo sido treinado ao mesmo tempo que o grande estudante, ele também se comportou como um chutador aleatório. Não conseguiu distinguir o texto real do texto falso.
  • O Grande Estudante (GPT-4o): Este é o modelo mais novo e poderoso. Este se destacou. Ele identificou corretamente os parágrafos reais, escritos por humanos, dos livros pagos significativamente melhor do que o acaso aleatório.
    • A Pontuação: Os pesquisadores deram a ele uma pontuação de 0,82 (onde 0,5 é um chute aleatório e 1,0 é perfeito). Isso sugere que o Grande Estudante realmente reconheceu o conteúdo ao qual não deveria ter acesso.

O Problema da "Viagem no Tempo" (Uma Ressalva)

Os pesquisadores foram cuidadosos. Eles se preocuparam que talvez o Grande Estudante apenas tivesse ficado mais esperto em identificar qualquer escrita humana, e não apenas os livros específicos que testaram.

Para verificar isso, eles olharam para livros publicados depois que a IA parou de estudar. O Grande Estudante ainda era muito bom em identificar escrita humana nesses livros novos também. Isso significa que a IA é apenas geralmente melhor em identificar texto humano agora. No entanto, o fato de ela ter sido ainda melhor em identificar os livros antigos específicos sugere que ela provavelmente os viu durante seu treinamento.

Por Que os Resultados Não São 100% Certos

O artigo é honesto sobre suas limitações. Pense nisso como tentar ouvir um sussurro em uma sala lotada:

  • Amostra Pequena: Eles testaram apenas 34 livros. É como tentar adivinhar o sabor de uma pizza inteira provando apenas três fatias. Os resultados são promissores, mas o "intervalo de confiança" (uma medida estatística de certeza) é amplo.
  • O Tamanho do Modelo Importa: O fato de o "Estudante Pequeno" (Mini) não ter reconhecido os livros pode significar apenas que ele é pequeno demais para lembrá-los, e não que ele não os viu. O "Grande Estudante" tem uma memória maior, então ele pode ter guardado a informação mesmo que não devesse.

A Principal Conclusão

O estudo sugere que o modelo mais avançado da OpenAI (GPT-4o) provavelmente aprendeu com livros protegidos por direitos autorais que estavam atrás de um paywall, aos quais não deveria ter tido acesso.

Os autores argumentam que isso destaca a necessidade de transparência. Assim como um estudante deveria ser capaz de listar os livros que estudou para uma prova, as empresas de IA deveriam ser capazes de mostrar exatamente quais dados usaram para treinar seus modelos. Se estiverem usando conteúdo pago sem permissão ou pagamento, isso cria um problema para as pessoas que escrevem esses livros, potencialmente prejudicando a qualidade do conteúdo disponível na internet a longo prazo.

Em resumo: O "Grande Estudante" parece ter dado uma espiada nos livros trancados, enquanto o "Estudante Pequeno" e o "Estudante Velho" não o fizeram. Mas, como o tamanho da turma foi pequeno, precisamos olhar para mais evidências antes de chamar isso de uma trapaça definitiva.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →