Beyond Public Access in LLM Pre-Training Data

Each language version is independently generated for its own context, not a direct translation.

A Grande Questão: A IA Comeu o "Bolo" com Acesso Restrito?

Imagine um estudante gigante (a IA) que está se preparando para uma prova final massiva. Para aprender, esse estudante precisa ler milhões de livros. Alguns desses livros são gratuitos e estão em uma estante de biblioteca pública (dados públicos). Outros estão trancados atrás de um paywall, disponíveis apenas para quem paga uma taxa de assinatura (dados não públicos).

A grande questão que este artigo faz é: O estudante trapaceou? Ele se esgueirou para a seção trancada da biblioteca para ler os livros pagos, mesmo não sendo suposto que o fizesse?

O Experimento: O "Teste de Degustação"

Os pesquisadores não apenas perguntaram à IA: "Você leu isso?", porque a IA poderia mentir ou dizer "Não sei". Em vez disso, eles montaram um teste de degustação engenhoso.

A Montagem: Eles pegaram 34 livros da O'Reilly Media (uma famosa editora de tecnologia). Cada livro tem um capítulo de "amostra gratuita" (público) e o restante do livro atrás de um paywall (não público).
O Truque: Eles pegaram um parágrafo de um livro e pediram à IA para escolher o parágrafo real, escrito por humanos, entre uma linha de quatro opções. As outras três opções eram parágrafos falsos escritos por uma IA diferente, que soavam muito semelhantes, mas não eram os originais.
A Lógica: Se a IA já tivesse "visto" o parágrafo real antes durante seu treinamento, ela deveria ser capaz de identificá-lo facilmente, como reconhecer uma música que você ouviu cem vezes. Se não a tivesse visto, deveria apenas estar chutando aleatoriamente (como escolher uma carta de um baralho).

Os Resultados: Quem Passou no Teste?

Os pesquisadores testaram três versões diferentes dos "estudantes" de IA da OpenAI:

O Estudante Mais Velho (GPT-3.5 Turbo): Este estudante parou de estudar dois anos antes. Quando testado nos livros, ele não se saiu melhor do que um chute aleatório. Parecia não ter memória dos livros pagos.
O Estudante Pequeno (GPT-4o Mini): Este é um modelo mais novo, mas menor e menos poderoso. Mesmo tendo sido treinado ao mesmo tempo que o grande estudante, ele também se comportou como um chutador aleatório. Não conseguiu distinguir o texto real do texto falso.
O Grande Estudante (GPT-4o): Este é o modelo mais novo e poderoso. Este se destacou. Ele identificou corretamente os parágrafos reais, escritos por humanos, dos livros pagos significativamente melhor do que o acaso aleatório.
- A Pontuação: Os pesquisadores deram a ele uma pontuação de 0,82 (onde 0,5 é um chute aleatório e 1,0 é perfeito). Isso sugere que o Grande Estudante realmente reconheceu o conteúdo ao qual não deveria ter acesso.

O Problema da "Viagem no Tempo" (Uma Ressalva)

Os pesquisadores foram cuidadosos. Eles se preocuparam que talvez o Grande Estudante apenas tivesse ficado mais esperto em identificar qualquer escrita humana, e não apenas os livros específicos que testaram.

Para verificar isso, eles olharam para livros publicados depois que a IA parou de estudar. O Grande Estudante ainda era muito bom em identificar escrita humana nesses livros novos também. Isso significa que a IA é apenas geralmente melhor em identificar texto humano agora. No entanto, o fato de ela ter sido ainda melhor em identificar os livros antigos específicos sugere que ela provavelmente os viu durante seu treinamento.

Por Que os Resultados Não São 100% Certos

O artigo é honesto sobre suas limitações. Pense nisso como tentar ouvir um sussurro em uma sala lotada:

Amostra Pequena: Eles testaram apenas 34 livros. É como tentar adivinhar o sabor de uma pizza inteira provando apenas três fatias. Os resultados são promissores, mas o "intervalo de confiança" (uma medida estatística de certeza) é amplo.
O Tamanho do Modelo Importa: O fato de o "Estudante Pequeno" (Mini) não ter reconhecido os livros pode significar apenas que ele é pequeno demais para lembrá-los, e não que ele não os viu. O "Grande Estudante" tem uma memória maior, então ele pode ter guardado a informação mesmo que não devesse.

A Principal Conclusão

O estudo sugere que o modelo mais avançado da OpenAI (GPT-4o) provavelmente aprendeu com livros protegidos por direitos autorais que estavam atrás de um paywall, aos quais não deveria ter tido acesso.

Os autores argumentam que isso destaca a necessidade de transparência. Assim como um estudante deveria ser capaz de listar os livros que estudou para uma prova, as empresas de IA deveriam ser capazes de mostrar exatamente quais dados usaram para treinar seus modelos. Se estiverem usando conteúdo pago sem permissão ou pagamento, isso cria um problema para as pessoas que escrevem esses livros, potencialmente prejudicando a qualidade do conteúdo disponível na internet a longo prazo.

Em resumo: O "Grande Estudante" parece ter dado uma espiada nos livros trancados, enquanto o "Estudante Pequeno" e o "Estudante Velho" não o fizeram. Mas, como o tamanho da turma foi pequeno, precisamos olhar para mais evidências antes de chamar isso de uma trapaça definitiva.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Além do Acesso Público nos Dados de Pré-treinamento de LLMs

Declaração do Problema
Modelos de Linguagem de Grande Escala (LLMs) requerem vastas quantidades de dados para o pré-treinamento, contudo, as origens e o status legal desses dados permanecem amplamente não divulgados pelas corporações de IA. Uma preocupação crítica é se os modelos são treinados com conteúdo não público, atrás de paywall, sem autorização, potencialmente violando direitos autorais e minando a sustentabilidade econômica da criação de conteúdo profissional. Embora estudos anteriores tenham utilizado ataques de inferência de associação em conjuntos de dados públicos, há uma falta de evidências empíricas sobre se os modelos reconhecem material protegido por direitos autorais não público que não estava legalmente acessível a eles. Este artigo investiga se os modelos da série GPT da OpenAI exibem padrões de reconhecimento consistentes com o treinamento em conteúdo de livros não públicos da O'Reilly Media, distinguindo entre texto de prévia disponível gratuitamente e conteúdo atrás de paywall dentro dos mesmos livros.

Metodologia
O estudo emprega um método de ataque de inferência de associação DE-COP (Detecting Exposure to Copyrighted Output via Paraphrasing) (Duarte et al., 2024) aplicado a um conjunto de dados legalmente obtido de 34 livros protegidos por direitos autorais da O'Reilly Media.

Construção dos Dados: Os 34 livros foram divididos em 13.962 parágrafos. Crucialmente, o conjunto de dados distingue entre:
- Dados Públicos: Conteúdo de prévia gratuito para uso (os primeiros 1.500 caracteres dos capítulos, e os capítulos 1 e 4 completos).
- Dados Não Públicos: Conteúdo atrás de paywall não disponível gratuitamente.
- Divisões Temporais: Os livros foram categorizados como "potencialmente no conjunto de dados" ( $t-n$ , publicados antes do corte de treinamento do modelo) e "conhecidos como fora do conjunto de dados" ( $t+n$ , publicados após o corte).
Testes DE-COP: Para cada parágrafo, o modelo foi apresentado a um teste de múltipla escolha contendo um parágrafo original escrito por humanos e três paráfrases geradas por máquina (criadas usando Claude 3.5 Sonnet). A "taxa de acerto" do modelo (a proporção de vezes em que ele identificou corretamente o texto original em 24 permutações das posições das respostas) foi calculada.
Agregação (AUROC): As taxas de acerto ao nível de parágrafo foram médias para o nível do livro. Em seguida, foi calculada uma pontuação Área Sob a Curva Característica Operacional do Receptor (AUROC) para cada modelo. Esta pontuação mede a capacidade do modelo de distinguir entre livros que ele potencialmente viu durante o treinamento ( $t-n$ ) e livros que não poderia ter visto ( $t+n$ ). Uma AUROC de 0,5 indica chance aleatória, enquanto valores próximos de 1,0 indicam forte separabilidade (reconhecimento).
Modelos Testados: GPT-3.5 Turbo (corte: setembro de 2021), GPT-4o Mini (corte: outubro de 2023) e GPT-4o (corte: outubro de 2023).
Verificações de Robustez: O estudo testou dois modelos (GPT-4o e GPT-4o Mini) com o mesmo corte de treinamento para controlar mudanças temporais na linguagem. Também analisou taxas de acerto de base em dados não vistos para garantir que o método não estivesse simplesmente detectando diferenças entre texto humano e texto de IA não relacionadas à exposição ao treinamento.

Principais Resultados

Reconhecimento do GPT-4o: O GPT-4o demonstrou forte reconhecimento de conteúdo não público da O'Reilly, alcançando uma pontuação AUROC de 0,82 (IC 95% bootstrap: 0,60–0,96) para dados não públicos. Isso sugere que o modelo possui conhecimento prévio desses textos atrás de paywall.
Comparação com Modelos Mais Antigos/Menores:
- GPT-3.5 Turbo: Pontuou logo acima de 0,50, indicando nenhum reconhecimento detectável do conteúdo, consistente com seu corte de treinamento anterior.
- GPT-4o Mini: Apesar de compartilhar o mesmo corte de treinamento que o GPT-4o, mostrou pouco reconhecimento de dados públicos ou não públicos (AUROC ~0,56 para não públicos), performando próximo à chance aleatória. Os autores sugerem que isso pode ser devido à capacidade reduzida de memorização do modelo menor, em vez de uma diferença na composição dos dados de treinamento.
Público vs. Não Público: O GPT-4o mostrou uma AUROC mais alta para dados não públicos (0,82) em comparação com dados públicos (0,64). Embora essa diferença fosse estatisticamente significativa ao nível de parágrafo ( $p \approx 0,02$ ), não foi estatisticamente significativa ao nível de livro ( $p \approx 0,295$ ) devido ao pequeno tamanho da amostra.
Controle de Viés Temporal: A divergência nos resultados entre GPT-4o e GPT-4o Mini (treinados no mesmo período) sugere que as descobertas não são impulsionadas principalmente por mudanças temporais na linguagem ou pela capacidade geral dos modelos de distinguir texto humano de paráfrases.

Limitações e Incerteza
Os autores enfatizam que estes são resultados preliminares baseados em uma pequena amostra (26–28 livros por modelo), levando a intervalos de confiança amplos e poder estatístico limitado. O estudo reconhece que:

Modelos menores (como o GPT-4o Mini) podem ser mais difíceis de testar com precisão via inferência de associação devido à menor capacidade de memorização.
À medida que as capacidades dos modelos melhoram, a capacidade de base de distinguir texto humano de paráfrases aumenta, o que poderia eventualmente obscurecer os sinais de inferência de associação.
A fonte específica dos dados (por exemplo, LibGen, Books3) é inferida, mas não confirmada.

Significância e Contribuições
A principal contribuição do artigo é a aplicação de métodos de inferência de associação a material protegido por direitos autorais não público legalmente obtido, permitindo a detecção de possíveis violações de acesso que estudos que dependem exclusivamente de dados públicos não podem identificar.

As descobertas sublinham a necessidade de:

Maior Transparência Corporativa: Maior divulgação sobre fontes e proveniência de dados de pré-treinamento.
Quadros de Licenciamento Formais: O desenvolvimento de mercados comerciais para licenciamento e remuneração de dados de treinamento para evitar um "beco sem saída extrativo" para o ecossistema de conteúdo.
Prestação de Contas: O uso de ataques de inferência de associação como um mecanismo para pressionar desenvolvedores de modelos a negociar acordos de licenciamento, embora os autores observem que este método sozinho é insuficiente, especialmente contra modelos menores ou mais avançados.

O estudo conclui que, embora as evidências sejam específicas para a OpenAI e a O'Reilly Media, as dinâmicas subjacentes provavelmente se estendem a outros desenvolvedores de modelos, destacando a necessidade urgente de mercados estruturados e regimes de responsabilidade para garantir a sustentabilidade da criação de conteúdo profissional na era da IA.