Beyond Public Access in LLM Pre-Training Data

Autori originali: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Pubblicato 2026-05-07

📖 5 min di lettura🧠 Approfondimento

Autori originali: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Each language version is independently generated for its own context, not a direct translation.

La Grande Domanda: L'IA ha mangiato la torta "a pagamento"?

Immagina un gigante studente (l'IA) che sta studiando per un esame finale enorme. Per imparare, questo studente deve leggere milioni di libri. Alcuni di questi libri sono gratuiti e si trovano sugli scaffali di una biblioteca pubblica (dati pubblici). Altri sono bloccati dietro un paywall, disponibili solo per chi paga un abbonamento (dati non pubblici).

La grande domanda che questo documento pone è: Lo studente ha barato? Ha fatto irruzione nella sezione chiusa della biblioteca per leggere i libri a pagamento, anche se non avrebbe dovuto?

L'Esperimento: Il "Test del Gusto"

I ricercatori non hanno semplicemente chiesto all'IA: "Hai letto questo?", perché l'IA potrebbe mentire o dire "Non lo so". Invece, hanno organizzato un astuto test del gusto.

L'Impostazione: Hanno preso 34 libri di O'Reilly Media (una famosa casa editrice tecnologica). Ogni libro ha un capitolo "campione gratuito" (pubblico) e il resto del libro dietro un paywall (non pubblico).
Il Trucco: Hanno preso un paragrafo da un libro e chiesto all'IA di scegliere il paragrafo reale scritto da un umano tra una fila di quattro opzioni. Le altre tre opzioni erano paragrafi falsi scritti da un'altra IA che suonavano molto simili ma non erano l'originale.
La Logica: Se l'IA ha "visto" il paragrafo reale prima durante il suo addestramento, dovrebbe essere in grado di individuarlo facilmente, come riconoscere una canzone che hai sentito cento volte. Se non l'ha visto, dovrebbe semplicemente indovinare a caso (come pescare una carta da un mazzo).

I Risultati: Chi ha superato il test?

I ricercatori hanno testato tre diverse versioni degli "studenti" IA di OpenAI:

Lo Studente Più Vecchio (GPT-3.5 Turbo): Questo studente aveva smesso di studiare due anni prima. Quando è stato testato sui libri, ha ottenuto risultati non migliori di un indovino casuale. Sembrava non avere memoria dei libri a pagamento.
Lo Studente Piccolo (GPT-4o Mini): Questo è un modello più recente, ma più piccolo e meno potente. Anche se è stato addestrato nello stesso periodo dello studente grande, si è comportato anch'esso come un indovino casuale. Non è riuscito a distinguere il testo reale da quello falso.
Lo Studente Grande (GPT-4o): Questo è il modello più recente e potente. Questo si è distinto. Ha identificato correttamente i paragrafi reali scritti da umani provenienti dai libri a pagamento in modo significativamente migliore rispetto al caso casuale.
- Il Punteggio: I ricercatori gli hanno assegnato un punteggio di 0,82 (dove 0,5 è un indovino casuale e 1,0 è perfetto). Questo suggerisce che lo Studente Grande ha riconosciuto il contenuto a cui non avrebbe dovuto avere accesso.

Il Problema del "Viaggio nel Tempo" (Una Riserva)

I ricercatori sono stati prudenti. Si sono preoccupati che forse lo Studente Grande era semplicemente diventato più bravo a individuare qualsiasi scrittura umana, non solo i libri specifici su cui hanno testato.

Per verificare questo, hanno esaminato libri pubblicati dopo che l'IA aveva smesso di studiare. Lo Studente Grande era ancora molto bravo a individuare la scrittura umana anche in questi nuovi libri. Questo significa che l'IA è semplicemente generalmente più brava a individuare il testo umano ora. Tuttavia, il fatto che fosse ancora meglio nell'individuare i vecchi libri specifici suggerisce che li ha probabilmente visti durante il suo addestramento.

Perché i Risultati Non Sono Certi al 100%

Il documento è onesto riguardo ai suoi limiti. Pensateci come a cercare di sentire un sussurro in una stanza affollata:

Piccola Dimensione del Campione: Hanno testato solo 34 libri. È come cercare di indovinare il sapore di un'intera pizza assaggiando solo tre fette. I risultati sono promettenti, ma l'"intervallo di confidenza" (una misura statistica di certezza) è ampio.
La Dimensione del Modello Conta: Il fatto che lo "Studente Piccolo" (Mini) non abbia riconosciuto i libri potrebbe significare semplicemente che è troppo piccolo per ricordarli, non che non li abbia visti. Lo "Studente Grande" ha una memoria più grande, quindi potrebbe aver conservato le informazioni anche se non avrebbe dovuto.

La Conclusione Principale

Lo studio suggerisce che il modello più avanzato di OpenAI (GPT-4o) ha probabilmente appreso da libri protetti da copyright che erano dietro un paywall, ai quali non avrebbe dovuto avere accesso.

Gli autori sostengono che questo evidenzia la necessità di trasparenza. Proprio come uno studente dovrebbe essere in grado di elencare i libri su cui ha studiato per un esame, le aziende di IA dovrebbero essere in grado di mostrare esattamente quali dati hanno utilizzato per addestrare i loro modelli. Se stanno utilizzando contenuti a pagamento senza permesso o pagamento, ciò crea un problema per le persone che scrivono quei libri, potenzialmente danneggiando la qualità dei contenuti disponibili su Internet a lungo termine.

In sintesi: Lo "Studente Grande" sembra aver dato un'occhiata di nascosto ai libri bloccati, mentre lo "Studente Piccolo" e lo "Studente Vecchio" non l'hanno fatto. Ma poiché la classe era piccola, dobbiamo esaminare più prove prima di chiamarlo un imbroglio definitivo.

Each language version is independently generated for its own context, not a direct translation.

Sintesi Tecnica: Oltre l'Accesso Pubblico nei Dati di Pre-Addestramento degli LLM

Enunciato del Problema
I Modelli Linguistici di Grandi Dimensioni (LLM) richiedono enormi quantità di dati per il pre-addestramento, eppure le origini e lo status giuridico di tali dati rimangono in gran parte non divulgati dalle aziende di intelligenza artificiale. Una preoccupazione critica è se i modelli siano addestrati su contenuti non pubblici e a pagamento senza autorizzazione, potenzialmente violando il diritto d'autore e minando la sostenibilità economica della creazione di contenuti professionali. Sebbene studi precedenti abbiano utilizzato attacchi di inferenza di appartenenza su dataset pubblici, manca una prova empirica riguardo al fatto che i modelli riconoscano materiale protetto da copyright non pubblico che non era legalmente accessibile a loro. Questo documento indaga se i modelli della serie GPT di OpenAI mostrino pattern di riconoscimento coerenti con un addestramento su contenuti di libri O'Reilly Media non pubblici, distinguendo tra testo di anteprima liberamente disponibile e contenuti a pagamento all'interno degli stessi libri.

Metodologia
Lo studio impiega un metodo di attacco di inferenza di appartenenza DE-COP (Detecting Exposure to Copyrighted Output via Paraphrasing) (Duarte et al., 2024) applicato a un dataset legalmente ottenuto di 34 libri protetti da copyright di O'Reilly Media.

Costruzione dei Dati: I 34 libri sono stati suddivisi in 13.962 paragrafi. Crucialmente, il dataset distingue tra:
- Dati Pubblici: Contenuti di anteprima gratuiti (i primi 1.500 caratteri dei capitoli e i capitoli 1 e 4 completi).
- Dati Non Pubblici: Contenuti a pagamento non liberamente disponibili.
- Divisioni Temporali: I libri sono stati categorizzati come "potenzialmente nel dataset" ( $t-n$ , pubblicati prima della data di taglio dell'addestramento del modello) e "noti fuori dal dataset" ( $t+n$ , pubblicati dopo il taglio).
Test DE-COP: Per ogni paragrafo, al modello è stato presentato un test a scelta multipla contenente un paragrafo originale scritto da un umano e tre parafrasi generate da una macchina (create utilizzando Claude 3.5 Sonnet). È stata calcolata la "percentuale di indovinate" del modello (la proporzione di volte in cui ha correttamente identificato il testo originale su 24 permutazioni delle posizioni delle risposte).
Aggregazione (AUROC): Le percentuali di indovinate a livello di paragrafo sono state mediate a livello di libro. È stato quindi calcolato un punteggio Area Under the Receiver Operating Characteristic (AUROC) per ciascun modello. Questo punteggio misura la capacità del modello di distinguere tra libri che ha potenzialmente visto durante l'addestramento ( $t-n$ ) e libri che non avrebbe potuto vedere ( $t+n$ ). Un AUROC di 0,5 indica una casualità, mentre valori che si avvicinano a 1,0 indicano una forte separabilità (riconoscimento).
Modelli Testati: GPT-3.5 Turbo (taglio: settembre 2021), GPT-4o Mini (taglio: ottobre 2023) e GPT-4o (taglio: ottobre 2023).
Controlli di Robustezza: Lo studio ha testato due modelli (GPT-4o e GPT-4o Mini) con lo stesso taglio di addestramento per controllare i cambiamenti linguistici temporali. Ha inoltre analizzato le percentuali di indovinate di base su dati non visti per garantire che il metodo non stesse semplicemente rilevando differenze tra testo umano e testo AI non correlate all'esposizione all'addestramento.

Risultati Chiave

Riconoscimento di GPT-4o: GPT-4o ha dimostrato un forte riconoscimento dei contenuti O'Reilly non pubblici, ottenendo un punteggio AUROC di 0,82 (IC al 95% con bootstrap: 0,60–0,96) per i dati non pubblici. Ciò suggerisce che il modello possiede conoscenze pregresse di questi testi a pagamento.
Confronto con Modelli Più Vecchi/Minori:
- GPT-3.5 Turbo: Ha ottenuto un punteggio appena superiore a 0,50, indicando nessun riconoscimento rilevabile del contenuto, coerente con il suo taglio di addestramento precedente.
- GPT-4o Mini: Nonostante condivida lo stesso taglio di addestramento di GPT-4o, ha mostrato poco riconoscimento sia dei dati pubblici che di quelli non pubblici (AUROC ~0,56 per i dati non pubblici), performando vicino alla casualità. Gli autori suggeriscono che ciò possa essere dovuto alla ridotta capacità di memorizzazione del modello più piccolo piuttosto che a una differenza nella composizione dei dati di addestramento.
Pubblico vs Non Pubblico: GPT-4o ha mostrato un AUROC più alto per i dati non pubblici (0,82) rispetto ai dati pubblici (0,64). Sebbene questa differenza fosse statisticamente significativa a livello di paragrafo ( $p \approx 0,02$ ), non lo era a livello di libro ( $p \approx 0,295$ ) a causa della piccola dimensione del campione.
Controllo del Bias Temporale: La divergenza nei risultati tra GPT-4o e GPT-4o Mini (addestrati sullo stesso periodo) suggerisce che i risultati non sono guidati principalmente da cambiamenti linguistici temporali o dalla capacità generale dei modelli di distinguere il testo umano dalle parafrasi.

Limitazioni e Incertezze
Gli autori sottolineano che questi sono risultati preliminari basati su un piccolo campione (26–28 libri per modello), portando a ampi intervalli di confidenza e a un potere statistico limitato. Lo studio riconosce che:

I modelli più piccoli (come GPT-4o Mini) potrebbero essere più difficili da testare accuratamente tramite inferenza di appartenenza a causa della minore capacità di memorizzazione.
Man mano che le capacità dei modelli migliorano, la capacità di base di distinguere il testo umano dalle parafrasi aumenta, il che potrebbe alla fine oscurare i segnali di inferenza di appartenenza.
La fonte specifica dei dati (ad es. LibGen, Books3) è dedotta ma non confermata.

Significato e Contributi
Il contributo principale del documento è l'applicazione di metodi di inferenza di appartenenza a materiale protetto da copyright non pubblico ottenuto legalmente, consentendo il rilevamento di potenziali violazioni di accesso che gli studi basati esclusivamente su dati pubblici non possono identificare.

I risultati sottolineano la necessità di:

Maggiore Trasparenza Aziendale: Una maggiore divulgazione riguardo alle fonti e alla provenienza dei dati di pre-addestramento.
Quadri di Licenza Formali: Lo sviluppo di mercati commerciali per la licenza e la remunerazione dei dati di addestramento per prevenire un "vicolo cieco estrattivo" per l'ecosistema dei contenuti.
Responsabilità: L'uso di attacchi di inferenza di appartenenza come meccanismo per esercitare pressione sugli sviluppatori di modelli affinché negozino accordi di licenza, sebbene gli autori notino che questo metodo da solo è insufficiente, specialmente contro modelli più piccoli o più avanzati.

Lo studio conclude che, sebbene le prove siano specifiche per OpenAI e O'Reilly Media, le dinamiche sottostanti probabilmente si estendono ad altri sviluppatori di modelli, evidenziando l'urgente necessità di mercati strutturati e regimi di responsabilità per garantire la sostenibilità della creazione di contenuti professionali nell'era dell'IA.