Beyond Public Access in LLM Pre-Training Data

Oorspronkelijke auteurs: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Gepubliceerd 2026-05-07

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De Grote Vraag: Heeft de AI de "Betaalde" Taart Opgegeten?

Stel je een gigantische student (de AI) voor die zich voorbereidt op een enorme eindexamen. Om te leren moet deze student miljoenen boeken lezen. Sommige van deze boeken zijn gratis en staan op een openbare bibliotheekplank (publieke data). Andere staan achter een betaalmuur, alleen beschikbaar voor mensen die een abonnement betalen (niet-openbare data).

De grote vraag die dit artikel stelt is: Heeft de student bedrogen? Heeft hij zich verstopt in het afgesloten gedeelte van de bibliotheek om de betaalde boeken te lezen, ook al mocht hij dat niet?

Het Experiment: De "Smaaktent"

De onderzoekers vroegen de AI niet zomaar: "Heb je dit gelezen?", omdat de AI zou kunnen liegen of zeggen "Ik weet het niet". In plaats daarvan stelden ze een slimme smaaktent op.

De Opzet: Ze namen 34 boeken van O'Reilly Media (een beroemde tech-uitgever). Elk boek heeft een "gratis proef" hoofdstuk (publiek) en de rest van het boek achter een betaalmuur (niet-openbaar).
De Truc: Ze namen een alinea uit een boek en vroegen de AI om de echte, door mensen geschreven alinea te kiezen uit een rijtje van vier opties. De andere drie opties waren nep-alinea's geschreven door een andere AI die er heel veel op leek, maar niet de origineel waren.
De Logica: Als de AI de echte alinea eerder heeft "gezien" tijdens haar training, zou ze hem makkelijk moeten kunnen herkennen, zoals het herkennen van een nummer dat je honderd keer hebt gehoord. Als ze het niet heeft gezien, zou ze gewoon willekeurig moeten gokken (zoals het trekken van een kaart uit een deck).

De Resultaten: Wie Haalde de Toets?

De onderzoekers testten drie verschillende versies van OpenAI's AI-"studenten":

De Oudere Student (GPT-3.5 Turbo): Deze student was twee jaar eerder gestopt met studeren. Bij de test met de boeken presteerde hij niet beter dan willekeurig gokken. Het leek alsof hij geen herinnering had aan de betaalde boeken.
De Kleine Student (GPT-4o Mini): Dit is een nieuwere, maar kleinere en minder krachtige model. Hoewel het op hetzelfde moment als de grote student was getraind, presteerde het ook als een willekeurige gokker. Het kon de echte tekst niet onderscheiden van de nep-tekst.
De Grote Student (GPT-4o): Dit is het nieuwste en krachtigste model. Deze viel op. Het identificeerde de echte, door mensen geschreven alinea's uit de betaalde boeken significant beter dan willekeurige kans.
- De Score: De onderzoekers gaven het een score van 0,82 (waarbij 0,5 willekeurig gokken is en 1,0 perfect). Dit suggereert dat de Grote Student de inhoud wel herkende waar hij geen toegang toe zou moeten hebben gehad.

Het "Tijdsreizen"-Probleem (Een Voorbehoud)

De onderzoekers waren voorzichtig. Ze maakten zich zorgen dat de Grote Student misschien gewoon slimmer was geworden in het opsporen van elke door mensen geschreven tekst, en niet alleen de specifieke boeken die ze testten.

Om dit te controleren, keken ze naar boeken die na het moment waarop de AI stopte met studeren, werden gepubliceerd. De Grote Student was ook erg goed in het opsporen van door mensen geschreven tekst in deze nieuwe boeken. Dit betekent dat de AI nu over het algemeen beter is in het herkennen van menselijke tekst. Het feit dat het echter nog beter was in het opsporen van de specifieke oude boeken, suggereert dat hij ze waarschijnlijk tijdens zijn training heeft gezien.

Waarom de Resultaten Niet 100% Zeker Zijn

Het artikel is eerlijk over zijn beperkingen. Denk eraan als het proberen om een fluistering te horen in een drukke zaal:

Kleine Steekproef: Ze testten slechts 34 boeken. Het is alsof je probeert de smaak van een hele pizza te raden door slechts drie plakjes te proeven. De resultaten zijn veelbelovend, maar het "betrouwbaarheidsinterval" (een statistische maatstaf voor zekerheid) is breed.
Modelgrootte Maakt Uit: Het feit dat de "Kleine Student" (Mini) de boeken niet herkende, betekent misschien gewoon dat hij te klein is om ze te onthouden, niet dat hij ze niet heeft gezien. De "Grote Student" heeft een groter geheugen, dus hij heeft de informatie misschien bewaard, zelfs als hij dat niet mocht.

De Belangrijkste Conclusie

De studie suggereert dat OpenAI's meest geavanceerde model (GPT-4o) waarschijnlijk heeft geleerd van auteursrechtelijk beschermde boeken die achter een betaalmuur stonden, waar hij geen toegang toe zou moeten hebben gehad.

De auteurs betogen dat dit de noodzaak onderstreept van transparantie. Net zoals een student in staat moet zijn om de boeken op te sommen waarvoor hij heeft gestudeerd voor een examen, moeten AI-bedrijven in staat zijn om precies te laten zien welke data ze hebben gebruikt om hun modellen te trainen. Als ze betaalde inhoud gebruiken zonder toestemming of betaling, creëert dit een probleem voor de mensen die die boeken schrijven, wat op de lange termijn mogelijk de kwaliteit van de inhoud die op internet beschikbaar is, kan schaden.

Kortom: De "Grote Student" lijkt een glimp te hebben opgevangen van de afgesloten boeken, terwijl de "Kleine Student" en de "Oude Student" dat niet deden. Maar omdat de klasgrootte klein was, moeten we meer bewijzen bekijken voordat we het een definitieve bedrog noemen.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: Voorbij Publieke Toegang in Vooropleidingsdata van GPT's

Probleemstelling
Grote Taalmodellen (LLM's) vereisen enorme hoeveelheden data voor vooropleiding, maar de oorsprong en juridische status van deze data blijven grotendeels onbekend bij AI-bedrijven. Een kritieke zorg is of modellen zijn getraind op niet-openbare, betaalmuur-geblokkeerde inhoud zonder toestemming, wat mogelijk auteursrecht schendt en de economische duurzaamheid van professionele inhoudscreatie ondermijnt. Hoewel eerdere studies lidmaatschapsinference-aanvallen op openbare datasets hebben gebruikt, ontbreekt er empirisch bewijs of modellen niet-openbaar auteursrechtelijk beschermd materiaal herkennen dat voor hen niet juridisch toegankelijk was. Dit onderzoek onderzocht of de GPT-serie van OpenAI herkenningspatronen vertoont die consistent zijn met training op niet-openbare boekinhoud van O'Reilly Media, waarbij wordt onderscheid gemaakt tussen gratis beschikbare voorbeeldtekst en betaalmuur-geblokkeerde inhoud binnen dezelfde boeken.

Methodologie
Het onderzoek maakt gebruik van een DE-COP-methode (Detecting Exposure to Copyrighted Output via Paraphrasing) voor lidmaatschapsinference (Duarte et al., 2024), toegepast op een juridisch verkregen dataset van 34 auteursrechtelijk beschermde boeken van O'Reilly Media.

Dataverzameling: De 34 boeken werden opgesplitst in 13.962 alinea's. Cruciaal is dat de dataset onderscheid maakt tussen:
- Openbare Data: Gratis te gebruiken voorbeeldinhoud (de eerste 1.500 tekens van hoofdstukken, en volledige hoofdstukken 1 en 4).
- Niet-openbare Data: Betaalmuur-geblokkeerde inhoud die niet gratis beschikbaar is.
- Temporele Splits: Boeken werden gecategoriseerd als "potentieel in de dataset" ( $t-n$ , gepubliceerd voor de training cutoff van het model) en "bekend buiten de dataset" ( $t+n$ , gepubliceerd na de cutoff).
DE-COP-testen: Voor elke alinea kreeg het model een meerkeuzetest gepresenteerd met één originele, door een mens geschreven alinea en drie door een machine gegenereerde parafrases (gegenereerd met Claude 3.5 Sonnet). Het "gokpercentage" van het model (het percentage keren dat het de originele tekst correct identificeerde over 24 permutaties van antwoordposities) werd berekend.
Aggregatie (AUROC): De gokpercentages op alinea-niveau werden gemiddeld tot boekniveau. Vervolgens werd voor elk model een Area Under the Receiver Operating Characteristic (AUROC)-score berekend. Deze score meet het vermogen van het model om te onderscheiden tussen boeken die het mogelijk heeft gezien tijdens training ( $t-n$ ) en boeken die het niet heeft kunnen zien ( $t+n$ ). Een AUROC van 0,5 wijst op toeval, terwijl waarden die naar 1,0 neigen sterke scheidbaarheid (herkenning) aangeven.
Geteste Modellen: GPT-3.5 Turbo (cutoff: september 2021), GPT-4o Mini (cutoff: oktober 2023) en GPT-4o (cutoff: oktober 2023).
Robuustheidstests: Het onderzoek testte twee modellen (GPT-4o en GPT-4o Mini) met dezelfde training cutoff om temporele taalkundige verschuivingen te controleren. Ook werden basale gokpercentages op onbekende data geanalyseerd om ervoor te zorgen dat de methode niet simpelweg verschillen tussen menselijke en AI-gegenereerde tekst detecteerde die niets te maken hadden met blootstelling tijdens training.

Belangrijkste Resultaten

Herkenning door GPT-4o: GPT-4o toonde sterke herkenning van niet-openbare O'Reilly-inhoud, met een AUROC-score van 0,82 (95% gebootstrapt betrouwbaarheidsinterval: 0,60–0,96) voor niet-openbare data. Dit suggereert dat het model voorkennis heeft van deze betaalmuur-geblokkeerde teksten.
Vergelijking met Oudere/Kleinere Modellen:
- GPT-3.5 Turbo: Scoorde net boven 0,50, wat aangeeft dat er geen detecteerbare herkenning van de inhoud was, consistent met de eerdere training cutoff.
- GPT-4o Mini: Ondanks dat het dezelfde training cutoff deelt als GPT-4o, toonde het weinig herkenning van zowel openbare als niet-openbare data (AUROC ~0,56 voor niet-openbare), en presteerde het dicht bij toeval. De auteurs suggereren dat dit mogelijk komt door het verminderde memorisatievermogen van het kleinere model, in plaats van een verschil in de samenstelling van de trainingsdata.
Openbaar versus Niet-openbaar: GPT-4o toonde een hogere AUROC voor niet-openbare data (0,82) dan voor openbare data (0,64). Hoewel dit verschil statistisch significant was op alinea-niveau ( $p \approx 0,02$ ), was het niet statistisch significant op boekniveau ( $p \approx 0,295$ ) vanwege de kleine steekproefomvang.
Controle voor Temporele Bias: De divergentie in resultaten tussen GPT-4o en GPT-4o Mini (getraind op dezelfde periode) suggereert dat de bevindingen niet primair worden gedreven door temporele taalkundige verschuivingen of het algemene vermogen van de modellen om menselijke tekst te onderscheiden van parafrases.

Beperkingen en Onzekerheid
De auteurs benadrukken dat dit voorlopige resultaten zijn gebaseerd op een kleine steekproef (26–28 boeken per model), wat leidt tot brede betrouwbaarheidsintervallen en beperkte statistische power. Het onderzoek erkent dat:

Kleinere modellen (zoals GPT-4o Mini) moeilijker nauwkeurig te testen zijn via lidmaatschapsinference vanwege een lager memorisatievermogen.
Naarmate de modelcapaciteiten verbeteren, het basale vermogen om menselijke tekst van parafrases te onderscheiden toeneemt, wat op den duur de signalen van lidmaatschapsinference kan verdoezelen.
De specifieke bron van de data (bijvoorbeeld LibGen, Books3) wordt afgeleid maar niet bevestigd.

Betekenis en Bijdragen
De belangrijkste bijdrage van het artikel is de toepassing van lidmaatschapsinference-methoden op juridisch verkregen niet-openbaar auteursrechtelijk beschermd materiaal, waardoor detectie mogelijk wordt van potentiële schendingen van toegang die studies die uitsluitend vertrouwen op openbare data niet kunnen identificeren.

De bevindingen onderstrepen de noodzaak van:

Verhoogde Transparantie van Bedrijven: Meer openbaarmaking met betrekking tot bronnen en herkomst van vooropleidingsdata.
Formele Licentiekaders: De ontwikkeling van commerciële markten voor het licentiëren en belonen van trainingsdata om een "extractieve doodlopende weg" voor het content-ecosysteem te voorkomen.
Verantwoordelijkheid: Het gebruik van lidmaatschapsinference-aanvallen als mechanisme om ontwikkelaars van modellen onder druk te zetten om licentieovereenkomsten te onderhandelen, hoewel de auteurs opmerken dat deze methode alleen onvoldoende is, vooral tegen kleinere of geavanceerdere modellen.

Het onderzoek concludeert dat hoewel het bewijs specifiek is voor OpenAI en O'Reilly Media, de onderliggende dynamiek waarschijnlijk uitbreidt naar andere modelontwikkelaars, wat de dringende noodzaak benadrukt van gestructureerde markten en aansprakelijkheidsregelingen om de duurzaamheid van professionele inhoudscreatie in het tijdperk van AI te waarborgen.