Beyond Public Access in LLM Pre-Training Data

Met behulp van een legaal verkregen dataset van 34 auteursrechtelijk beschermde boeken van O'Reilly Media past deze studie de DE-COP-membership inference-aanval toe om aan te tonen dat OpenAI's GPT-4o-model een statistisch significante herkenning vertoont van betaalmuur-geblokkeerde inhoud (AUROC 0,82), terwijl het kleinere GPT-4o Mini-model dit niet doet, waarmee de noodzaak wordt onderstreept van grotere corporate transparantie en formele licentiekaders voor AI-trainingdata.

Oorspronkelijke auteurs: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Gepubliceerd 2026-05-07
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De Grote Vraag: Heeft de AI de "Betaalde" Taart Opgegeten?

Stel je een gigantische student (de AI) voor die zich voorbereidt op een enorme eindexamen. Om te leren moet deze student miljoenen boeken lezen. Sommige van deze boeken zijn gratis en staan op een openbare bibliotheekplank (publieke data). Andere staan achter een betaalmuur, alleen beschikbaar voor mensen die een abonnement betalen (niet-openbare data).

De grote vraag die dit artikel stelt is: Heeft de student bedrogen? Heeft hij zich verstopt in het afgesloten gedeelte van de bibliotheek om de betaalde boeken te lezen, ook al mocht hij dat niet?

Het Experiment: De "Smaaktent"

De onderzoekers vroegen de AI niet zomaar: "Heb je dit gelezen?", omdat de AI zou kunnen liegen of zeggen "Ik weet het niet". In plaats daarvan stelden ze een slimme smaaktent op.

  1. De Opzet: Ze namen 34 boeken van O'Reilly Media (een beroemde tech-uitgever). Elk boek heeft een "gratis proef" hoofdstuk (publiek) en de rest van het boek achter een betaalmuur (niet-openbaar).
  2. De Truc: Ze namen een alinea uit een boek en vroegen de AI om de echte, door mensen geschreven alinea te kiezen uit een rijtje van vier opties. De andere drie opties waren nep-alinea's geschreven door een andere AI die er heel veel op leek, maar niet de origineel waren.
  3. De Logica: Als de AI de echte alinea eerder heeft "gezien" tijdens haar training, zou ze hem makkelijk moeten kunnen herkennen, zoals het herkennen van een nummer dat je honderd keer hebt gehoord. Als ze het niet heeft gezien, zou ze gewoon willekeurig moeten gokken (zoals het trekken van een kaart uit een deck).

De Resultaten: Wie Haalde de Toets?

De onderzoekers testten drie verschillende versies van OpenAI's AI-"studenten":

  • De Oudere Student (GPT-3.5 Turbo): Deze student was twee jaar eerder gestopt met studeren. Bij de test met de boeken presteerde hij niet beter dan willekeurig gokken. Het leek alsof hij geen herinnering had aan de betaalde boeken.
  • De Kleine Student (GPT-4o Mini): Dit is een nieuwere, maar kleinere en minder krachtige model. Hoewel het op hetzelfde moment als de grote student was getraind, presteerde het ook als een willekeurige gokker. Het kon de echte tekst niet onderscheiden van de nep-tekst.
  • De Grote Student (GPT-4o): Dit is het nieuwste en krachtigste model. Deze viel op. Het identificeerde de echte, door mensen geschreven alinea's uit de betaalde boeken significant beter dan willekeurige kans.
    • De Score: De onderzoekers gaven het een score van 0,82 (waarbij 0,5 willekeurig gokken is en 1,0 perfect). Dit suggereert dat de Grote Student de inhoud wel herkende waar hij geen toegang toe zou moeten hebben gehad.

Het "Tijdsreizen"-Probleem (Een Voorbehoud)

De onderzoekers waren voorzichtig. Ze maakten zich zorgen dat de Grote Student misschien gewoon slimmer was geworden in het opsporen van elke door mensen geschreven tekst, en niet alleen de specifieke boeken die ze testten.

Om dit te controleren, keken ze naar boeken die na het moment waarop de AI stopte met studeren, werden gepubliceerd. De Grote Student was ook erg goed in het opsporen van door mensen geschreven tekst in deze nieuwe boeken. Dit betekent dat de AI nu over het algemeen beter is in het herkennen van menselijke tekst. Het feit dat het echter nog beter was in het opsporen van de specifieke oude boeken, suggereert dat hij ze waarschijnlijk tijdens zijn training heeft gezien.

Waarom de Resultaten Niet 100% Zeker Zijn

Het artikel is eerlijk over zijn beperkingen. Denk eraan als het proberen om een fluistering te horen in een drukke zaal:

  • Kleine Steekproef: Ze testten slechts 34 boeken. Het is alsof je probeert de smaak van een hele pizza te raden door slechts drie plakjes te proeven. De resultaten zijn veelbelovend, maar het "betrouwbaarheidsinterval" (een statistische maatstaf voor zekerheid) is breed.
  • Modelgrootte Maakt Uit: Het feit dat de "Kleine Student" (Mini) de boeken niet herkende, betekent misschien gewoon dat hij te klein is om ze te onthouden, niet dat hij ze niet heeft gezien. De "Grote Student" heeft een groter geheugen, dus hij heeft de informatie misschien bewaard, zelfs als hij dat niet mocht.

De Belangrijkste Conclusie

De studie suggereert dat OpenAI's meest geavanceerde model (GPT-4o) waarschijnlijk heeft geleerd van auteursrechtelijk beschermde boeken die achter een betaalmuur stonden, waar hij geen toegang toe zou moeten hebben gehad.

De auteurs betogen dat dit de noodzaak onderstreept van transparantie. Net zoals een student in staat moet zijn om de boeken op te sommen waarvoor hij heeft gestudeerd voor een examen, moeten AI-bedrijven in staat zijn om precies te laten zien welke data ze hebben gebruikt om hun modellen te trainen. Als ze betaalde inhoud gebruiken zonder toestemming of betaling, creëert dit een probleem voor de mensen die die boeken schrijven, wat op de lange termijn mogelijk de kwaliteit van de inhoud die op internet beschikbaar is, kan schaden.

Kortom: De "Grote Student" lijkt een glimp te hebben opgevangen van de afgesloten boeken, terwijl de "Kleine Student" en de "Oude Student" dat niet deden. Maar omdat de klasgrootte klein was, moeten we meer bewijzen bekijken voordat we het een definitieve bedrog noemen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →