Beyond Public Access in LLM Pre-Training Data

Ursprüngliche Autoren: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Veröffentlicht 2026-05-07

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Die große Frage: Hat die KI den „paywall-gesperrten" Kuchen gegessen?

Stellen Sie sich einen riesigen Schüler (die KI) vor, der für eine massive Abschlussprüfung lernt. Um zu lernen, muss dieser Schüler Millionen von Büchern lesen. Einige dieser Bücher sind kostenlos und stehen auf einem öffentlichen Bibliotheksregal (öffentliche Daten). Andere sind hinter einer Paywall gesperrt und nur für Personen verfügbar, die ein Abonnement bezahlen (nicht-öffentliche Daten).

Die große Frage, die dieses Paper stellt, lautet: Hat der Schüler betrogen? Hat er sich in den gesperrten Bereich der Bibliothek geschlichen, um die kostenpflichtigen Bücher zu lesen, obwohl er das nicht durfte?

Das Experiment: Der „Geschmackstest"

Die Forscher haben der KI nicht einfach gefragt: „Hast du das gelesen?", denn die KI könnte lügen oder „Ich weiß es nicht" sagen. Stattdessen haben sie einen cleveren Geschmackstest eingerichtet.

Das Setup: Sie haben 34 Bücher von O'Reilly Media (einem berühmten Tech-Verlag) ausgewählt. Jedes Buch hat ein kostenloses „Musterkapitel" (öffentlich) und den Rest des Buches hinter einer Paywall (nicht-öffentlich).
Der Trick: Sie haben einen Absatz aus einem Buch genommen und die KI gebeten, den echten, von Menschen geschriebenen Absatz aus einer Auswahl von vier Optionen zu identifizieren. Die anderen drei Optionen waren gefälschte Absätze, die von einer anderen KI geschrieben wurden, die sehr ähnlich klangen, aber nicht das Original waren.
Die Logik: Wenn die KI den echten Absatz während ihres Trainings „gesehen" hat, sollte sie ihn leicht erkennen können, wie ein Lied, das man hundertmal gehört hat. Wenn sie ihn nicht gesehen hat, sollte sie nur zufällig raten (wie das Ziehen einer Karte aus einem Deck).

Die Ergebnisse: Wer bestand den Test?

Die Forscher testeten drei verschiedene Versionen von OpenAIs KI-„Schülern":

Der ältere Schüler (GPT-3.5 Turbo): Dieser Schüler hatte vor zwei Jahren mit dem Lernen aufgehört. Als er an den Büchern getestet wurde, schnitt er nicht besser ab als bei zufälligem Raten. Es schien, als hätte er keine Erinnerung an die kostenpflichtigen Bücher.
Der kleine Schüler (GPT-4o Mini): Dies ist ein neueres, aber kleineres und weniger leistungsfähiges Modell. Obwohl es zur gleichen Zeit wie der große Schüler trainiert wurde, verhielt es sich ebenfalls wie ein zufälliger Rater. Es konnte den echten Text nicht vom gefälschten Text unterscheiden.
Der große Schüler (GPT-4o): Dies ist das neueste und leistungsfähigste Modell. Dieser stach heraus. Er identifizierte die echten, von Menschen geschriebenen Absätze aus den kostenpflichtigen Büchern deutlich besser als bei zufälligem Raten.
- Die Punktzahl: Die Forscher gaben ihm eine Punktzahl von 0,82 (wobei 0,5 zufälliges Raten und 1,0 Perfektion bedeutet). Dies deutet darauf hin, dass der große Schüler den Inhalt tatsächlich erkannt hat, auf den er keinen Zugriff haben sollte.

Das „Zeitreise"-Problem (Eine Einschränkung)

Die Forscher waren vorsichtig. Sie befürchteten, dass der große Schüler vielleicht einfach besser darin geworden ist, jegliche menschliche Schrift zu erkennen, und nicht nur die spezifischen Bücher, die sie getestet hatten.

Um dies zu überprüfen, betrachteten sie Bücher, die nach dem Zeitpunkt veröffentlicht wurden, an dem die KI mit dem Lernen aufgehört hatte. Der große Schüler war auch bei diesen neuen Büchern sehr gut darin, menschliche Schrift zu erkennen. Das bedeutet, dass die KI generell besser darin geworden ist, menschlichen Text zu erkennen. Die Tatsache, dass sie jedoch noch besser darin war, die spezifischen alten Bücher zu erkennen, deutet darauf hin, dass sie diese wahrscheinlich während ihres Trainings gesehen hat.

Warum die Ergebnisse nicht zu 100 % sicher sind

Das Paper ist ehrlich bezüglich seiner Grenzen. Stellen Sie es sich wie das Versuch vor, ein Flüstern in einem vollen Raum zu hören:

Kleine Stichprobengröße: Sie haben nur 34 Bücher getestet. Es ist wie der Versuch, den Geschmack einer ganzen Pizza zu erraten, indem man nur drei Scheiben probiert. Die Ergebnisse sind vielversprechend, aber das „Konfidenzintervall" (ein statistisches Maß für die Sicherheit) ist breit.
Modellgröße ist entscheidend: Die Tatsache, dass der „kleine Schüler" (Mini) die Bücher nicht erkannt hat, könnte einfach bedeuten, dass er zu klein ist, um sie zu merken, und nicht, dass er sie nicht gesehen hat. Der „große Schüler" hat ein größeres Gedächtnis, sodass er die Information möglicherweise behalten hat, auch wenn er es nicht durfte.

Die Hauptaussage

Die Studie legt nahe, dass OpenAIs fortschrittlichstes Modell (GPT-4o) wahrscheinlich aus urheberrechtlich geschützten Büchern gelernt hat, die hinter einer Paywall lagen, auf die es keinen Zugriff haben sollte.

Die Autoren argumentieren, dass dies die Notwendigkeit von Transparenz unterstreicht. Genau wie ein Schüler in der Lage sein sollte, die Bücher aufzulisten, die er für eine Prüfung gelernt hat, sollten KI-Unternehmen in der Lage sein, genau zu zeigen, welche Daten sie zur Schulung ihrer Modelle verwendet haben. Wenn sie kostenpflichtige Inhalte ohne Erlaubnis oder Zahlung verwenden, entsteht ein Problem für die Menschen, die diese Bücher schreiben, was langfristig möglicherweise die Qualität der auf dem Internet verfügbaren Inhalte beeinträchtigt.

Kurz gesagt: Der „große Schüler" scheint einen Blick auf die gesperrten Bücher geworfen zu haben, während der „kleine Schüler" und der „alte Schüler" es nicht getan haben. Aber da die Klassengröße klein war, müssen wir weitere Beweise prüfen, bevor wir es als definitiven Betrug bezeichnen.

Each language version is independently generated for its own context, not a direct translation.

Technisches Fazit: Über den öffentlichen Zugang hinaus bei den Vorab-Trainingsdaten von LLMs

Problemstellung
Large Language Models (LLMs) benötigen enorme Datenmengen für das Vorab-Training, doch die Ursprünge und der rechtliche Status dieser Daten bleiben von KI-Unternehmen weitgehend unenthüllt. Ein kritisches Anliegen ist, ob Modelle ohne Autorisierung auf nicht-öffentlichen, hinter Paywalls geschützten Inhalten trainiert wurden, was möglicherweise Urheberrechte verletzt und die wirtschaftliche Nachhaltigkeit professioneller Inhaltserstellung untergräbt. Während frühere Studien Mitgliedschafts-Inferenzangriffe auf öffentliche Datensätze nutzten, fehlt es an empirischen Belegen dafür, ob Modelle nicht-öffentliches urheberrechtlich geschütztes Material erkennen, das ihnen rechtlich nicht zugänglich war. Diese Arbeit untersucht, ob die Modelle der GPT-Serie von OpenAI Erkennungsmuster aufweisen, die mit einem Training auf nicht-öffentlichen Inhalten von O'Reilly Media übereinstimmen, und unterscheidet dabei zwischen frei verfügbaren Vorschautexten und hinter Paywalls geschützten Inhalten innerhalb derselben Bücher.

Methodik
Die Studie wendet die Mitgliedschafts-Inferenz-Methode DE-COP (Detecting Exposure to Copyrighted Output via Paraphrasing) (Duarte et al., 2024) auf einen legal beschafften Datensatz von 34 urheberrechtlich geschützten O'Reilly-Media-Büchern an.

Datenerstellung: Die 34 Bücher wurden in 13.962 Absätze unterteilt. Entscheidend ist, dass der Datensatz unterscheidet zwischen:
- Öffentliche Daten: Kostenlos nutzbare Vorschauinhalte (die ersten 1.500 Zeichen von Kapiteln sowie die vollständigen Kapitel 1 und 4).
- Nicht-öffentliche Daten: Hinter Paywalls geschützte Inhalte, die nicht frei verfügbar sind.
- Zeitliche Aufteilungen: Bücher wurden als „potenziell im Datensatz" ( $t-n$ , veröffentlicht vor dem Trainings-Cutoff des Modells) und als „bekannt außerhalb des Datensatzes" ( $t+n$ , veröffentlicht nach dem Cutoff) kategorisiert.
DE-COP-Tests: Für jeden Absatz wurde dem Modell ein Multiple-Choice-Test vorgelegt, der einen originalen, von Menschen verfassten Absatz und drei maschinell generierte Umschreibungen (erstellt mit Claude 3.5 Sonnet) enthielt. Die „Ratenquote" des Modells (der Anteil der Fälle, in denen es den Originaltext über 24 Permutationen der Antwortpositionen hinweg korrekt identifizierte) wurde berechnet.
Aggregation (AUROC): Die auf Absatzebene ermittelten Ratenquoten wurden auf Buchebene gemittelt. Anschließend wurde für jedes Modell ein Fläche unter der Receiver-Operating-Characteristic-Kurve (AUROC)-Wert berechnet. Dieser Wert misst die Fähigkeit des Modells, zwischen Büchern zu unterscheiden, die es während des Trainings potenziell gesehen hat ( $t-n$ ), und Büchern, die es nicht gesehen haben könnte ( $t+n$ ). Ein AUROC-Wert von 0,5 zeigt Zufallswahrscheinlichkeit an, während Werte nahe 1,0 eine starke Trennschärfe (Erkennung) anzeigen.
Getestete Modelle: GPT-3.5 Turbo (Cutoff: September 2021), GPT-4o Mini (Cutoff: Oktober 2023) und GPT-4o (Cutoff: Oktober 2023).
Robustheitsprüfungen: Die Studie testete zwei Modelle (GPT-4o und GPT-4o Mini) mit demselben Trainings-Cutoff, um zeitliche Sprachverschiebungen zu kontrollieren. Zudem wurden Basis-Ratenquoten auf ungesehenen Daten analysiert, um sicherzustellen, dass die Methode nicht lediglich Unterschiede zwischen menschlichen und KI-Texten erfasst, die nichts mit der Trainings-Exposition zu tun haben.

Hauptergebnisse

Erkennung durch GPT-4o: GPT-4o zeigte eine starke Erkennung nicht-öffentlicher O'Reilly-Inhalte und erreichte einen AUROC-Wert von 0,82 (95% bootstrapped CI: 0,60–0,96) für nicht-öffentliche Daten. Dies deutet darauf hin, dass das Modell über Vorwissen dieser hinter Paywalls geschützten Texte verfügt.
Vergleich mit älteren/kleineren Modellen:
- GPT-3.5 Turbo: Erzielte einen Wert knapp über 0,50, was auf keine nachweisbare Erkennung des Inhalts hindeutet und mit seinem früheren Trainings-Cutoff konsistent ist.
- GPT-4o Mini: Obwohl es denselben Trainings-Cutoff wie GPT-4o teilt, zeigte es wenig Erkennung sowohl öffentlicher als auch nicht-öffentlicher Daten (AUROC ~0,56 für nicht-öffentliche Daten) und performte nahe der Zufallswahrscheinlichkeit. Die Autoren vermuten, dass dies auf die reduzierte Speicherkapazität des kleineren Modells zurückzuführen ist und nicht auf Unterschiede in der Zusammensetzung der Trainingsdaten.
Öffentlich vs. Nicht-öffentlich: GPT-4o zeigte einen höheren AUROC-Wert für nicht-öffentliche Daten (0,82) im Vergleich zu öffentlichen Daten (0,64). Während dieser Unterschied auf Absatzebene statistisch signifikant war ( $p \approx 0,02$ ), war er auf Buchebene aufgrund der kleinen Stichprobengröße nicht statistisch signifikant ( $p \approx 0,295$ ).
Kontrolle zeitlicher Verzerrungen: Die Divergenz der Ergebnisse zwischen GPT-4o und GPT-4o Mini (die im selben Zeitraum trainiert wurden) legt nahe, dass die Befunde nicht primär durch zeitliche Sprachverschiebungen oder die allgemeine Fähigkeit der Modelle, menschliche Texte von Umschreibungen zu unterscheiden, getrieben werden.

Einschränkungen und Unsicherheiten
Die Autoren betonen, dass es sich um vorläufige Ergebnisse auf Basis einer kleinen Stichprobe (26–28 Bücher pro Modell) handelt, was zu weiten Konfidenzintervallen und begrenzter statistischer Power führt. Die Studie räumt ein, dass:

Kleinere Modelle (wie GPT-4o Mini) aufgrund ihrer geringeren Speicherkapazität schwerer mittels Mitgliedschafts-Inferenz genau zu testen sind.
Mit der Verbesserung der Modellfähigkeiten die Basisfähigkeit, menschliche Texte von Umschreibungen zu unterscheiden, zunimmt, was Mitgliedschafts-Inferenz-Signale langfristig verschleiern könnte.
Die spezifische Quelle der Daten (z. B. LibGen, Books3) abgeleitet, aber nicht bestätigt ist.

Bedeutung und Beiträge
Der Hauptbeitrag der Arbeit ist die Anwendung von Mitgliedschafts-Inferenz-Methoden auf legal beschafftes, nicht-öffentliches urheberrechtlich geschütztes Material, was die Erkennung potenzieller Zugangsverletzungen ermöglicht, die Studien, die sich ausschließlich auf öffentliche Daten verlassen, nicht identifizieren können.

Die Befunde unterstreichen die Notwendigkeit von:

Erhöhter Unternehmens-Transparenz: Größere Offenlegung bezüglich der Quellen und der Herkunft von Vorab-Trainingsdaten.
Formellen Lizenzierungsrahmen: Der Entwicklung kommerzieller Märkte für die Lizenzierung und Vergütung von Trainingsdaten, um eine „extraktive Sackgasse" für das Inhalts-Ökosystem zu verhindern.
Verantwortlichkeit: Der Nutzung von Mitgliedschafts-Inferenzangriffen als Mechanismus, um Modellentwickler zur Verhandlung von Lizenzvereinbarungen zu drängen, wobei die Autoren anmerken, dass diese Methode allein unzureichend ist, insbesondere gegenüber kleineren oder fortschrittlicheren Modellen.

Die Studie kommt zu dem Schluss, dass die Beweise zwar spezifisch für OpenAI und O'Reilly Media sind, die zugrundeliegenden Dynamiken jedoch wahrscheinlich auf andere Modellentwickler ausgedehnt werden können, was die dringende Notwendigkeit strukturierter Märkte und Haftungsregime unterstreicht, um die Nachhaltigkeit professioneller Inhaltserstellung im Zeitalter der KI sicherzustellen.