Beyond Public Access in LLM Pre-Training Data

Auteurs originaux : Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Publié 2026-05-07

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

La Grande Question : L'IA a-t-elle mangé le gâteau « payant » ?

Imaginez un géant étudiant (l'IA) qui prépare un examen final colossal. Pour apprendre, cet étudiant doit lire des millions de livres. Certains de ces livres sont gratuits et se trouvent sur les étagères d'une bibliothèque publique (données publiques). D'autres sont verrouillés derrière un mur de paiement, accessibles uniquement aux personnes qui paient un abonnement (données non publiques).

La grande question que pose ce document est : L'étudiant a-t-il triché ? A-t-il réussi à se faufiler dans la section verrouillée de la bibliothèque pour lire les livres payants, alors qu'il ne devrait pas le faire ?

L'Expérience : Le « Test de Dégustation »

Les chercheurs n'ont pas simplement demandé à l'IA : « As-tu lu ceci ? », car l'IA pourrait mentir ou dire « Je ne sais pas ». À la place, ils ont mis en place un ingénieux test de dégustation.

Le Dispositif : Ils ont pris 34 livres de chez O'Reilly Media (un célèbre éditeur technologique). Chaque livre possède un chapitre « échantillon gratuit » (public) et le reste du livre derrière un mur de paiement (non public).
L'astuce : Ils ont pris un paragraphe d'un livre et ont demandé à l'IA de choisir le vrai paragraphe écrit par un humain parmi une sélection de quatre options. Les trois autres options étaient de faux paragraphes écrits par une autre IA qui sonnaient très similaires mais n'étaient pas l'original.
La Logique : Si l'IA a « vu » le vrai paragraphe auparavant pendant son entraînement, elle devrait être capable de le repérer facilement, comme reconnaître une chanson que vous avez entendue cent fois. Si elle ne l'a pas vu, elle devrait simplement deviner au hasard (comme tirer une carte d'un jeu).

Les Résultats : Qui a réussi le test ?

Les chercheurs ont testé trois versions différentes des « étudiants » IA d'OpenAI :

L'Étudiant Plus Âgé (GPT-3.5 Turbo) : Cet étudiant avait arrêté d'étudier deux ans plus tôt. Lorsqu'il a été testé sur les livres, il s'est comporté non mieux qu'un devin au hasard. Il semblait ne pas avoir de mémoire des livres payants.
Le Petit Étudiant (GPT-4o Mini) : C'est un modèle plus récent, mais plus petit et moins puissant. Même s'il a été entraîné en même temps que le grand étudiant, il s'est également comporté comme un devin au hasard. Il ne pouvait pas distinguer le vrai texte du faux texte.
Le Grand Étudiant (GPT-4o) : C'est le modèle le plus récent et le plus puissant. Celui-ci se démarquait. Il a correctement identifié les vrais paragraphes écrits par des humains issus des livres payants de manière significativement meilleure que le hasard.
- Le Score : Les chercheurs lui ont attribué un score de 0,82 (où 0,5 correspond à une devinette au hasard et 1,0 à la perfection). Cela suggère que le Grand Étudiant a reconnu le contenu auquel il n'aurait pas dû avoir accès.

Le Problème du « Voyage dans le Temps » (Une Mise en Garde)

Les chercheurs ont été prudents. Ils craignaient que le Grand Étudiant ne soit simplement devenu plus habile pour repérer n'importe quel écrit humain, et pas seulement les livres spécifiques qu'ils ont testés.

Pour vérifier cela, ils ont examiné des livres publiés après que l'IA ait arrêté d'étudier. Le Grand Étudiant était toujours très doué pour repérer les écrits humains dans ces nouveaux livres également. Cela signifie que l'IA est simplement globalement meilleure pour repérer les textes humains maintenant. Cependant, le fait qu'elle ait été encore meilleure pour repérer les vieux livres spécifiques suggère qu'elle les a probablement vus pendant son entraînement.

Pourquoi les Résultats ne sont pas Certain à 100 %

Le document est honnête sur ses limites. Pensez-y comme essayer d'entendre un chuchotement dans une pièce bondée :

Petite Taille de l'Échantillon : Ils n'ont testé que 34 livres. C'est comme essayer de deviner le goût d'une pizza entière en goûtant seulement trois parts. Les résultats sont prometteurs, mais l'« intervalle de confiance » (une mesure statistique de certitude) est large.
La Taille du Modèle Compte : Le fait que le « Petit Étudiant » (Mini) n'ait pas reconnu les livres pourrait simplement signifier qu'il est trop petit pour s'en souvenir, et non pas qu'il ne les a pas vus. Le « Grand Étudiant » a une plus grande mémoire, il pourrait donc avoir conservé l'information même s'il ne devait pas le faire.

La Conclusion Principale

L'étude suggère que le modèle le plus avancé d'OpenAI (GPT-4o) a probablement appris à partir de livres protégés par le droit d'auteur qui étaient derrière un mur de paiement, auxquels il n'aurait pas dû avoir accès.

Les auteurs soutiennent que cela met en lumière la nécessité d'une transparence. Tout comme un étudiant devrait pouvoir lister les livres qu'il a étudiés pour un examen, les entreprises d'IA devraient pouvoir montrer exactement quelles données elles ont utilisées pour entraîner leurs modèles. Si elles utilisent du contenu payant sans autorisation ni paiement, cela crée un problème pour les personnes qui écrivent ces livres, risquant potentiellement de nuire à la qualité du contenu disponible sur Internet à long terme.

En bref : Le « Grand Étudiant » semble avoir jeté un coup d'œil furtif aux livres verrouillés, tandis que le « Petit Étudiant » et l'« Étudiant Âgé » ne l'ont pas fait. Mais parce que la taille de la classe était petite, nous devons examiner davantage de preuves avant de qualifier cela de triche définitive.

Each language version is independently generated for its own context, not a direct translation.

Résumé technique : Au-delà de l'accès public dans les données de pré-entraînement des LLM

Énoncé du problème
Les grands modèles de langage (LLM) nécessitent d'énormes quantités de données pour leur pré-entraînement, mais les origines et le statut juridique de ces données restent largement non divulgués par les entreprises d'IA. Une préoccupation critique est de savoir si les modèles sont entraînés sur du contenu non public, derrière un paywall, sans autorisation, violant potentiellement le droit d'auteur et sapant la viabilité économique de la création de contenu professionnel. Alors que des études antérieures ont utilisé des attaques par inférence d'appartenance sur des ensembles de données publics, il manque de preuves empiriques concernant la capacité des modèles à reconnaître du matériel protégé par le droit d'auteur non public qui n'était pas légalement accessible. Cet article examine si les modèles de la série GPT d'OpenAI présentent des schémas de reconnaissance cohérents avec un entraînement sur du contenu de livres non public d'O'Reilly Media, en distinguant le texte d'aperçu librement disponible du contenu derrière un paywall au sein des mêmes livres.

Méthodologie
L'étude emploie une méthode d'attaque par inférence d'appartenance DE-COP (Détection de l'exposition à une sortie protégée par le droit d'auteur via le paraphrase) (Duarte et al., 2024) appliquée à un ensemble de données légalement obtenu de 34 livres protégés par le droit d'auteur d'O'Reilly Media.

Construction des données : Les 34 livres ont été divisés en 13 962 paragraphes. Crucialement, l'ensemble de données distingue :
- Données publiques : Contenu d'aperçu gratuit (les 1 500 premiers caractères des chapitres, et les chapitres 1 et 4 complets).
- Données non publiques : Contenu derrière un paywall non disponible gratuitement.
- Découpages temporels : Les livres ont été catégorisés comme « potentiellement dans l'ensemble de données » ( $t-n$ , publiés avant la date de coupure de l'entraînement du modèle) et « connus hors ensemble de données » ( $t+n$ , publiés après la date de coupure).
Tests DE-COP : Pour chaque paragraphe, le modèle a été confronté à un test à choix multiples contenant un paragraphe original rédigé par un humain et trois paraphrases générées par une machine (créées à l'aide de Claude 3.5 Sonnet). Le « taux de devinette » du modèle (la proportion de fois où il a correctement identifié le texte original sur 24 permutations des positions de réponse) a été calculé.
Agrégation (AUROC) : Les taux de devinette au niveau des paragraphes ont été moyennés au niveau du livre. Un score de surface sous la courbe caractéristique d'opération du récepteur (AUROC) a ensuite été calculé pour chaque modèle. Ce score mesure la capacité du modèle à distinguer les livres qu'il a potentiellement vus pendant l'entraînement ( $t-n$ ) des livres qu'il n'aurait pas pu voir ( $t+n$ ). Un AUROC de 0,5 indique un hasard aléatoire, tandis que des valeurs approchant 1,0 indiquent une forte séparabilité (reconnaissance).
Modèles testés : GPT-3.5 Turbo (date de coupure : septembre 2021), GPT-4o Mini (date de coupure : octobre 2023) et GPT-4o (date de coupure : octobre 2023).
Vérifications de robustesse : L'étude a testé deux modèles (GPT-4o et GPT-4o Mini) avec la même date de coupure d'entraînement pour contrôler les décalages linguistiques temporels. Elle a également analysé les taux de devinette de base sur des données invisibles pour s'assurer que la méthode ne détectait pas simplement des différences entre texte humain et texte IA sans rapport avec l'exposition à l'entraînement.

Résultats clés

Reconnaissance par GPT-4o : GPT-4o a démontré une forte reconnaissance du contenu non public d'O'Reilly, obtenant un score AUROC de 0,82 (IC à 95 % par bootstrap : 0,60–0,96) pour les données non publiques. Cela suggère que le modèle possède une connaissance préalable de ces textes derrière un paywall.
Comparaison avec des modèles plus anciens ou plus petits :
- GPT-3.5 Turbo : A obtenu un score légèrement supérieur à 0,50, indiquant aucune reconnaissance détectable du contenu, ce qui est cohérent avec sa date de coupure d'entraînement plus précoce.
- GPT-4o Mini : Bien qu'il partage la même date de coupure d'entraînement que GPT-4o, il a montré peu de reconnaissance des données publiques ou non publiques (AUROC ~0,56 pour les données non publiques), performant près du hasard aléatoire. Les auteurs suggèrent que cela pourrait être dû à la capacité de mémorisation réduite du modèle plus petit plutôt qu'à une différence dans la composition des données d'entraînement.
Public vs Non public : GPT-4o a affiché un AUROC plus élevé pour les données non publiques (0,82) par rapport aux données publiques (0,64). Bien que cette différence ait été statistiquement significative au niveau des paragraphes ( $p \approx 0,02$ ), elle ne l'était pas au niveau des livres ( $p \approx 0,295$ ) en raison de la petite taille de l'échantillon.
Contrôle du biais temporel : La divergence des résultats entre GPT-4o et GPT-4o Mini (entraînés sur la même période) suggère que les résultats ne sont pas principalement dictés par des décalages linguistiques temporels ou par la capacité générale des modèles à distinguer le texte humain des paraphrases.

Limites et incertitudes
Les auteurs soulignent qu'il s'agit de résultats préliminaires basés sur un petit échantillon (26 à 28 livres par modèle), conduisant à des intervalles de confiance larges et à une puissance statistique limitée. L'étude reconnaît que :

Les modèles plus petits (comme GPT-4o Mini) peuvent être plus difficiles à tester avec précision via l'inférence d'appartenance en raison d'une capacité de mémorisation plus faible.
À mesure que les capacités des modèles s'améliorent, la capacité de base à distinguer le texte humain des paraphrases augmente, ce qui pourrait éventuellement obscurcir les signaux d'inférence d'appartenance.
La source spécifique des données (par exemple, LibGen, Books3) est déduite mais non confirmée.

Signification et contributions
La contribution principale de l'article est l'application de méthodes d'inférence d'appartenance à du matériel protégé par le droit d'auteur non public obtenu légalement, permettant la détection de violations potentielles d'accès que les études reposant uniquement sur des données publiques ne peuvent pas identifier.

Les résultats soulignent la nécessité de :

Une transparence accrue des entreprises : Une plus grande divulgation concernant les sources et la provenance des données de pré-entraînement.
Des cadres de licence formels : Le développement de marchés commerciaux pour la licence et la rémunération des données d'entraînement afin d'éviter une « impasse extractive » pour l'écosystème du contenu.
La responsabilisation : L'utilisation des attaques par inférence d'appartenance comme mécanisme pour exercer une pression sur les développeurs de modèles afin de négocier des accords de licence, bien que les auteurs notent que cette méthode seule est insuffisante, en particulier face à des modèles plus petits ou plus avancés.

L'étude conclut que si les preuves sont spécifiques à OpenAI et à O'Reilly Media, les dynamiques sous-jacentes s'étendent probablement à d'autres développeurs de modèles, soulignant le besoin urgent de marchés structurés et de régimes de responsabilité pour assurer la viabilité de la création de contenu professionnel à l'ère de l'IA.