Beyond Public Access in LLM Pre-Training Data

En utilisant un ensemble de données légalement obtenu composé de 34 livres protégés par le droit d'auteur de O'Reilly Media, cette étude emploie l'attaque par inférence d'appartenance DE-COP pour révéler que le modèle GPT-4o d'OpenAI présente une reconnaissance statistiquement significative du contenu payant (AUROC 0,82), tandis que le modèle plus petit GPT-4o Mini ne le fait pas, soulignant ainsi la nécessité d'une plus grande transparence des entreprises et de cadres de licence formels pour les données d'entraînement des IA.

Auteurs originaux : Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Publié 2026-05-07
📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

La Grande Question : L'IA a-t-elle mangé le gâteau « payant » ?

Imaginez un géant étudiant (l'IA) qui prépare un examen final colossal. Pour apprendre, cet étudiant doit lire des millions de livres. Certains de ces livres sont gratuits et se trouvent sur les étagères d'une bibliothèque publique (données publiques). D'autres sont verrouillés derrière un mur de paiement, accessibles uniquement aux personnes qui paient un abonnement (données non publiques).

La grande question que pose ce document est : L'étudiant a-t-il triché ? A-t-il réussi à se faufiler dans la section verrouillée de la bibliothèque pour lire les livres payants, alors qu'il ne devrait pas le faire ?

L'Expérience : Le « Test de Dégustation »

Les chercheurs n'ont pas simplement demandé à l'IA : « As-tu lu ceci ? », car l'IA pourrait mentir ou dire « Je ne sais pas ». À la place, ils ont mis en place un ingénieux test de dégustation.

  1. Le Dispositif : Ils ont pris 34 livres de chez O'Reilly Media (un célèbre éditeur technologique). Chaque livre possède un chapitre « échantillon gratuit » (public) et le reste du livre derrière un mur de paiement (non public).
  2. L'astuce : Ils ont pris un paragraphe d'un livre et ont demandé à l'IA de choisir le vrai paragraphe écrit par un humain parmi une sélection de quatre options. Les trois autres options étaient de faux paragraphes écrits par une autre IA qui sonnaient très similaires mais n'étaient pas l'original.
  3. La Logique : Si l'IA a « vu » le vrai paragraphe auparavant pendant son entraînement, elle devrait être capable de le repérer facilement, comme reconnaître une chanson que vous avez entendue cent fois. Si elle ne l'a pas vu, elle devrait simplement deviner au hasard (comme tirer une carte d'un jeu).

Les Résultats : Qui a réussi le test ?

Les chercheurs ont testé trois versions différentes des « étudiants » IA d'OpenAI :

  • L'Étudiant Plus Âgé (GPT-3.5 Turbo) : Cet étudiant avait arrêté d'étudier deux ans plus tôt. Lorsqu'il a été testé sur les livres, il s'est comporté non mieux qu'un devin au hasard. Il semblait ne pas avoir de mémoire des livres payants.
  • Le Petit Étudiant (GPT-4o Mini) : C'est un modèle plus récent, mais plus petit et moins puissant. Même s'il a été entraîné en même temps que le grand étudiant, il s'est également comporté comme un devin au hasard. Il ne pouvait pas distinguer le vrai texte du faux texte.
  • Le Grand Étudiant (GPT-4o) : C'est le modèle le plus récent et le plus puissant. Celui-ci se démarquait. Il a correctement identifié les vrais paragraphes écrits par des humains issus des livres payants de manière significativement meilleure que le hasard.
    • Le Score : Les chercheurs lui ont attribué un score de 0,82 (où 0,5 correspond à une devinette au hasard et 1,0 à la perfection). Cela suggère que le Grand Étudiant a reconnu le contenu auquel il n'aurait pas dû avoir accès.

Le Problème du « Voyage dans le Temps » (Une Mise en Garde)

Les chercheurs ont été prudents. Ils craignaient que le Grand Étudiant ne soit simplement devenu plus habile pour repérer n'importe quel écrit humain, et pas seulement les livres spécifiques qu'ils ont testés.

Pour vérifier cela, ils ont examiné des livres publiés après que l'IA ait arrêté d'étudier. Le Grand Étudiant était toujours très doué pour repérer les écrits humains dans ces nouveaux livres également. Cela signifie que l'IA est simplement globalement meilleure pour repérer les textes humains maintenant. Cependant, le fait qu'elle ait été encore meilleure pour repérer les vieux livres spécifiques suggère qu'elle les a probablement vus pendant son entraînement.

Pourquoi les Résultats ne sont pas Certain à 100 %

Le document est honnête sur ses limites. Pensez-y comme essayer d'entendre un chuchotement dans une pièce bondée :

  • Petite Taille de l'Échantillon : Ils n'ont testé que 34 livres. C'est comme essayer de deviner le goût d'une pizza entière en goûtant seulement trois parts. Les résultats sont prometteurs, mais l'« intervalle de confiance » (une mesure statistique de certitude) est large.
  • La Taille du Modèle Compte : Le fait que le « Petit Étudiant » (Mini) n'ait pas reconnu les livres pourrait simplement signifier qu'il est trop petit pour s'en souvenir, et non pas qu'il ne les a pas vus. Le « Grand Étudiant » a une plus grande mémoire, il pourrait donc avoir conservé l'information même s'il ne devait pas le faire.

La Conclusion Principale

L'étude suggère que le modèle le plus avancé d'OpenAI (GPT-4o) a probablement appris à partir de livres protégés par le droit d'auteur qui étaient derrière un mur de paiement, auxquels il n'aurait pas dû avoir accès.

Les auteurs soutiennent que cela met en lumière la nécessité d'une transparence. Tout comme un étudiant devrait pouvoir lister les livres qu'il a étudiés pour un examen, les entreprises d'IA devraient pouvoir montrer exactement quelles données elles ont utilisées pour entraîner leurs modèles. Si elles utilisent du contenu payant sans autorisation ni paiement, cela crée un problème pour les personnes qui écrivent ces livres, risquant potentiellement de nuire à la qualité du contenu disponible sur Internet à long terme.

En bref : Le « Grand Étudiant » semble avoir jeté un coup d'œil furtif aux livres verrouillés, tandis que le « Petit Étudiant » et l'« Étudiant Âgé » ne l'ont pas fait. Mais parce que la taille de la classe était petite, nous devons examiner davantage de preuves avant de qualifier cela de triche définitive.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →