Beyond Public Access in LLM Pre-Training Data

Utilizando un conjunto de datos obtenido legalmente de 34 libros con derechos de autor de O'Reilly Media, este estudio emplea el ataque de inferencia de membresía DE-COP para revelar que el modelo GPT-4o de OpenAI exhibe un reconocimiento estadísticamente significativo de contenido detrás de muros de pago (AUROC 0.82), mientras que el modelo más pequeño GPT-4o Mini no lo hace, destacando así la necesidad de una mayor transparencia corporativa y marcos de licencias formales para los datos de entrenamiento de la IA.

Autores originales: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Publicado 2026-05-07
📖 5 min de lectura🧠 Análisis profundo

Autores originales: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

La Gran Pregunta: ¿Se comió la IA el pastel "con pago"?

Imagina a un estudiante gigante (la IA) que está estudiando para un examen final masivo. Para aprender, este estudiante necesita leer millones de libros. Algunos de estos libros son gratuitos y están en una estantería de una biblioteca pública (datos públicos). Otros están bloqueados detrás de un muro de pago, disponibles solo para personas que pagan una cuota de suscripción (datos no públicos).

La gran pregunta que plantea este artículo es: ¿El estudiante hizo trampa? ¿Se coló en la sección bloqueada de la biblioteca para leer los libros de pago, aunque no debía?

El Experimento: La "Prueba de Sabor"

Los investigadores no solo le preguntaron a la IA: "¿Leíste esto?", porque la IA podría mentir o decir "No lo sé". En su lugar, organizaron una ingeniosa prueba de sabor.

  1. La Preparación: Tomaron 34 libros de O'Reilly Media (una famosa editorial tecnológica). Cada libro tiene un capítulo de "muestra gratuita" (público) y el resto del libro detrás de un muro de pago (no público).
  2. El Truco: Tomaron un párrafo de un libro y pidieron a la IA que eligiera el párrafo real escrito por un humano entre un grupo de cuatro opciones. Las otras tres opciones eran párrafos falsos escritos por una IA diferente que sonaban muy similares pero no eran el original.
  3. La Lógica: Si la IA ha "visto" el párrafo real antes durante su entrenamiento, debería poder identificarlo fácilmente, como reconocer una canción que has escuchado cien veces. Si no lo ha visto, debería estar adivinando al azar (como elegir una carta de una baraja).

Los Resultados: ¿Quién aprobó la prueba?

Los investigadores probaron tres versiones diferentes de los "estudiantes" de IA de OpenAI:

  • El Estudiante Mayor (GPT-3.5 Turbo): Este estudiante había dejado de estudiar dos años antes. Cuando se le probó con los libros, no rindió mejor que una adivinanza al azar. Parecía no tener memoria de los libros de pago.
  • El Estudiante Pequeño (GPT-4o Mini): Este es un modelo más nuevo, pero más pequeño y menos potente. Aunque fue entrenado al mismo tiempo que el estudiante grande, también rindió como un adivinador al azar. No pudo distinguir el texto real del texto falso.
  • El Estudiante Grande (GPT-4o): Este es el modelo más nuevo y potente. Este destacó. Identificó correctamente los párrafos reales escritos por humanos de los libros de pago significativamente mejor que el azar.
    • La Puntuación: Los investigadores le dieron una puntuación de 0.82 (donde 0.5 es una adivinanza al azar y 1.0 es perfecto). Esto sugiere que el Estudiante Grande reconoció el contenido al que no debía tener acceso.

El Problema del "Viaje en el Tiempo" (Una Advertencia)

Los investigadores fueron cuidadosos. Temían que quizás el Estudiante Grande simplemente se había vuelto mejor a detectar cualquier escritura humana, no solo los libros específicos que probaron.

Para verificar esto, miraron libros publicados después de que la IA dejara de estudiar. El Estudiante Grande seguía siendo muy bueno detectando escritura humana en estos libros nuevos también. Esto significa que la IA es simplemente mejor en general para detectar texto humano ahora. Sin embargo, el hecho de que fuera incluso mejor detectando los libros antiguos específicos sugiere que probablemente los vio durante su entrenamiento.

Por qué los Resultados no son 100% Certos

El artículo es honesto sobre sus limitaciones. Piénsalo como intentar escuchar un susurro en una habitación llena de gente:

  • Tamaño de Muestra Pequeño: Solo probaron 34 libros. Es como intentar adivinar el sabor de toda una pizza probando solo tres rebanadas. Los resultados son prometedores, pero el "intervalo de confianza" (una medida estadística de certeza) es amplio.
  • El Tamaño del Modelo Importa: El hecho de que el "Estudiante Pequeño" (Mini) no reconociera los libros podría significar simplemente que es demasiado pequeño para recordarlos, no que no los vio. El "Estudiante Grande" tiene una memoria más grande, por lo que podría haber guardado la información incluso si no debía.

La Conclusión Principal

El estudio sugiere que el modelo más avanzado de OpenAI (GPT-4o) probablemente aprendió de libros con derechos de autor que estaban detrás de un muro de pago, a los cuales no debía tener acceso.

Los autores argumentan que esto resalta la necesidad de transparencia. Al igual que un estudiante debería poder listar los libros que estudió para un examen, las empresas de IA deberían poder mostrar exactamente qué datos utilizaron para entrenar sus modelos. Si están utilizando contenido de pago sin permiso o pago, esto crea un problema para las personas que escriben esos libros, potencialmente dañando la calidad del contenido disponible en internet a largo plazo.

En resumen: El "Estudiante Grande" parece haber echado un vistazo furtivo a los libros bloqueados, mientras que el "Estudiante Pequeño" y el "Estudiante Viejo" no lo hicieron. Pero debido a que el tamaño de la clase fue pequeño, necesitamos ver más evidencia antes de llamarlo un engaño definitivo.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →