Beyond Public Access in LLM Pre-Training Data

Autores originales: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Publicado 2026-05-07

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

La Gran Pregunta: ¿Se comió la IA el pastel "con pago"?

Imagina a un estudiante gigante (la IA) que está estudiando para un examen final masivo. Para aprender, este estudiante necesita leer millones de libros. Algunos de estos libros son gratuitos y están en una estantería de una biblioteca pública (datos públicos). Otros están bloqueados detrás de un muro de pago, disponibles solo para personas que pagan una cuota de suscripción (datos no públicos).

La gran pregunta que plantea este artículo es: ¿El estudiante hizo trampa? ¿Se coló en la sección bloqueada de la biblioteca para leer los libros de pago, aunque no debía?

El Experimento: La "Prueba de Sabor"

Los investigadores no solo le preguntaron a la IA: "¿Leíste esto?", porque la IA podría mentir o decir "No lo sé". En su lugar, organizaron una ingeniosa prueba de sabor.

La Preparación: Tomaron 34 libros de O'Reilly Media (una famosa editorial tecnológica). Cada libro tiene un capítulo de "muestra gratuita" (público) y el resto del libro detrás de un muro de pago (no público).
El Truco: Tomaron un párrafo de un libro y pidieron a la IA que eligiera el párrafo real escrito por un humano entre un grupo de cuatro opciones. Las otras tres opciones eran párrafos falsos escritos por una IA diferente que sonaban muy similares pero no eran el original.
La Lógica: Si la IA ha "visto" el párrafo real antes durante su entrenamiento, debería poder identificarlo fácilmente, como reconocer una canción que has escuchado cien veces. Si no lo ha visto, debería estar adivinando al azar (como elegir una carta de una baraja).

Los Resultados: ¿Quién aprobó la prueba?

Los investigadores probaron tres versiones diferentes de los "estudiantes" de IA de OpenAI:

El Estudiante Mayor (GPT-3.5 Turbo): Este estudiante había dejado de estudiar dos años antes. Cuando se le probó con los libros, no rindió mejor que una adivinanza al azar. Parecía no tener memoria de los libros de pago.
El Estudiante Pequeño (GPT-4o Mini): Este es un modelo más nuevo, pero más pequeño y menos potente. Aunque fue entrenado al mismo tiempo que el estudiante grande, también rindió como un adivinador al azar. No pudo distinguir el texto real del texto falso.
El Estudiante Grande (GPT-4o): Este es el modelo más nuevo y potente. Este destacó. Identificó correctamente los párrafos reales escritos por humanos de los libros de pago significativamente mejor que el azar.
- La Puntuación: Los investigadores le dieron una puntuación de 0.82 (donde 0.5 es una adivinanza al azar y 1.0 es perfecto). Esto sugiere que el Estudiante Grande sí reconoció el contenido al que no debía tener acceso.

El Problema del "Viaje en el Tiempo" (Una Advertencia)

Los investigadores fueron cuidadosos. Temían que quizás el Estudiante Grande simplemente se había vuelto mejor a detectar cualquier escritura humana, no solo los libros específicos que probaron.

Para verificar esto, miraron libros publicados después de que la IA dejara de estudiar. El Estudiante Grande seguía siendo muy bueno detectando escritura humana en estos libros nuevos también. Esto significa que la IA es simplemente mejor en general para detectar texto humano ahora. Sin embargo, el hecho de que fuera incluso mejor detectando los libros antiguos específicos sugiere que probablemente los vio durante su entrenamiento.

Por qué los Resultados no son 100% Certos

El artículo es honesto sobre sus limitaciones. Piénsalo como intentar escuchar un susurro en una habitación llena de gente:

Tamaño de Muestra Pequeño: Solo probaron 34 libros. Es como intentar adivinar el sabor de toda una pizza probando solo tres rebanadas. Los resultados son prometedores, pero el "intervalo de confianza" (una medida estadística de certeza) es amplio.
El Tamaño del Modelo Importa: El hecho de que el "Estudiante Pequeño" (Mini) no reconociera los libros podría significar simplemente que es demasiado pequeño para recordarlos, no que no los vio. El "Estudiante Grande" tiene una memoria más grande, por lo que podría haber guardado la información incluso si no debía.

La Conclusión Principal

El estudio sugiere que el modelo más avanzado de OpenAI (GPT-4o) probablemente aprendió de libros con derechos de autor que estaban detrás de un muro de pago, a los cuales no debía tener acceso.

Los autores argumentan que esto resalta la necesidad de transparencia. Al igual que un estudiante debería poder listar los libros que estudió para un examen, las empresas de IA deberían poder mostrar exactamente qué datos utilizaron para entrenar sus modelos. Si están utilizando contenido de pago sin permiso o pago, esto crea un problema para las personas que escriben esos libros, potencialmente dañando la calidad del contenido disponible en internet a largo plazo.

En resumen: El "Estudiante Grande" parece haber echado un vistazo furtivo a los libros bloqueados, mientras que el "Estudiante Pequeño" y el "Estudiante Viejo" no lo hicieron. Pero debido a que el tamaño de la clase fue pequeño, necesitamos ver más evidencia antes de llamarlo un engaño definitivo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Más allá del Acceso Público en los Datos de Pre-entrenamiento de LLM

Enunciado del Problema
Los Modelos de Lenguaje Grande (LLM) requieren vastas cantidades de datos para su pre-entrenamiento, sin embargo, los orígenes y el estatus legal de estos datos permanecen en gran medida no revelados por las corporaciones de IA. Una preocupación crítica es si los modelos se entrenan con contenido no público y detrás de muros de pago sin autorización, violando potencialmente los derechos de autor y socavando la sostenibilidad económica de la creación de contenido profesional. Si bien estudios anteriores han utilizado ataques de inferencia de membresía en conjuntos de datos públicos, existe una falta de evidencia empírica sobre si los modelos reconocen material con derechos de autor no público que no estuvo legalmente accesible para ellos. Este artículo investiga si los modelos de la serie GPT de OpenAI exhiben patrones de reconocimiento consistentes con haber sido entrenados con contenido de libros de O'Reilly Media no público, distinguiendo entre texto de vista previa disponible gratuitamente y contenido detrás de muros de pago dentro de los mismos libros.

Metodología
El estudio emplea un método de ataque de inferencia de membresía DE-COP (Detecting Exposure to Copyrighted Output via Paraphrasing) (Duarte et al., 2024) aplicado a un conjunto de datos legalmente obtenido de 34 libros con derechos de autor de O'Reilly Media.

Construcción de Datos: Los 34 libros se dividieron en 13.962 párrafos. Crucialmente, el conjunto de datos distingue entre:
- Datos Públicos: Contenido de vista previa de uso gratuito (los primeros 1.500 caracteres de los capítulos, y los capítulos 1 y 4 completos).
- Datos No Públicos: Contenido detrás de muros de pago no disponible gratuitamente.
- Divisiones Temporales: Los libros se categorizaron como "potencialmente en el conjunto de datos" ( $t-n$ , publicados antes del corte de entrenamiento del modelo) y "conocidos fuera del conjunto de datos" ( $t+n$ , publicados después del corte).
Pruebas DE-COP: Para cada párrafo, se presentó al modelo una prueba de opción múltiple que contenía un párrafo original escrito por humanos y tres parafraseos generados por máquina (creados usando Claude 3.5 Sonnet). Se calculó la "tasa de acierto" del modelo (la proporción de veces que identificó correctamente el texto original a través de 24 permutaciones de las posiciones de las respuestas).
Agregación (AUROC): Las tasas de acierto a nivel de párrafo se promediaron a nivel de libro. Luego se calculó una puntuación de Área bajo la Curva Característica Operativa del Receptor (AUROC) para cada modelo. Esta puntuación mide la capacidad del modelo para distinguir entre libros que potencialmente vio durante el entrenamiento ( $t-n$ ) y libros que no pudo haber visto ( $t+n$ ). Una AUROC de 0.5 indica azar aleatorio, mientras que valores que se acercan a 1.0 indican una fuerte separabilidad (reconocimiento).
Modelos Probados: GPT-3.5 Turbo (corte: septiembre de 2021), GPT-4o Mini (corte: octubre de 2023) y GPT-4o (corte: octubre de 2023).
Verificaciones de Robustez: El estudio probó dos modelos (GPT-4o y GPT-4o Mini) con el mismo corte de entrenamiento para controlar los cambios temporales en el lenguaje. También analizó las tasas de acierto de referencia en datos no vistos para asegurar que el método no detectara simplemente diferencias entre texto humano y texto de IA no relacionadas con la exposición al entrenamiento.

Resultados Clave

Reconocimiento de GPT-4o: GPT-4o demostró un fuerte reconocimiento del contenido no público de O'Reilly, logrando una puntuación AUROC de 0.82 (IC del 95% con bootstrapping: 0.60–0.96) para datos no públicos. Esto sugiere que el modelo tiene conocimiento previo de estos textos detrás de muros de pago.
Comparación con Modelos Antiguos/Pequeños:
- GPT-3.5 Turbo: Obtuvo una puntuación apenas superior a 0.50, indicando ningún reconocimiento detectable del contenido, consistente con su corte de entrenamiento anterior.
- GPT-4o Mini: A pesar de compartir el mismo corte de entrenamiento que GPT-4o, mostró poco reconocimiento tanto de datos públicos como no públicos (AUROC ~0.56 para no públicos), desempeñándose cerca del azar aleatorio. Los autores sugieren que esto puede deberse a la capacidad reducida de memorización del modelo más pequeño en lugar de una diferencia en la composición de los datos de entrenamiento.
Público vs. No Público: GPT-4o mostró una AUROC más alta para datos no públicos (0.82) en comparación con datos públicos (0.64). Si bien esta diferencia fue estadísticamente significativa a nivel de párrafo ( $p \approx 0.02$ ), no lo fue a nivel de libro ( $p \approx 0.295$ ) debido al tamaño pequeño de la muestra.
Control de Sesgo Temporal: La divergencia en los resultados entre GPT-4o y GPT-4o Mini (entrenados en el mismo período) sugiere que los hallazgos no son impulsados principalmente por cambios temporales en el lenguaje o por la capacidad general de los modelos para distinguir texto humano de parafraseos.

Limitaciones e Incertidumbre
Los autores enfatizan que estos son resultados preliminares basados en una muestra pequeña (26–28 libros por modelo), lo que conduce a intervalos de confianza amplios y un poder estadístico limitado. El estudio reconoce que:

Los modelos más pequeños (como GPT-4o Mini) pueden ser más difíciles de probar con precisión mediante inferencia de membresía debido a su menor capacidad de memorización.
A medida que las capacidades de los modelos mejoran, la capacidad de referencia para distinguir texto humano de parafraseos aumenta, lo que eventualmente podría oscurecer las señales de inferencia de membresía.
La fuente específica de los datos (por ejemplo, LibGen, Books3) se infiere pero no se confirma.

Significado y Contribuciones
La principal contribución del artículo es la aplicación de métodos de inferencia de membresía a material con derechos de autor no público obtenido legalmente, permitiendo la detección de posibles violaciones de acceso que los estudios que dependen exclusivamente de datos públicos no pueden identificar.

Los hallazgos subrayan la necesidad de:

Mayor Transparencia Corporativa: Mayor divulgación sobre las fuentes y la procedencia de los datos de pre-entrenamiento.
Marcos de Licencias Formales: El desarrollo de mercados comerciales para la licencia y remuneración de datos de entrenamiento para prevenir un "callejón sin salida extractivo" para el ecosistema de contenido.
Responsabilidad: El uso de ataques de inferencia de membresía como un mecanismo para presionar a los desarrolladores de modelos a negociar acuerdos de licencia, aunque los autores señalan que este método por sí solo es insuficiente, especialmente frente a modelos más pequeños o más avanzados.

El estudio concluye que, si bien la evidencia es específica de OpenAI y O'Reilly Media, las dinámicas subyacentes probablemente se extienden a otros desarrolladores de modelos, destacando la necesidad urgente de mercados estructurados y regímenes de responsabilidad para garantizar la sostenibilidad de la creación de contenido profesional en la era de la IA.