Scale Dependent Data Duplication

Este artículo demuestra que la duplicación de datos es dependiente de la escala, ya que a medida que aumenta la capacidad del modelo, los duplicados semánticos se comportan como duplicados exactos, lo que degrada el rendimiento y desvía las leyes de escalado, permitiendo así derivar nuevas leyes para predecir y corregir estos efectos.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho

Publicado 2026-03-10
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

🚀 El Problema Oculto de los Gigantes de la Inteligencia Artificial

Imagina que estás entrenando a un perro muy inteligente para que aprenda trucos.

1. La vieja idea: "Más datos, mejor perro"
Durante años, la industria de la Inteligencia Artificial (IA) ha seguido una regla de oro: si quieres que tu modelo sea más inteligente, simplemente dale más libros para leer. Si tienes 1 millón de libros, el perro aprende bien. Si tienes 100 millones, aprende mejor. Si tienes 1 billón, ¡será un genio! Esto se llama "escalar" (hacerlo más grande y darle más datos).

2. El problema: El "Efecto Eco"
Los autores de este paper descubrieron un truco sucio en esta estrategia. No se trata solo de cuántos libros tienes, sino de qué tan diferentes son entre sí.

Imagina que tienes una biblioteca con 100 libros.

  • Escenario A: Los 100 libros son historias totalmente diferentes (una sobre dragones, otra sobre cocina, otra sobre el espacio). Tu perro aprende 100 cosas distintas.
  • Escenario B: Tienes 100 libros, pero 99 de ellos son copias exactas del mismo libro, o son traducciones del mismo cuento en diferentes idiomas.

Si tu perro es tonto (un modelo pequeño), no se da cuenta. Lee el libro de dragones, luego lee la traducción al francés y piensa: "¡Oh, otra historia nueva!". Sigue aprendiendo.
Pero si tu perro es un genio (un modelo grande y capaz), pasa algo curioso: se da cuenta de que los 99 libros dicen exactamente lo mismo.

Cuando el perro es muy inteligente, leer la misma historia en inglés y luego en francés no le aporta nada nuevo. Es como si le dieras el mismo mensaje 99 veces. En el mundo de la IA, esto se llama duplicación semántica.

🧠 ¿Por qué es esto peligroso?

El paper dice que hay dos cosas malas que ocurren cuando los modelos se vuelven gigantes:

  1. Se vuelven "súper sensibles": A medida que el modelo crece, empieza a entender el significado de las palabras, no solo las palabras en sí. Así que, para un modelo gigante, un texto en español y su traducción al inglés son "gemelos idénticos". Si los ves como duplicados, el modelo deja de aprender cosas nuevas y empieza a "memorizar" lo mismo una y otra vez.
  2. La biblioteca es más pequeña de lo que parece: A medida que buscamos más y más datos en internet para entrenar a estos gigantes, nos encontramos con que hay muchísimas más copias de las que pensábamos. No son copias exactas (como dos archivos idénticos), sino copias "de significado" (el mismo artículo de noticias en 50 sitios web diferentes, o el mismo código escrito de 10 formas distintas).

La analogía de la lluvia:
Imagina que estás intentando llenar un cubo con agua de lluvia.

  • Al principio, cada gota (dato) llena un poco el cubo.
  • Pero si la lluvia empieza a caer en el mismo lugar una y otra vez (datos duplicados semánticamente), el cubo se desborda en un solo punto y no se llena más, aunque llueva durante horas.
  • Los modelos pequeños no notan que la lluvia cae en el mismo lugar. Los modelos gigantes sí lo notan, y por eso, dejan de crecer aunque sigas lloviendo datos.

🔍 ¿Qué descubrieron los autores?

Hicieron tres experimentos clave:

  1. La prueba de los gradientes: Miraron cómo "piensan" los modelos. Descubrieron que los modelos pequeños reaccionan diferente a un texto y su traducción (piensan que son distintos). Pero los modelos grandes reaccionan exactamente igual a ambos. ¡Para ellos, es lo mismo!
  2. El mapa de colisiones: Usaron un mapa para ver qué tan parecidos son los documentos entre sí. En bibliotecas pequeñas, los documentos están bien separados. Pero en bibliotecas gigantes (cientos de miles de millones de palabras), los documentos empiezan a chocar y amontonarse. ¡Hay mucho más "ruido" y menos variedad de la que creíamos!
  3. La predicción fallida: Intentaron predecir qué tan bien funcionaría un modelo gigante basándose en modelos pequeños. Fallaron. ¿Por qué? Porque los modelos pequeños no sufren tanto por la falta de variedad, pero los gigantes . Si sigues la receta antigua, te sorprenderá ver que el modelo gigante no mejora tanto como esperabas.

💡 ¿Qué solución proponen?

No dicen que debemos dejar de escalar, sino que debemos cambiar la receta.

  • No cuentes solo libros, cuenta ideas: Ya no basta con contar cuántos tokens (palabras) tenemos. Tenemos que medir cuántas ideas únicas hay realmente.
  • La fórmula mágica: Crearon una nueva fórmula matemática que ayuda a los ingenieros a predecir: "Si tengo X cantidad de datos, pero solo Y ideas únicas, y mi modelo es de tamaño Z, ¿cuánto aprenderá realmente?".
  • Cuidado con los datos sintéticos: Muchos están generando datos con IAs para entrenar a otras IAs. El paper advierte: ¡Ojo! Los datos generados por IA suelen ser muy repetitivos y con poca variedad. Si entrenas a un gigante con datos de un "hijo" que solo repite lo que sabe, el "padre" no aprenderá nada nuevo.

🏁 En resumen

El mensaje principal es: La cantidad no lo es todo; la variedad es la reina.

Antes pensábamos que si poníamos más "comida" (datos) al modelo, siempre crecería más fuerte. Ahora sabemos que si la comida es siempre el mismo plato (duplicados semánticos), el modelo se aburre, se estanca y no mejora, sin importar cuánto lo alimentes.

Para construir la próxima generación de IAs, no necesitamos solo más internet, necesitamos internet más diverso y formas de medir la verdadera originalidad de lo que leemos.