Drift and selection in LLM text ecosystems

Each language version is independently generated for its own context, not a direct translation.

Imagina que el texto que publicamos en internet (noticias, libros, tweets, artículos) es como un gran huerto público.

Hasta hace poco, este huerto estaba lleno de semillas traídas por humanos. Pero ahora, tenemos robots (las Inteligencias Artificiales) que también plantan semillas. El problema es que estos robots aprenden mirando el huerto, plantan sus propias semillas basándose en lo que ven, y luego esas nuevas semillas vuelven al huerto para que los robots de la siguiente generación las vean.

Este artículo de Søren Riis es como un manual de ingeniería que explica qué pasa cuando este ciclo se repite una y otra vez. El autor divide el proceso en dos fuerzas principales: la deriva (el olvido) y la selección (el filtro).

Aquí te lo explico con analogías sencillas:

1. La Deriva: El efecto "Copiar y Pegar" que borra lo raro

Imagina que tienes una caja de 1000 fichas de colores. Hay 990 rojas y 10 azules.

El proceso: Cada día, tiras todas las fichas, las mezclas y sacas 1000 nuevas fichas al azar basándote en la proporción actual.
El problema: Es muy probable que, por pura suerte, en la nueva tirada no salga ninguna ficha azul. Si eso pasa, ¡las fichas azules desaparecen para siempre!
En el mundo de la IA: Esto es lo que pasa con las palabras raras o las formas de hablar poco comunes. Si un modelo de IA genera texto basándose en lo que ya existe, tiende a repetir lo común (las fichas rojas) y olvidar lo raro (las azules). Con el tiempo, el huerto se vuelve pobre y repetitivo. Las ideas extrañas, los dialectos o las expresiones creativas se van desvaneciendo hasta desaparecer. El autor llama a esto "deriva neutra": no es que nadie odie las palabras raras, simplemente se pierden por azar estadístico.

2. La Selección: ¿Quién decide qué entra en el huerto?

Aquí es donde la historia se divide en dos caminos, dependiendo de cómo decidamos publicar lo que los robots escriben.

Camino A: La Publicación "Descriptiva" (Copiar lo que hay)

Imagina que el huerto tiene un guardián que dice: "Solo dejo pasar lo que ya es popular".

Si el robot escribe algo que suena "normal" y común, entra. Si escribe algo raro o arriesgado, el guardián lo descarta.
Resultado: El huerto se vuelve superficial. Todo el mundo empieza a hablar igual, con frases muy predecibles. Es como si todos los libros del mundo empezaran a sonar como un solo libro aburrido. La IA deja de aprender cosas nuevas porque solo le enseñan lo que ya sabe. El autor dice que esto lleva a un estado "plano" donde mirar más allá del siguiente párrafo no sirve de nada.

Camino B: La Publicación "Normativa" (Buscar la calidad)

Ahora, imagina un guardián diferente que dice: "No me importa si es popular, me importa si es correcto, nuevo o brillante".

Si el robot escribe un código que funciona, una prueba matemática válida o una historia con una estructura compleja, entra. Si escribe algo que parece bien pero es un error, el guardián lo detiene.
Resultado: El huerto mantiene su profundidad. Aunque se pierdan algunas palabras raras, la estructura compleja se conserva porque el filtro exige calidad. La IA sigue aprendiendo cosas profundas porque el sistema premia la verdad o la novedad, no solo la repetición.

La Gran Lección: ¿Qué heredamos?

El punto clave del artículo es que el futuro de la IA depende de cómo filtramos lo que publicamos hoy.

Si solo dejamos pasar lo que "suena bien" o es popular (sin verificar si es verdad o si tiene profundidad), el texto público se comprimirá. Las futuras IAs aprenderán de un mundo empobrecido, repetitivo y sin matices. Es como si un niño creyera que el mundo es plano porque todos los mapas que le enseñan son copias de mapas planos.
Si usamos filtros que premian la corrección, la novedad y la calidad (como verificar hechos o exigir lógica), el texto público mantendrá su riqueza. Las futuras IAs podrán seguir aprendiendo estructuras complejas.

En resumen

El autor nos dice que no podemos simplemente dejar que las IAs escriban y se lean a sí mismas sin control. Necesitamos un "sistema inmunológico" humano o automatizado que actúe como un filtro de calidad.

Sin filtro de calidad = Colapso del texto: Todo se vuelve genérico y aburrido.
Con filtro de calidad = Ecosistema saludable: La IA sigue siendo útil, creativa y capaz de aprender cosas nuevas.

Es como si dijéramos: "No basta con que la IA escriba; necesitamos asegurarnos de que lo que escribe sea bueno antes de que lo lean los demás".

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Deriva y Selección en Ecosistemas de Texto de LLM

1. El Problema

El registro público de texto, que sirve como material de entrenamiento tanto para humanos como para sistemas de IA, está siendo cada vez más moldeado por sus propios outputs generados. Se ha establecido un ciclo recursivo: los modelos generan texto, este entra al registro público, y agentes posteriores (humanos o IA) aprenden de él.
La literatura previa ha observado que el uso recursivo de datos sintéticos puede provocar la pérdida de la "cola" de la distribución (rarezas), reducir la diversidad o inducir un "colapso de modelos" (model collapse). Sin embargo, estos estudios a menudo se han realizado de forma aislada. El problema central abordado por Riis es separar y cuantificar dos fuerzas opuestas que actúan sobre este corpus público:

Deriva (Drift): La pérdida de formas raras debido al muestreo finito y la reutilización no filtrada.
Selección: El filtrado de contenido basado en criterios de publicación, clasificación, verificación o corrección.

La pregunta clave es: ¿Cómo afecta este ciclo recursivo a la estructura profunda del lenguaje y qué heredan los futuros aprendices?

2. Metodología

El autor desarrolla un marco matemático exactamente resoluble basado en agentes de n-gramas de orden variable. A diferencia de los modelos de transformadores complejos, los n-gramas permiten escribir las distribuciones condicionales y los puntos fijos a largo plazo de forma explícita y analítica.

Modelo Base: Se utiliza un modelo de n-gramas ajustado a un corpus actual. En cada generación, una fracción $\alpha$ del corpus se reemplaza por texto sintético generado por el modelo ajustado.
Analogía Genética: El proceso de deriva se modela análogamente al modelo de Wright-Fisher en genética de poblaciones, donde las palabras actúan como alelos y el corpus como el acervo génico.
Distinción de Publicación: Se diferencian dos regímenes de publicación:
- Descriptiva: Los agentes publican lo que generan basándose en el estado estadístico actual (sin filtros de calidad externos).
- Normativa: Los agentes aplican criterios de calidad, corrección o novedad (verificadores, pruebas unitarias, lógica deductiva) antes de publicar.
Herramientas Analíticas:
- Poliedro de Circulación: Caracterización de los puntos fijos en el límite de corpus infinito mediante grafos de De Bruijn.
- Prueba de Proyección-Elevación (Project-Lift): Una métrica para determinar si un corpus es "n-superficial" (shallow) o "n-profundo" (deep). Compara la distribución de n-gramas del corpus con la que se generaría si solo se usara un modelo de orden $n$ para predecir el futuro.

3. Contribuciones Clave y Resultados

El paper presenta tres teoremas fundamentales que describen la dinámica del ecosistema:

Teorema 1: Deriva y Puntos Fijos (Sin Selección)

Deriva Neutral: En un entorno sin filtrado (solo reemplazo), la frecuencia esperada de una palabra minoritaria no cambia, pero la varianza acumulada por el muestreo finito hace que las formas raras desaparezcan inevitablemente.
Límite Infinito: En el límite de corpus infinito, el conjunto de distribuciones de n-gramas estables (puntos fijos) forma un poliedro convexo.
Estructura: Los puntos extremos de este poliedro corresponden a ciclos simples dirigidos en el grafo de De Bruijn. Cualquier distribución estable es una combinación convexa de estas distribuciones deterministas periódicas.
Conclusión: Sin selección, la deriva empuja el sistema hacia estados donde la estructura profunda se erosiona y el texto se vuelve genérico.

Teorema 2: Puntos Fijos bajo Selección
Este teorema distingue el resultado final según el tipo de publicación:

Publicación Descriptiva: Si los agentes publican sin criterios normativos, el corpus converge a una distribución n-superficial. Esto significa que la distribución de bloques de texto largos ( $r$ -gramas) puede recuperarse perfectamente a partir de la ley de continuación de orden $n$ . La "mirada hacia adelante" (lookahead) se vuelve redundante y la estructura profunda se pierde.
Publicación Normativa: Si los agentes filtran por calidad o corrección, el corpus puede estabilizarse en un estado no superficial (profundo).
- La divergencia de Kullback-Leibler (KL) entre la distribución del corpus y la proyección de un modelo de orden $n$ es estrictamente positiva.
- Se establece un límite superior óptimo para esta divergencia: $L \log_2 s$ bits, donde $L$ es la profundidad oculta (ventana de lookahead) y $s$ es el tamaño del vocabulario.
- Resultado: La selección normativa es autosostenible; preserva estructuras que requieren un contexto más largo que el ventana de entrenamiento básica.

Teorema 3: Herencia de la Condición Pública

Los aprendices posteriores (nuevos modelos) que minimizan la entropía cruzada en el corpus filtrado heredan la condición pública de siguiente token resultante.
Independientemente de la arquitectura del nuevo modelo (n-gramas suavizados o redes neuronales), si el modelo es lo suficientemente expresivo, convergerá a la misma distribución condicional que define el entorno filtrado.
Esto implica que el "sesgo" introducido por la selección (ya sea la pérdida de rareza por deriva o la preservación de estructura por verificación) se transmite directamente a las futuras generaciones de IA.

4. Experimentos y Validación

Simulaciones Exactas: Se realizaron experimentos con modelos de trigramas ajustados a textos de dominio público (Arthur Conan Doyle, Jane Austen, Charles Darwin).
- Deriva: Se observó una contracción monótona del vocabulario y una pérdida más rápida de la estructura de orden superior (trigramas) en comparación con palabras individuales.
- Selección: En experimentos emparejados, la recursión descriptiva llevó la divergencia KL a cero (colapso a superficialidad), mientras que la recursión normativa se estabilizó en un valor de divergencia KL positivo (manteniendo estructura profunda).
Análisis de Profundidad: Se demostró que la divergencia KL en el régimen normativo no es un error pequeño, sino una medida cuantificable de la estructura que el modelo de orden $n$ no puede capturar.

5. Significado e Implicaciones

Diseño de Corpora de Entrenamiento: El trabajo sugiere que la forma en que se curan y filtran los datos es crítica.
- Para el aprendizaje de artefactos (reproducir pruebas correctas, código que pasa pruebas), la filtración normativa es beneficiosa, ya que elimina "callejones sin salida" y estandariza outputs exitosos.
- Para el aprendizaje de procesos (depuración, exploración científica, búsqueda de pruebas), la filtración excesiva puede ser dañina, ya que elimina los pasos intermedios y los intentos fallidos que son informativos para el aprendizaje.
Prevención del Colapso: La selección normativa (verificación, corrección) actúa como un mecanismo de estabilización que puede evitar el colapso de la diversidad y la pérdida de estructura profunda, a diferencia de la simple reutilización recursiva.
Marco Teórico Unificado: Proporciona la primera teoría unificada que separa la deriva neutral de la selección, ofreciendo herramientas matemáticas (geometría de poliedros, divergencia KL) para diagnosticar el estado de un ecosistema de texto de IA.
Generalización: Aunque el modelo se basa en n-gramas, los autores argumentan que las fuerzas de deriva, selección e herencia son propiedades estructurales de cualquier bucle de predicción de siguiente token, aplicables también a transformadores modernos.

En conclusión, el artículo demuestra que la recursividad en la generación de texto no tiene un efecto universal; su resultado depende crucialmente de si el proceso de publicación es meramente descriptivo (lo que conduce a la superficialidad) o normativo (lo que puede sostener y enriquecer la estructura compleja del lenguaje).

Drift and selection in LLM text ecosystems

1. La Deriva: El efecto "Copiar y Pegar" que borra lo raro

2. La Selección: ¿Quién decide qué entra en el huerto?

Camino A: La Publicación "Descriptiva" (Copiar lo que hay)

Camino B: La Publicación "Normativa" (Buscar la calidad)

La Gran Lección: ¿Qué heredamos?

En resumen

Resumen Técnico: Deriva y Selección en Ecosistemas de Texto de LLM

1. El Problema

2. Metodología

3. Contribuciones Clave y Resultados

4. Experimentos y Validación

5. Significado e Implicaciones

Más como este

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Uncertainty Estimation for the Open-Set Text Classification systems