Non-Zipfian Distribution of Stopwords and Subset Selection Models

Este artículo propone y valida un modelo de selección de palabras vacías basado en una función de Hill que explica cómo estas siguen una distribución Beta Rank Function, mientras que las palabras no vacías se ajustan mejor a una función cuadrática, todo ello partiendo de una lista completa que obedece la ley de Zipf.

Wentian Li, Oscar Fontanelli

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una investigación detectivesca sobre las palabras más comunes de un idioma, pero con un giro inesperado. Aquí te explico de qué trata, usando analogías sencillas y divertidas.

🕵️‍♂️ El Caso de las Palabras "Aburridas" (Stopwords)

Imagina que tienes una biblioteca gigante llena de libros (como Moby Dick o una colección de noticias). Si haces una lista de todas las palabras que aparecen, ordenadas de la más usada a la menos usada, descubres algo fascinante: las palabras más comunes son, en su mayoría, "palabras vacías" o stopwords.

  • ¿Qué son? Son palabras como "el", "la", "y", "de", "en", "pero". No te dicen mucho sobre el tema del libro, pero son el pegamento que mantiene la oración unida.
  • La Regla de Oro (Ley de Zipf): Para todas las palabras de un idioma, existe una regla famosa llamada Ley de Zipf. Imagina una escalera muy recta y empinada. Si subes un escalón (bajas en la lista de popularidad), la cantidad de veces que aparece la palabra cae de forma muy predecible. Es como una línea recta perfecta en un gráfico.

📉 El Misterio: ¿Por qué las palabras "aburridas" no siguen la regla?

Los autores del estudio (Wentian Li y Oscar Fontanelli) se preguntaron: "Si tomamos solo las palabras 'aburridas' (stopwords) y hacemos nuestra propia lista para ellas, ¿seguirán esa línea recta perfecta de Zipf?".

La sorpresa: ¡No! Cuando miran solo a las stopwords, la línea recta se dobla. Se convierte en una curva suave, como una montaña rusa que empieza plana y luego cae. A esta curva la llaman Función de Clasificación Beta (BRF).

Es como si, en una carrera de coches, los coches más rápidos (las palabras comunes) mantuvieran un ritmo constante, pero si solo miramos a los coches de la categoría "económica", su velocidad cae de forma diferente.

🧠 La Explicación: El Modelo del "Filtro de Selección"

¿Por qué pasa esto? Los autores proponen una idea genial: Seleccionar stopwords es como pasar un tamiz o un filtro.

Imagina que tienes una pila de arena (todas las palabras) y quieres separar solo los granos de oro (las stopwords).

  1. El Filtro Inteligente: No es un filtro aleatorio. Es un filtro que tiene una "regla de probabilidad".
    • Las palabras muy populares (rango 1, 2, 3...) tienen una probabilidad muy alta de ser stopwords.
    • A medida que bajas en la lista (palabras menos comunes), la probabilidad de que sean stopwords disminuye, pero no de golpe, sino de forma suave y gradual.
  2. La Analogía de la Colina: Imagina una colina. Al principio (las palabras más comunes), la colina es muy alta y casi todos los granos caen en la canasta de stopwords. A medida que subes la colina (palabras menos comunes), la pendiente se vuelve más suave y menos granos caen.
  3. El Resultado: Al quitar las palabras que no son stopwords, la lista de stopwords que queda se "comprime". Las palabras que antes estaban en el puesto 1000 ahora están en el puesto 50. Este proceso de comprimir y reordenar es lo que crea esa curva suave (BRF) en lugar de la línea recta.

🔄 ¿Qué pasa con las palabras "interesantes"?

Si quitamos las stopwords, nos quedamos con las palabras "de contenido" (sustantivos, verbos importantes como "ballena", "amor", "correr").

  • El estudio descubrió que estas palabras tampoco siguen la línea recta perfecta de Zipf.
  • Su curva es aún más extraña: se parece a una parábola (una curva en forma de U o de arco).
  • Analogía: Si las stopwords son el "pegamento" que sigue una regla suave, las palabras importantes son como los "ladrillos" de un edificio. Su distribución es más compleja y depende de qué tan "especiales" o "raras" sean en el contexto de ese libro en particular.

💡 ¿Por qué nos importa esto?

  1. Para los Computadores (IA): Hoy en día, las IAs (como los chatbots) leen todo. Antes, los programadores borraban las stopwords porque pensaban que no servían. Ahora sabemos que tienen una estructura matemática muy específica. Entender esta curva ayuda a las máquinas a entender mejor el lenguaje humano.
  2. Para la Ciencia: Nos enseña que cuando tomamos un "subgrupo" de algo grande (como solo las palabras comunes), las reglas matemáticas cambian. No puedes simplemente esperar que la parte pequeña se comporte igual que el todo.

En resumen 🌟

El papel nos dice que el lenguaje es como un ecosistema:

  • Todas las palabras siguen una regla de escalera recta (Zipf).
  • Las palabras comunes (Stopwords) son un subgrupo seleccionado por un "filtro suave" que crea una curva elegante (Beta).
  • Las palabras importantes tienen su propia forma de curva, más compleja.

Los autores nos muestran que, incluso en las cosas más simples como las palabras "aburridas", hay una belleza matemática oculta que explica cómo funciona nuestro lenguaje. ¡Es como descubrir que el pegamento de la vida tiene su propia canción! 🎶📚