Non-Zipfian Distribution of Stopwords and Subset Selection Models

Each language version is independently generated for its own context, not a direct translation.

📚 Le Secret des Mots "Inutiles" : Pourquoi ils ne suivent pas les règles habituelles

Imaginez que vous avez une immense bibliothèque remplie de livres. Si vous comptez combien de fois chaque mot apparaît dans tous ces livres, vous obtenez une liste classée du mot le plus utilisé au moins utilisé.

D'habitude, les linguistes disent que cette liste suit une règle très célèbre appelée la Loi de Zipf. C'est comme une règle de la nature : le mot n°1 est deux fois plus fréquent que le n°2, trois fois plus que le n°3, etc. C'est une ligne droite parfaite si on trace le graphique.

Mais les auteurs de cet article, Wentian Li et Oscar Fontanelli, ont découvert quelque chose de surprenant : cette règle ne fonctionne pas pour les "mots vides" (les stopwords).

1. Qui sont les "Stopwords" ? (Les figurants du cinéma)

Les stopwords sont ces mots que l'on ignore souvent quand on cherche un sens. Ce sont des articles (le, la, un), des pronoms (il, elle, je), des prépositions (dans, sur, pour).

Analogie : Imaginez un film. Les mots "intéressants" (comme "dragon", "amour", "trahison") sont les acteurs principaux. Les stopwords sont les figurants ou le décor. Si vous enlevez les figurants, l'histoire reste compréhensible. Si vous enlevez les acteurs principaux, le film n'a plus de sens.

2. Le Mystère de la Courbe

Les chercheurs ont pris deux grands textes (un livre célèbre, Moby Dick, et une collection de textes anglais) et ont séparé les mots en deux groupes :

Les mots importants (non-stopwords).
Les mots "vides" (stopwords).

Ce qu'ils ont trouvé :

Tous les mots mélangés : Suivent la règle de Zipf (une ligne droite).
Les mots "vides" (stopwords) : Ne suivent pas la ligne droite ! Leur graphique est courbé. Il ressemble à une forme mathématique appelée "Fonction de Rang Bêta" (BRF). C'est une courbe qui commence haut et s'incurve doucement.
Les mots importants : Eux aussi s'éloignent de la ligne droite, mais d'une manière différente (une courbe en forme de parabole).

3. La Solution : Le Modèle du "Filtre Intelligent"

Comment expliquer ce changement de forme ? Les auteurs proposent une idée brillante : le processus de sélection.

Imaginez que vous avez un seau rempli de billes de toutes les couleurs (tous les mots).

La règle de Zipf dit que les billes rouges (les mots très fréquents) sont énormes, et les billes bleues (les mots rares) sont minuscules.
Le filtre des stopwords : Pour créer la liste des mots "vides", on ne prend pas n'importe quelles billes. On utilise un entonnoir spécial qui laisse passer les billes rouges (les mots très fréquents) très facilement, mais qui commence à bloquer les billes plus petites à mesure qu'on descend la liste.

L'analogie du "Filtre à Café" :

Les mots les plus courants (comme "le", "de", "et") passent tous dans le filtre. Ils restent en haut de la liste.
Plus on va vers des mots un peu moins courants, plus le filtre est serré. Certains mots "vides" sont bloqués et ne passent pas.
Résultat : La liste finale des mots qui ont passé le filtre (les stopwords) n'est plus une ligne droite. Elle est courbée parce que le filtre a "mangé" une partie des mots du bas de la liste.

Les auteurs ont prouvé mathématiquement que si vous appliquez ce type de filtre (qu'ils appellent une "fonction de Hill") à une liste qui suit la loi de Zipf, vous obtenez exactement la courbe bizarre observée pour les stopwords.

4. Et les autres mots ? (Les mots importants)

Si on enlève les stopwords, que reste-t-il ? Les mots "sérieux".
Le graphique de ces mots ne suit pas non plus la ligne droite. Il ressemble à une courbe en forme de U (ou une parabole).

Pourquoi ? Parce que les mots importants sont dispersés différemment. Ils ne sont pas concentrés uniquement au tout début de la liste comme les stopwords. Ils forment une courbe qui s'adapte mieux à une équation quadratique (une courbe simple) qu'à une ligne droite.

5. Pourquoi est-ce important ?

Cela peut sembler être un détail mathématique, mais c'est crucial pour deux raisons :

Pour les ordinateurs (IA) : Aujourd'hui, les intelligences artificielles (comme les moteurs de recherche ou les chatbots) doivent décider quels mots garder et lesquels ignorer. Comprendre que les mots "vides" suivent une courbe différente aide à créer de meilleurs filtres pour nettoyer les textes.
Pour la science du langage : Cela nous apprend que la langue n'est pas juste une pile de mots aléatoires. Il y a une structure profonde dans la façon dont nous utilisons les mots "inutiles" par rapport aux mots "utiles".

En résumé 🎯

Le problème : Les mots "vides" (stopwords) ne suivent pas la règle habituelle des langues (Loi de Zipf).
La découverte : Leur distribution forme une courbe spécifique (BRF).
L'explication : C'est comme si on prenait une liste de mots et qu'on la passait dans un entonnoir mathématique qui sélectionne les mots les plus fréquents avec une probabilité précise.
Le résultat : Ce processus de sélection transforme une ligne droite (Zipf) en une courbe élégante (BRF).

C'est une belle démonstration de la façon dont les mathématiques peuvent révéler la structure cachée de notre langage quotidien, même pour les mots que nous pensons "inutiles".

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : Distribution Non-Zipfienne des Mots-Stop et Modèles de Sélection de Sous-ensembles

1. Problématique

La loi de Zipf est un principe fondamental en linguistique quantitative, stipulant que la fréquence d'un mot est inversement proportionnelle à son rang dans une liste triée (une relation de puissance avec un exposant proche de 1). Cependant, les mots dits « mots-stop » (stopwords), tels que les articles, pronoms et prépositions, qui constituent la majorité des mots les plus fréquents dans un texte, ne suivent pas nécessairement cette loi lorsqu'ils sont analysés isolément.

L'article pose la question suivante : Quelle est la forme fonctionnelle de la distribution rang-fréquence des mots-stop, et comment la sélection d'un sous-ensemble (les mots-stop) à partir d'un corpus complet suivant la loi de Zipf modifie-t-elle cette distribution ? De plus, comment se comporte la distribution des mots restants (non-stopwords) une fois les mots-stop retirés ?

2. Méthodologie

Les auteurs ont adopté une approche combinant l'analyse empirique de corpus textuels et la modélisation analytique.

Données et Corpus :
- Deux corpus principaux ont été utilisés : le Brown Corpus (plus de 1,1 million de tokens) et le roman Moby Dick (plus de 210 000 tokens).
- Pour la validation, 30 livres supplémentaires du Project Gutenberg ont été analysés.
Listes de Mots-Stop :
- Trois listes de référence ont été comparées : NLTK (123 mots communs après suppression des formes contractées), spaCy (305 mots) et Snowball (175 mots).
- L'étude se concentre sur l'intersection NLTK/spaCy (123 mots) et la liste complète spaCy.
Méthodes d'Analyse et d'Adaptation (Fitting) :
- Les auteurs ont utilisé des échantillonnages réguliers en échelle logarithmique pour éviter les biais visuels favorisant la queue de la distribution.
- Plusieurs fonctions de régression ont été testées pour ajuster les courbes rang-fréquence :
  1. Loi de Zipf (puissance simple).
  2. Fonction quadratique du logarithme (correction de la loi de puissance).
  3. Fonction de rang Beta (BRF - Beta Rank Function).
  4. Fonction de Mandelbrot.
Modélisation Théorique :
- Développement d'un modèle de sélection de sous-ensemble basé sur une fonction de Hill décroissante pour définir la probabilité qu'un mot de rang $r$ soit sélectionné comme mot-stop.
- Dérivation analytique reliant la distribution du corpus complet (Zipf) à celle du sous-ensemble (mots-stop) et du complément (non-stopwords).

3. Contributions Clés

Identification de la Distribution BRF pour les Mots-Stop :
Les auteurs démontrent que contrairement au corpus complet qui suit la loi de Zipf, la distribution rang-fréquence des mots-stop seuls est parfaitement décrite par la Fonction de Rang Beta (BRF). Cette fonction introduit une courbure dans le diagramme log-log, indiquant une déviation significative de la loi de puissance pure.
Modèle de Sélection de Sous-ensemble (Subset Selection Model) :
Ils proposent un modèle probabiliste où la probabilité $P(r)$ qu'un mot de rang $r$ soit un mot-stop suit une fonction de Hill décroissante :
$P(\text{stopword})_r = \frac{1}{1 + (r/r_{mid})^\gamma}$
où $r_{mid}$ est le rang médian de sélection et $\gamma$ est le coefficient de Hill. Ce modèle explique mécaniquement comment la sélection d'un sous-ensemble d'une distribution de Zipf génère une distribution BRF.
Analyse des Mots Non-Stop (Non-Stopwords) :
L'étude révèle que les mots restants (non-stopwords) ne suivent ni la loi de Zipf, ni la BRF. Leur distribution est mieux ajustée par une fonction quadratique du logarithme du rang :
$\log(T) = c' - \alpha \log(r) - \kappa (\log(r))^2$
Cela suggère une transition de pente dans la distribution des mots porteurs de sens.
Preuve Analytique :
Les auteurs fournissent une démonstration mathématique montrant que si un ensemble complet suit la loi de Zipf ( $T \propto r^{-\alpha}$ ) et que la sélection suit le modèle de Hill proposé, la distribution résultante pour le sous-ensemble converge vers la forme BRF, avec un paramètre $\beta$ lié à $\alpha$ et $\gamma$ .

4. Résultats Principaux

Performance des ajustements :
- Pour les mots-stop, la BRF offre un ajustement quasi parfait (ex: $R^2$ très élevé), tandis que la loi de Zipf échoue à capturer la courbure observée.
- Pour les mots non-stop, la fonction quadratique surpasse nettement la loi de Zipf, la BRF et la fonction de Mandelbrot (voir Tableau 1 de l'article). Les coefficients d'ajustement ( $R^2$ ) pour la régression quadratique dépassent systématiquement 0,99, contre environ 0,96 pour Zipf.
Validation Empirique :
En utilisant 30 livres indépendants et la liste Snowball, les auteurs ont estimé directement la probabilité de sélection d'un mot-stop en fonction de son rang. La courbe obtenue correspond parfaitement à la fonction de Hill prédite par le modèle, avec des paramètres stables ( $r_{mid} \approx 75$ , $\gamma \approx 1,78$ ).
Impact sur la forme de la courbe :
La sélection des mots-stop (qui sont majoritairement en tête de liste) comprime l'axe des rangs pour les mots restants, créant une courbure qui transforme la ligne droite de Zipf en une courbe BRF pour les mots-stop, et en une courbe quadratique pour les mots non-stop.

5. Signification et Implications

Pour le Traitement Automatique du Langage (NLP) :
Bien que les mots-stop soient souvent filtrés pour l'analyse sémantique, leur comportement statistique est crucial pour la modélisation linguistique. Le fait qu'ils ne suivent pas la loi de Zipf remet en question l'application universelle de cette loi à tous les sous-ensembles lexicaux.
Pour la Linguistique Quantitative :
L'article fournit un mécanisme explicatif robuste pour les déviations observées par rapport à la loi de Zipf. Il montre que la déviation n'est pas une anomalie, mais une conséquence mathématique inévitable de la sélection d'un sous-ensemble selon une probabilité dépendante du rang.
Généralité du Modèle :
Le modèle de sélection de sous-ensemble basé sur la fonction de Hill pourrait s'appliquer à d'autres domaines où des sous-ensembles sont extraits de distributions de puissance (biologie, économie, réseaux), offrant un cadre théorique pour comprendre la formation de distributions BRF.
Compréhension des Mots-Clés :
La découverte que les mots non-stop suivent une loi quadratique suggère que les mots porteurs de sens (mots-clés) ont une dynamique de fréquence distincte, plus complexe qu'une simple loi de puissance, ce qui pourrait améliorer les algorithmes d'extraction de mots-clés et de modélisation de sujets.

En conclusion, cet article établit que la distribution des mots-stop est intrinsèquement non-Zipfienne et suit une Fonction de Rang Beta, résultat direct d'un processus de sélection de sous-ensemble modélisable par une fonction de Hill. Cette découverte affine notre compréhension des lois statistiques régissant le langage humain.