Non-Zipfian Distribution of Stopwords and Subset Selection Models

Each language version is independently generated for its own context, not a direct translation.

📚 Das Geheimnis der „Stoppwörter": Warum die häufigsten Wörter nicht so funktionieren, wie wir denken

Stellen Sie sich vor, Sie werfen einen riesigen Haufen Wörter auf einen Tisch. Wenn Sie diese Wörter nach ihrer Häufigkeit sortieren – vom häufigsten (z. B. „der", „die", „das") bis zum seltensten (z. B. „Zauberkunststück") – dann folgt das normalerweise einer sehr strengen Regel, die Zipf'sches Gesetz genannt wird. Man kann sich das wie eine perfekte, gerade Linie auf einem Diagramm vorstellen: Je häufiger ein Wort ist, desto schneller fällt die Häufigkeit der nächsten Wörter ab.

Aber die Autoren dieser Studie haben etwas Interessantes entdeckt: Die häufigsten Wörter (die sogenannten „Stoppwörter") brechen diese Regel.

Hier ist die Geschichte, wie sie es herausgefunden haben, erklärt mit ein paar einfachen Analogien:

1. Was sind eigentlich Stoppwörter? 🛑

Stoppwörter sind wie der „Kleber" in unserer Sprache. Wörter wie „und", „oder", „in", „ist" oder „der". Sie tragen oft wenig eigentliche Bedeutung in sich. Wenn Sie einen Satz wie „Der große Mann ging in den Wald" nehmen und die Stoppwörter entfernen („große Mann ging Wald"), verstehen Sie immer noch, worum es geht. Wenn Sie aber die „wichtigen" Wörter entfernen, ist der Satz unverständlich.

In der Computerlinguistik (NLP) werden diese Wörter oft weggeworfen, um Texte zu analysieren. Aber für die Mathematik der Sprache sind sie extrem wichtig.

2. Das Problem: Die gerade Linie wird gekrümmt 📉

Normalerweise folgt die Häufigkeit aller Wörter einer perfekten, geraden Linie (im logarithmischen Maßstab).

Alle Wörter: Folgen der geraden Linie (Zipf'sches Gesetz).
Nur die Stoppwörter: Wenn man nur diese Stoppwörter nimmt und sie neu sortiert, ist die Linie nicht mehr gerade. Sie ist gekrümmt!

Die Autoren sagen: „Aha! Wenn man eine perfekte Linie nimmt und nur einen Teil davon herausnimmt, verändert sich die Form."

3. Die Analogie: Der Sieb-Test (Das Subset-Modell) 🧺

Stellen Sie sich vor, Sie haben einen riesigen Eimer mit Sandkörnern unterschiedlicher Größe (die Wörter).

Die Regel: Die Sandkörner sind nach Größe sortiert (Zipf'sches Gesetz).
Der Sieb: Die Forscher nehmen ein Sieb (die Liste der Stoppwörter) und schütten den Sand hindurch. Nur bestimmte Körner fallen durch.

Das Spannende ist: Das Sieb ist nicht zufällig. Es filtert die Wörter nicht willkürlich heraus. Es hat eine eigene Logik:

Die allerhäufigsten Wörter (die ganz oben im Ranking) fallen fast immer durch das Sieb.
Je seltener ein Wort wird, desto unwahrscheinlicher ist es, dass es ein Stoppwort ist.
Aber dieser Übergang ist nicht hart, sondern weich. Es ist wie eine Rampe, keine Wand.

Die Autoren haben eine mathematische Formel dafür gefunden, wie wahrscheinlich es ist, dass ein Wort ein Stoppwort ist. Sie nennen es eine Hill-Funktion (ein Begriff aus der Biologie, der beschreibt, wie sich Enzyme verhalten).

Einfach gesagt: Je weiter ein Wort im Ranking nach unten rutscht, desto schneller sinkt die Chance, dass es ein Stoppwort ist.

4. Das Ergebnis: Warum die Kurve entsteht 📈

Wenn Sie nun nur die Wörter nehmen, die durch das Sieb gefallen sind (die Stoppwörter), passiert Folgendes:

Die ganz oben liegenden Wörter bleiben an ihrem Platz.
Die Wörter weiter unten werden „zusammengeschoben", weil viele dazwischenliegende Wörter (die keine Stoppwörter sind) entfernt wurden.
Dadurch wird die ursprüngliche gerade Linie gekrümmt.

Die Autoren nennen diese neue, gekrümmte Form die Beta-Rank-Funktion (BRF). Sie ist wie eine geschwungene Brücke, die perfekt beschreibt, wie sich die Stoppwörter verhalten.

5. Was passiert mit den anderen Wörtern? (Die Nicht-Stoppwörter) 🏗️

Die Forscher haben sich auch gefragt: „Was passiert mit den Wörtern, die nicht durch das Sieb gefallen sind?" (Also die „wichtigen" Wörter wie Substantive und Verben).

Auch diese bilden keine gerade Linie mehr.
Stattdessen passen sie am besten zu einer quadratischen Kurve.
Analogie: Stellen Sie sich vor, Sie bauen eine Treppe. Die Stoppwörter bilden eine sanfte Rampe (BRF), während die wichtigen Wörter eher wie eine Treppe mit einer besonderen Krümmung aussehen (quadratisch).

6. Warum ist das wichtig? 🌍

Früher dachten viele, alle Wörter in einer Sprache folgen einfach der einen Regel (Zipf). Diese Studie zeigt uns, dass die Sprache komplexer ist:

Unterschiedliche Regeln: Es gibt eine Regel für alle Wörter, eine andere für nur die Stoppwörter und eine dritte für nur die wichtigen Wörter.
Der Mechanismus: Es liegt daran, wie wir Wörter auswählen. Wenn wir eine Untergruppe (wie Stoppwörter) aus einer großen Menge auswählen, verändert sich die Statistik dieser Untergruppe automatisch.
Anwendung: Das hilft Computern, Sprache besser zu verstehen. Wenn wir wissen, wie Stoppwörter mathematisch funktionieren, können wir bessere Suchmaschinen oder KI-Modelle bauen.

Zusammenfassung in einem Satz:

Die häufigsten Wörter in unserer Sprache (Stoppwörter) bilden keine gerade Linie wie alle anderen Wörter zusammen, sondern eine geschwungene Kurve, weil sie wie ein spezielles Sieb wirken, das die Wörter nach ihrer Häufigkeit auf eine ganz bestimmte, vorhersehbare Weise filtert.

Die Autoren haben also nicht nur eine neue Kurve gefunden, sondern auch erklärt, warum diese Kurve entsteht: Weil Stoppwörter einfach eine spezielle Auswahl aus dem großen Haufen aller Wörter sind.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papers auf Deutsch:

Titel: Nicht-Zipf'sche Verteilung von Stoppwörtern und Modelle zur Teilmengenselektion

Autoren: Wentian Li und Oscar Fontanelli
Datum: 6. März 2026

1. Problemstellung

Stoppwörter (z. B. Artikel, Pronomen, Präpositionen) sind Wörter mit geringer semantischer Tragweite, die in der natürlichen Sprachverarbeitung (NLP) oft vor der Analyse entfernt werden. Während die Häufigkeitsverteilung aller Wörter in einem Text dem bekannten Zipf'schen Gesetz folgt (eine inverse Potenzgesetz-Beziehung zwischen Rang und Frequenz), ist die Verteilung der Stoppwörter innerhalb ihrer eigenen Gruppe weniger klar.

Die zentrale Forschungsfrage lautet: Welches funktionale Modell beschreibt die Rang-Häufigkeits-Verteilung (Rank-Frequency Plot) von Stoppwörtern, wenn diese als Teilmenge aus einem größeren, Zipf-verteilten Datensatz extrahiert werden? Die Autoren untersuchen, ob Stoppwörter weiterhin dem Zipf'schen Gesetz folgen oder ob eine andere Verteilungsfunktion vorliegt, und entwickeln ein theoretisches Modell, um diese Abweichung zu erklären.

2. Methodik

Datenbasis:

Textkorpora: Das Brown Corpus (über 1,1 Mio. Tokens) und Moby Dick (über 210.000 Tokens).
Stoppwort-Listen: Drei verschiedene Listen wurden verwendet:
1. NLTK (123 nicht-kontrahierte Wörter).
2. spaCy (305 Wörter).
3. Snowball (175 Wörter, zur Validierung).
Validierungsdaten: 30 Bücher aus Project Gutenberg zur unabhängigen Schätzung der Selektionswahrscheinlichkeit.

Analyseverfahren:

Rang-Häufigkeits-Plots: Erstellung von Log-Log-Plots für alle Wörter, nur Stoppwörter und nur Nicht-Stoppwörter.
Anpassungsfunktionen: Vergleich verschiedener mathematischer Modelle:
- Zipf'sches Gesetz (Potenzgesetz).
- Quadratische Korrektur des Potenzgesetzes.
- Diskretisierte verallgemeinerte Beta-Verteilung (DGBD) / Beta-Rank-Funktion (BRF).
- Mandelbrot-Funktion.
Modellierung: Entwicklung eines mathematischen Modells zur Teilmengenselektion (Subset Selection), das die Wahrscheinlichkeit beschreibt, mit der ein Wort basierend auf seinem Rang als Stoppwort ausgewählt wird.

3. Wichtige Beiträge und Ergebnisse

A. Verteilung der Stoppwörter: Die Beta-Rank-Funktion (BRF)

Die Analyse zeigt, dass die Rang-Häufigkeits-Verteilung von Stoppwörtern nicht dem Zipf'schen Gesetz folgt. Stattdessen passen sie sich perfekt an die Beta-Rank-Funktion (BRF) an:
$\log(T) = c' - \alpha \log(r) + \beta \log(r_{max} + 1 - r)$
Wobei $T$ die Token-Anzahl und $r$ der Rang ist. Im Gegensatz dazu folgen die Nicht-Stoppwörter (der Rest des Textes) am besten einer quadratischen Funktion im Log-Log-Bereich, was auf eine Abweichung von der reinen Potenzgesetz-Form hinweist.

B. Das Teilmengenselektions-Modell (Subset Selection Model)

Die Autoren schlagen ein Modell vor, das erklärt, wie eine Zipf-Verteilung im Gesamtdatensatz zu einer BRF-Verteilung in der Teilmenge (Stoppwörter) wird.

Selektionswahrscheinlichkeit: Die Wahrscheinlichkeit $P$ , dass ein Wort mit Rang $r$ als Stoppwort ausgewählt wird, folgt einer abnehmenden Hill-Funktion:
$P(\text{Stoppwort})_r = \frac{1}{1 + (r/r_{mid})^\gamma}$
Hier ist $r_{mid}$ der Rang, bei dem die Wahrscheinlichkeit 0,5 beträgt, und $\gamma$ ist ein Formparameter.
Mechanismus: Da Stoppwörter tendenziell hohe Ränge (hohe Frequenzen) im Gesamtkorpus haben, werden sie mit hoher Wahrscheinlichkeit in die Teilmenge aufgenommen. Mit abnehmender Frequenz (steigendem Rang) nimmt die Wahrscheinlichkeit, als Stoppwort zu gelten, ab. Diese nicht-lineare Selektion "krümmt" die ursprüngliche gerade Zipf-Linie in Log-Log-Darstellung zu einer BRF-Kurve.

C. Analytischer Beweis

Die Autoren leiten analytisch her, dass die Anwendung dieses Selektionsmodells auf einen Datensatz, der dem Zipf'schen Gesetz folgt, zwangsläufig zu einer BRF-Verteilung für die Teilmenge führt.

Im "Kopf"-Bereich (hohe Frequenz) verhält sich die Teilmenge ähnlich wie die Originalmenge.
Im "Schwanz"-Bereich (niedrige Frequenz) führt die Selektionsfunktion zu einer Abflachung, die mathematisch der BRF entspricht.

D. Validierung

Das Modell wurde durch eine direkte Schätzung der Selektionswahrscheinlichkeit aus 30 unabhängigen Textquellen validiert. Die geschätzten Parameter ( $r_{mid} \approx 75$ , $\gamma \approx 1,78$ ) stimmten gut mit den aus den ursprünglichen Korpora gewonnenen Werten überein, was die Robustheit des Modells bestätigt.

E. Nicht-Stoppwörter

Die verbleibenden Wörter (Nicht-Stoppwörter) folgen keinem einfachen Potenzgesetz. Die beste Anpassung erfolgt durch eine quadratische Funktion:
$\log(T) = c' - \alpha \log(r) - \kappa (\log(r))^2$
Dies deutet darauf hin, dass die Entfernung der Stoppwörter die Struktur des verbleibenden Vokabulars signifikant verändert und eine komplexe, gekrümmte Verteilung erzeugt.

4. Bedeutung und Schlussfolgerungen

Theoretische Einsicht: Die Arbeit liefert einen mechanistischen Erklärungsansatz dafür, warum Teilmengen aus Potenzgesetz-verteilten Daten oft nicht selbst Potenzgesetzen folgen. Die "Krümmung" in der Verteilung ist eine direkte Konsequenz der Selektionsmethode (hier: die Definition von Stoppwörtern).
NLP und Linguistik: Die Ergebnisse zeigen, dass Stoppwörter eine eigene statistische Struktur besitzen, die durch die BRF besser beschrieben wird als durch das Zipf'sche Gesetz. Dies ist relevant für die Optimierung von Textanalyse-Algorithmen und das Verständnis der linguistischen Hierarchie.
Allgemeine Anwendbarkeit: Das vorgestellte Modell der Teilmengenselektion mittels Hill-Funktionen ist nicht auf Stoppwörter beschränkt und kann auf andere Phänomene angewendet werden, bei denen Teilmengen aus großen, skaleninvarianten Datensätzen extrahiert werden.
Kritik an Heaps' Law: Die Autoren weisen im Diskussionsteil darauf hin, dass die Anpassungsfähigkeit von Funktionen wie der BRF oft von der Länge der Datenreihe abhängt. Bei kurzen Listen (wie Stoppwort-Listen) können viele Funktionen gut passen, aber die BRF bietet hier die konsistenteste theoretische Begründung.

Zusammenfassend demonstriert das Paper, dass die Nicht-Zipf'sche Verteilung von Stoppwörtern kein Zufall ist, sondern das direkte Ergebnis eines spezifischen Selektionsprozesses, der durch eine abnehmende Hill-Funktion modelliert werden kann, was analytisch zur Beta-Rank-Funktion führt.