Non-Zipfian Distribution of Stopwords and Subset Selection Models

Each language version is independently generated for its own context, not a direct translation.

De Verborgen Wet van de Woorden: Waarom Stopwoorden Niet Volgen op de Regels

Stel je voor dat je een enorme bibliotheek hebt, gevuld met miljoenen woorden uit verschillende boeken. Als je alle woorden op een lijst zet, gesorteerd van het meest gebruikte woord naar het minst gebruikte, zie je een heel bekend patroon. Dit heet de Zipf-wet. Het is alsof de woorden een ladder vormen: de top (woorden als "de", "en", "is") is breed en druk, en naarmate je lager komt, worden de woorden steeds zeldzamer, tot je bij de uiterste zeldzame woorden bent. Het is een rechte lijn als je het op een grafiek tekent.

Maar wat gebeurt er als we alleen kijken naar de "stopwoorden"? Dat zijn de saaie, onbelangrijke woordjes die computers vaak weggooien omdat ze weinig betekenis hebben (zoals "de", "een", "in", "van").

Deze paper van Wentian Li en Oscar Fontanelli ontdekt iets verrassends: Stopwoorden volgen de Zipf-wet niet! Ze buigen af. En ze hebben een nieuwe manier bedacht om dit uit te leggen, alsof ze een geheim recept hebben gevonden.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Grote Verkeersdrukte-probleem

Stel je voor dat alle woorden in een taal een drukke stad zijn.

De "Content-woorden" (zoals "kip", "vliegen", "liefde") zijn de gebouwen in de stad. Ze zijn uniek en verspreid.
De "Stopwoorden" zijn de verkeerslichten en straatnaamborden. Ze zijn overal, ze zijn saai, maar ze zijn nodig om de stad te laten functioneren.

Als je naar de hele stad kijkt (alle woorden), zie je een perfecte rechte lijn in de drukte (Zipf-wet). Maar als je alleen naar de verkeerslichten kijkt (alleen de stopwoorden), zie je dat ze niet meer in die rechte lijn passen. Ze vormen een bocht. In de wetenschap noemen ze deze bocht de "Beta Rank Functie" (BRF). Klinkt ingewikkeld, maar het is gewoon een gebogen lijn in plaats van een rechte.

2. Het Geheim: De "Selectie-Filter"

Waarom buigen ze? De auteurs zeggen: "Omdat we ze selecteren!"

Stel je voor dat je een grote emmer met goudklompjes (alle woorden) hebt. Je wilt alleen de kleine, saaie steentjes (stopwoorden) eruit halen.

Als je gewoon willekeurig steentjes pakt, blijft de verhouding hetzelfde.
Maar stopwoorden worden niet willekeurig gekozen. Ze worden gekozen op basis van hoe vaak ze voorkomen.

De auteurs hebben een model bedacht dat werkt als een automatische poortwachter:

De poortwachter kijkt naar een woord.
Als het woord heel vaak voorkomt (rank 1, 2, 3...), is de kans dat hij "ja" zegt (dat het een stopwoord is) heel groot.
Naarmate het woord zeldzamer wordt, wordt de kans dat hij "ja" zegt steeds kleiner.
Uiteindelijk, bij de zeldzame woorden, zegt de poortwachter bijna nooit "ja".

Deze poortwachter werkt met een specifieke formule (een "Hill-functie"), die lijkt op hoe medicijnen werken in het lichaam: hoe meer je er van hebt, hoe sneller het effect, tot het verzadigd raakt.

3. Het Resultaat: Een Gebogen Lijn

Doordat deze poortwachter de meest voorkomende woorden bijna altijd selecteert, maar de minder voorkomende woorden steeds vaker laat vallen, ontstaat er een bocht in de grafiek.

De top (de meest gebruikte stopwoorden) blijft hoog en dicht bij de originele lijn.
De staart (de minder gebruikte stopwoorden) wordt afgesneden en buigt sterk naar beneden.

Het is alsof je een rechte lijn tekent, en je begint de onderkant van de lijn op te eten. De lijn buigt dan vanzelf. Dit verklaart waarom stopwoorden een gebogen lijn (BRF) vormen in plaats van een rechte.

4. Wat gebeurt er met de rest? (De "Niet-Stopwoorden")

En wat gebeurt er met de woorden die niet zijn geselecteerd? De "interessante" woorden?
De auteurs ontdekten dat deze woorden ook niet meer in een rechte lijn passen. Ze passen het beste bij een kromme die eruitziet als een parabool (een kwadratische functie).

Dit is alsof je de stad hebt schoongeveegd van alle verkeerslichten. De overgebleven gebouwen (de inhoudswoorden) hebben nu een heel ander patroon. Ze volgen geen simpele rechte lijn meer, maar een soepel gebogen lijn.

5. Waarom is dit belangrijk?

Vroeger dachten wetenschappers dat alle woorden in een taal altijd de rechte "Zipf-lijn" volgden. Deze paper zegt: "Nee, dat is niet waar."

Als je alleen naar de saaie woorden kijkt, zie je een bocht.
Als je alleen naar de interessante woorden kijkt, zie je een andere bocht.

Het is een beetje zoals muziek: als je naar een heel orkest luistert, klinkt het als één harmonieus geluid (de rechte lijn). Maar als je alleen naar de trompetten luistert (stopwoorden) of alleen naar de viool (inhoudswoorden), hoor je een heel ander, gebogen geluid.

Conclusie in één zin

Stopwoorden zijn niet zomaar een willekeurig stukje van de taal; ze zijn het resultaat van een specifiek "filterproces" dat ervoor zorgt dat de meest gebruikte woorden blijven hangen en de zeldzamere verdwijnen, wat resulteert in een mooie, gebogen grafiek in plaats van een rechte lijn.

De auteurs hebben dit bewezen door duizenden boeken te analyseren en te laten zien dat hun "poortwachter-model" precies voorspelt wat we in de echte wereld zien. Het is een nieuw inzicht in hoe taal werkt, alsof ze een nieuwe bril hebben opgezet om naar woorden te kijken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Non-Zipfian Distribution of Stopwords and Subset Selection Models" van Wentian Li en Oscar Fontanelli, vertaald en samengevat in het Nederlands.

Titel: Niet-Zipfiaanse Distributie van Stopwoorden en Modellen voor Subselectie

1. Probleemstelling

Stopwoorden (zoals voegwoorden, voorzetsels en lidwoorden) worden in de Natural Language Processing (NLP) vaak verwijderd omdat ze weinig semantische waarde hebben voor tekstanalyse. Hoewel bekend is dat de frequentie van alle woorden in een tekst meestal volgt naar de wet van Zipf (een inverse machtsverdeling: $T(r) \propto r^{-\alpha}$ met $\alpha \approx 1$ ), is de vraag wat de rank-frequentieverdeling is voor de subset van alleen stopwoorden.

De auteurs stellen vast dat stopwoorden, wanneer ze binnen hun eigen groep worden gerangschikt, niet voldoen aan de wet van Zipf. In plaats daarvan vertonen ze een gekromde verdeling in een log-log plot. Het doel van dit onderzoek is om de functionele vorm van deze verdeling te identificeren en een theoretisch model te ontwikkelen dat verklaart hoe een subset (stopwoorden) uit een volledige dataset (die Zipfiaans is) een andere verdelingswet kan genereren.

2. Methodologie

De auteurs hanteerden een combinatie van empirische data-analyse en theoretische modellering:

Data: Er werden twee grote tekstcorpora gebruikt: de Brown Corpus (>1,1 miljoen tokens) en Moby Dick (>210.000 tokens). Daarnaast werd een set van 30 boeken van Project Gutenberg gebruikt voor validatie.
Stopwoordenlijsten: Diverse lijsten werden vergeleken, waaronder de lijsten van NLTK (123 niet-gecontracteerde woorden), spaCy (305 woorden) en Snowball (175 woorden).
Fitting-technieken: Rank-frequentieplots werden geanalyseerd met verschillende fitfuncties:
1. Wet van Zipf (machtswet).
2. Beta Rank Function (BRF): $T(r) = c(r_{max} + 1 - r)^\beta / r^\alpha$ .
3. Mandelbrot-functie (veralgemeende Zipf).
4. Quadratische correctie op de log-log schaal: $\log(T) = c' - \alpha \log(r) - \kappa (\log(r))^2$ .
Subselectie Model: De auteurs ontwikkelden een model waarbij de kans dat een woord van rang $r$ wordt geselecteerd als stopwoord wordt gemodelleerd als een afnemende Hill-functie (een variant van de logistieke functie):
$P(\text{stopwoord})_r = \frac{1}{1 + (r/r_{mid})^\gamma}$
Hierbij is $r_{mid}$ de rang waarbij de selectiekans 0,5 is, en $\gamma$ de Hill-coëfficiënt.

3. Belangrijkste Resultaten

A. Stopwoorden volgen de Beta Rank Function (BRF)
In tegenstelling tot de volledige woordenschat, die goed past bij de wet van Zipf, volgt de rank-frequentieverdeling van stopwoorden perfect de Beta Rank Function (BRF).

De plots van stopwoorden tonen een duidelijke kromming in log-log schaal.
De BRF past de data aanzienlijk beter dan de lineaire Zipf-wet of de Mandelbrot-functie.
Dit geldt voor verschillende combinaties van tekstbronnen en stopwoordenlijsten.

B. Validatie van het Subselectie Model
De auteurs toonden aan dat de BRF-distributie van stopwoorden een natuurlijk gevolg is van het selecteren van een subset uit een Zipfiaanse dataset.

Door de rang van een woord in de volledige lijst ( $r$ ) te relateren aan de rang binnen de subset ( $r_{new}$ ) via de cumulatieve som van de selectiekans (de Hill-functie), kan de BRF analytisch worden afgeleid.
In de "kop" van de verdeling (hoge frequentie) blijft de relatie lineair, maar in de "staart" (lage frequentie) buigt de curve af, wat resulteert in de BRF-vorm.
Dit model werd gevalideerd met een onafhankelijke dataset van 30 boeken, waarbij de geschatte parameters ( $r_{mid} \approx 75, \gamma \approx 1.78$ ) consistent bleken met de eerdere observaties.

C. Niet-stopwoorden volgen een Quadratische Functie
Interessant is dat de resterende woorden (niet-stopwoorden) ook afwijken van de wet van Zipf, maar op een andere manier.

De rank-frequentieplot van niet-stopwoorden wordt het beste beschreven door een quadratische functie in log-log schaal: $\log(T) \sim -\alpha \log(r) - \kappa (\log(r))^2$ .
Dit model past beter dan de BRF of de Mandelbrot-functie.
De auteurs leggen uit dat dit komt door de selectieprobabiliteit voor niet-stopwoorden, die een toenemende Hill-functie is. Dit creëert een overgang tussen twee verschillende machtswetten (één voor de kop en één voor de staart), wat in een log-log plot een kwadratische kromming veroorzaakt.

4. Theoretische Bijdrage en Afleiding

De kern van de theoretische bijdrage is de analytische bewijsvoering dat een subsetselectieproces, gedefinieerd door een Hill-functie, een Zipfiaanse verdeling transformeert in een BRF-verdeling.

Als de volledige dataset $T(r) \propto r^{-\alpha}$ is, en de relatie tussen de originele rang $r$ en de nieuwe rang $r_{new}$ in de staart van de verdeling wordt benaderd door $r \sim (R - r_{new})^{1/(\gamma-1)}$ , dan volgt voor de subset:
$T(r_{new}) \sim \frac{(R - r_{new})^{\alpha/(\gamma-1)}}{r_{new}^\alpha}$
Dit is exact de vorm van de Beta Rank Function met exponent $\beta = \alpha/(\gamma-1)$ .

5. Betekenis en Conclusie

Nieuw Inzicht in Linguïstische Wetten: Het artikel weerlegt het idee dat stopwoorden simpelweg de "kop" van een Zipf-distributie zijn. Ze vormen een statistisch onderscheiden entiteit met een eigen distributiewet (BRF).
Mechanisme van Subsets: Het werk biedt een algemeen wiskundig kader om te begrijpen hoe het selecteren van subsets uit machtswet-verdelingen (zoals in taal, maar ook mogelijk in genetica of economie) leidt tot afwijkende, maar voorspelbare distributies (zoals BRF of kwadratische correcties).
Toepassing: De bevindingen zijn relevant voor NLP (bij het optimaliseren van stopwoordfilters) en voor de kwantitatieve linguïstiek, waar het begrijpen van de onderliggende statistische structuren van taal essentieel is. Het suggereert ook dat de afwijking van Zipf's wet in Chinese karakters mogelijk verklaard kan worden door een vergelijkbaar subselectie- of tokenisatie-effect.

Kortom, de auteurs tonen aan dat de "niet-Zipfiaanse" aard van stopwoorden geen anomalie is, maar het directe resultaat is van een specifiek subselectiemechanisme dat wiskundig kan worden gemodelleerd en voorspeld.

Non-Zipfian Distribution of Stopwords and Subset Selection Models

1. Het Grote Verkeersdrukte-probleem

2. Het Geheim: De "Selectie-Filter"

3. Het Resultaat: Een Gebogen Lijn

4. Wat gebeurt er met de rest? (De "Niet-Stopwoorden")

5. Waarom is dit belangrijk?

Conclusie in één zin

Titel: Niet-Zipfiaanse Distributie van Stopwoorden en Modellen voor Subselectie

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Theoretische Bijdrage en Afleiding

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers