The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Dit artikel biedt een verenigde informatie-theoretische uitleg voor de frequentieverdeling van fonemen in wereldwijd talen door macroscopische patronen die overeenkomen met een Dirichlet-verdeling en microscopische voorspellingen gebaseerd op een Maximum Entropy-model te combineren.

Fermín Moscoso del Prado Martín, Suchir Salhan

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Geheime Orde van Klanken: Een Verhaal over Taal, Kans en Evenwicht

Stel je voor dat elke taal ter wereld een enorme, levende bibliotheek is. In deze bibliotheek zijn de letters niet de hoofdrolspelers, maar de klanken (zoals de 'a', 't', of 'ng'). De onderzoekers van dit paper, Fermín en Suchir van de Universiteit van Cambridge, hebben een fascinerend geheim ontdekt: hoe vaak deze klanken voorkomen, volgt niet zomaar willekeurige regels, maar een diep, wiskundig patroon dat werkt op twee niveaus.

Laten we dit uitleggen alsof we het bespreken aan de koffiebar.

1. Het Grote Plaatje: De "Klanken-Balans" (Macroscopisch)

Stel je een grote bal met honderden vakjes voor. In elke taal vullen we deze vakjes met klanken.

  • De oude gedachte: Mensen dachten dat de frequentie van klanken net zo werkte als woorden: de meest gebruikte klank is heel vaak, de volgende iets minder, en zo verder, in een rechte lijn op een grafiek (een zogenaamde "machtswet").
  • De nieuwe ontdekking: De onderzoekers zeggen: "Nee, dat klopt niet helemaal." Klankenlijsten zijn te klein en te gesloten voor zo'n rechte lijn.

In plaats daarvan gebruiken ze een wiskundig model dat ze de Symmetrische Dirichlet-verdeling noemen. Dat is een moeilijke naam voor een simpel idee:
Stel je voor dat je een taart hebt en je moet hem verdelen over verschillende mensen (de klanken).

  • Als een taal maar weinig verschillende klanken heeft (een kleine taart met weinig stukjes), dan is de verdeling vaak heel ongelijk. Sommige stukjes zijn gigantisch groot, andere heel klein.
  • Als een taal veel verschillende klanken heeft (een enorme taart met honderden stukjes), dan wordt de verdeling juist heel gelijkmatig. Niemand krijgt een gigantisch stukje meer; iedereen krijgt een redelijk klein, gelijkmatig stukje.

De "Compensatie-regel":
Dit is het meest interessante deel. De onderzoekers noemen dit de Compensatie-hypothese.

  • Taal is als een budget. Als je veel verschillende klanken hebt (een groot "inventaris"), moet je die klanken "sparen" door ze allemaal ongeveer even vaak te gebruiken. Je kunt niet 50 verschillende klanken hebben en ze allemaal heel vaak gebruiken; dat zou te veel energie kosten voor je hersenen.
  • Dus: Hoe meer klanken een taal heeft, hoe meer ze "uitgebalanceerd" worden. De "chaos" (in de wiskunde: entropie) neemt af. Het is alsof de taal zichzelf corrigeert: "Oké, we hebben veel opties, dus laten we ze allemaal eerlijk verdelen."

2. Het Kleine Plaatje: Waarom is 'N' vaker dan 'Z'? (Microscopisch)

Nu gaan we de diepte in. Waarom is de klank 'n' in het Engels vaker dan de klank 'z'? Het antwoord ligt in drie soorten "kosten" die een klank moet betalen:

  1. De Fysieke Kosten (Het Lichaam):
    Sommige klanken zijn zwaar om te maken. Je moet je tong, lippen en longen hard werken.

    • Analogie: Het is makkelijker om een lichte bal te gooien dan een zware steen.
    • Resultaat: Klanken die overal ter wereld "zwaar" zijn om te maken (zoals bepaalde geplofte geluiden), komen minder vaak voor. Klanken die makkelijk zijn (zoals 'm' of 'n'), zijn de "lichte ballen" en worden vaker gebruikt.
  2. De Voorspelbaarheid (De Context):
    Dit is een beetje tegenintuïtief. Je zou denken dat voorspelbare klanken vaker voorkomen. Maar de onderzoekers ontdekten het omgekeerde.

    • Analogie: Stel je voor dat je een raadsel oplost. Als het antwoord heel voorspelbaar is (bijvoorbeeld "h" na "t" in "th"), dan is het saai. Je hersenen "slakken" die klank soms over (het wordt "geëlimineerd").
    • Resultaat: Klanken die in een zin verrassend zijn (ze voegen nieuwe informatie toe), worden juist vaker gebruikt. Ze moeten "opvallen" om het woord te onderscheiden.
  3. De Woord-Identiteit (Het Lexicon):
    Klanken bestaan om woorden van elkaar te onderscheiden.

    • Analogie: Stel je voor dat je een telefoonnummer belt. Als je "0" belt, weet je nog niets. Als je "5" belt, weet je misschien al dat het een mobiel is.
    • Resultaat: Klanken die heel goed helpen om woorden van elkaar te onderscheiden (die veel "informatie" geven), worden vaker gebruikt. De taal "belohnt" deze klanken met meer gebruik.

3. Het Grote Experiment: De "Maximale Entropie"

De onderzoekers hebben een slimme truc gebruikt. Ze hebben een computermodel gemaakt dat zegt: "Geef me de meest waarschijnlijke verdeling van klanken, zolang ik maar rekening houd met de fysieke kosten, de voorspelbaarheid en de informatie-inhoud."

Het resultaat? Het model voorspelde de echte frequenties van klanken in verschillende talen met verbazingwekkende nauwkeurigheid.
Het was alsof je een recept voor een taart hebt, en je zegt: "Gebruik de ingrediënten die het makkelijkst te vinden zijn en die het lekkerst smaken." En dan blijkt dat de taart die de mensen in het echt bakken, precies zo smaakt als jouw voorspelling.

Samenvatting in één zin

Talen zijn als slimme organisaties: als ze te veel verschillende opties (klanken) hebben, verdelen ze die eerlijk om energie te besparen (Macroscopisch), en ze gebruiken de "handigste" en "informatiefste" klanken het vaakst, terwijl ze de zware en saaie klanken beperken (Microscopisch).

Deze studie laat zien dat taal niet willekeurig is, maar een perfect evenwicht zoekt tussen wat makkelijk is om te zeggen, wat makkelijk is om te horen, en wat nodig is om boodschappen over te brengen.