The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Cette étude propose un compte rendu unifié de la structure des fréquences phonémiques en démontrant que leur distribution s'explique macroscopiquement par des statistiques d'ordre d'une distribution de Dirichlet et microscopiquement par un modèle d'entropie maximale intégrant des contraintes articulatoires, phonotactiques et lexicales.

Fermín Moscoso del Prado Martín, Suchir Salhan

Publié 2026-03-04
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Grand Puzzle des Sons : Comment les langues s'organisent

Imaginez que chaque langue du monde est une boîte à outils. Dans cette boîte, il y a des sons (les phonèmes) comme des marteaux, des vis ou des clés. Certains sons sont utilisés tout le temps (comme un marteau), d'autres très rarement (comme une clé spéciale pour une serrure très compliquée).

Les auteurs de cette étude, Fermín et Suchir, se sont demandé : « Pourquoi certains sons sont-ils plus fréquents que d'autres ? » et « Y a-t-il une règle cachée qui régit toutes les langues, du français au swahili ? »

Leur réponse est fascinante : il existe une règle à deux niveaux, comme une vue depuis un hélicoptère et une vue au microscope.


1. La Vue depuis l'Hélicoptère (Le niveau Macroscopique)

L'analogie : Le gâteau et le nombre de parts.

Imaginez que vous devez partager un gâteau (la probabilité totale de 100 %) entre plusieurs personnes (les sons de la langue).

  • Si vous avez 3 personnes (une petite boîte à outils), le gâteau est coupé en 3 parts.
  • Si vous avez 100 personnes (une boîte à outils géante), le gâteau est coupé en 100 parts.

Les chercheurs ont découvert une loi mathématique surprenante :

  • Plus une langue a beaucoup de sons (une grande boîte), plus la répartition de ces sons devient égale. C'est comme si la nature disait : « Si vous avez trop de choix, ne privilégiez pas trop un seul son, sinon le système devient trop lourd. »
  • Plus une langue a peu de sons, plus certains sons dominent largement les autres.

La leçon : C'est un jeu d'équilibre. Les langues avec un grand inventaire de sons « compensent » en rendant l'utilisation de ces sons plus uniforme. C'est comme si la complexité du choix était compensée par la simplicité de l'usage quotidien.


2. La Vue au Microscope (Le niveau Microscopique)

L'analogie : Le prix d'un ticket de concert.

Pourquoi le son « A » est-il plus fréquent que le son « R » en anglais ? Les chercheurs ont utilisé une méthode appelée « Entropie Maximale » (une façon de deviner le futur en respectant les règles du jeu). Ils ont regardé trois facteurs qui influencent le « prix » d'un son :

  1. L'effort physique (Le coût énergétique) :

    • L'image : Produire un son demande de l'énergie. Dire « p » est facile, dire un son guttural complexe demande plus d'effort.
    • La règle : Les sons qui demandent beaucoup d'énergie (comme des sons rares dans le monde entier) sont généralement moins utilisés dans une langue donnée. C'est comme si on évitait de courir un marathon si on peut marcher.
  2. La prévisibilité (La surprise) :

    • L'image : Imaginez que vous lisez un livre. Si vous voyez « Q », vous savez presque toujours que le prochain son est « U ». C'est prévisible.
    • La règle (contre-intuitive) : Les chercheurs ont découvert que les sons qui apparaissent dans des contextes surprenants (imprévisibles) sont en fait plus fréquents. Pourquoi ? Parce que les sons trop prévisibles finissent par disparaître ou être « avalés » au fil du temps (comme un mot qu'on ne prononce plus à la fin d'une phrase). Les sons qui apportent de la surprise sont gardés car ils sont utiles pour distinguer les mots.
  3. L'identité du mot (Le rôle de détective) :

    • L'image : Les sons servent à différencier les mots. Le son « B » dans « Bat » vs « Cat » est crucial.
    • La règle : Les sons qui aident le plus à distinguer les mots entre eux (qui apportent le plus d'information) sont utilisés plus souvent. La langue privilégie les sons qui sont de bons « détectives » pour éviter la confusion.

🎯 En résumé : La Grande Révélation

Cette étude nous dit que les langues ne sont pas un chaos aléatoire. Elles sont le résultat d'une négociation intelligente entre :

  1. La facilité de production (ne pas trop se fatiguer).
  2. La nécessité de se faire comprendre (ne pas être trop prévisible).
  3. La taille de la boîte à outils (si on a beaucoup de sons, on les utilise tous un peu plus équitablement).

C'est comme si chaque langue trouvait son propre équilibre parfait pour que la communication soit à la fois efficace (pas trop d'effort) et précise (pas trop de confusion). Les mathématiques derrière tout cela (Dirichlet et l'Entropie Maximale) sont simplement les outils qui permettent de mesurer cet équilibre invisible.

En une phrase : Les langues du monde s'organisent selon des règles mathématiques précises où la quantité de sons disponibles dicte comment ils sont utilisés, tout en s'adaptant à l'effort physique et au besoin de distinguer les mots.