The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Este artigo apresenta uma explicação unificada sob a ótica da teoria da informação para a distribuição de frequências de fonemas nas línguas do mundo, demonstrando que, em nível macroscópico, essas distribuições seguem estatísticas de ordem de uma distribuição de Dirichlet simétrica com compensação de entropia, enquanto em nível microscópico, um modelo de máxima entropia com restrições articulares, fonotáticas e lexicais prevê com precisão as probabilidades específicas de cada língua.

Fermín Moscoso del Prado Martín, Suchir Salhan

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que a linguagem humana é como uma grande orquestra mundial. Cada língua é um músico diferente, e os fonemas (os sons básicos, como "a", "b", "t", "k") são as notas musicais que eles tocam.

Este estudo de dois pesquisadores da Universidade de Cambridge quer responder a uma pergunta simples: Por que algumas notas são tocadas o tempo todo, enquanto outras raramente aparecem? E mais importante: existe uma regra oculta que governa como todas as orquestras do mundo organizam suas músicas?

A resposta deles é fascinante e funciona em dois níveis: o Macroscópico (a visão geral da orquestra) e o Microscópico (o que acontece nota por nota).

1. O Nível Macroscópico: A "Regra de Ouro" das Orquestras

Imagine que você tem uma caixa de 100 notas musicais. Se você fosse um compositor aleatório, como distribuiria o uso dessas notas?

  • Você usaria todas igualmente? (Todos tocam a mesma quantidade).
  • Ou você usaria algumas muito e outras quase nada? (Um solista toca o tempo todo, o resto toca de vez em quando).

O estudo descobriu que as línguas seguem uma "receita matemática" muito específica, chamada Distribuição de Dirichlet Simétrica.

A Analogia da "Balança de Ouro":
Pense no tamanho do vocabulário de sons de uma língua como o tamanho da orquestra.

  • Orquestras Pequenas (Poucos sons): Como o Rotokas (uma língua com apenas 11 sons), eles têm que usar todas as suas notas de forma muito equilibrada. É como um quarteto de cordas: se um violino parar de tocar, a música quebra. Então, a distribuição é muito "plana" e justa.
  • Orquestras Gigantes (Muitos sons): Como o Taa (uma língua com 160 sons!), eles têm tantos sons que podem ser "desleixados". Eles podem ter um "solista" (um som muito comum) e deixar 150 outros sons tocarem apenas um acorde por ano.

A Grande Descoberta (A Hipótese da Compensação):
Os autores chamam isso de Compensação.

Quanto mais sons uma língua tem, mais "desigual" é o uso desses sons.

É como se a natureza dissesse: "Se você tem muitos ingredientes na sua despensa (muitos sons), você não precisa usar todos com a mesma frequência. Pode focar nos favoritos e deixar os outros de lado." Isso cria um equilíbrio: línguas complexas em sons tornam-se mais simples na forma como usam esses sons, economizando energia mental para quem fala.

2. O Nível Microscópico: O "Detetive de Sons"

Agora, vamos descer ao nível de cada som individual. Por que o som "N" é mais comum que o "Z" em inglês? O estudo usa um método chamado Entropia Máxima (que é basicamente a ciência de fazer a melhor previsão possível com base no que sabemos, sem inventar nada).

Eles descobriram que a frequência de um som é ditada por três forças invisíveis, como se fossem três pesos numa balança:

  1. O Custo Físico (O Esforço Muscular):

    • Analogia: Imagine que fazer o som "R" forte exige mais energia muscular do que fazer o som "M".
    • Regra: Sons que exigem mais esforço físico ou são mais difíceis de ouvir tendem a ser usados menos. É a lei do menor esforço: se é cansativo, a gente usa menos.
  2. A Surpresa (O Contexto):

    • Analogia: Imagine que você está adivinhando uma palavra. Se você já ouviu "C...a...", é fácil adivinhar "Cavalo". O "V" é previsível.
    • Regra: Sons que são surpreendentes (que quebram o padrão) acabam sendo usados mais. Por que? Porque sons muito previsíveis tendem a ser "engolidos" ou esquecidos com o tempo (diacronicamente). O som que traz novidade e informação ganha destaque.
  3. O Poder de Identificação (O Dicionário):

    • Analogia: Pense em um jogo de "Adivinhe a Palavra". Se você disser "B", isso ajuda muito a distinguir "Bola" de "Mola".
    • Regra: Sons que ajudam a distinguir palavras diferentes (que têm alto valor de informação) são usados com mais frequência. A língua precisa deles para não causar confusão.

O Resumo da Ópera

Este estudo é como se tivesse descoberto que, embora cada músico (língua) pareça tocar sua música de um jeito único, todos estão seguindo a mesma partitura matemática.

  • No grande esquema: Línguas com muitos sons usam esses sons de forma desigual (alguns muito, outros pouco) para compensar a complexidade.
  • No detalhe: A frequência de cada som é calculada por uma fórmula que equilibra: "Quanto custa fazer?", "Quão surpreendente é?" e "Quão útil é para distinguir palavras?".

É uma prova bonita de que a linguagem humana, apesar de sua diversidade, é governada por princípios de eficiência e economia de energia, como se fosse um sistema inteligente que se ajusta perfeitamente para funcionar da melhor maneira possível.