The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

该论文通过宏观上的对称狄利克雷分布阶序统计与微观上的最大熵模型,统一解释了全球语言中音素频率分布的规律及其与音位库存大小、发音、音系和词汇结构的内在联系。

Fermín Moscoso del Prado Martín, Suchir Salhan

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在探索人类语言中“声音积木”(音素)的分布规律。作者试图回答两个问题:

  1. 宏观上:为什么不同语言里,各种声音出现的频率看起来都差不多?
  2. 微观上:为什么在一种特定语言里,像 /n/ 这样的声音比 /d/ 更常见?

为了让你轻松理解,我们可以把语言想象成一座巨大的乐高城堡,而音素(如 a, b, c, d...)就是不同形状的乐高积木


1. 宏观视角:大自然的“公平法则”与“补偿机制”

以前的观点
以前人们认为,语言里的声音频率像“财富分布”一样,遵循某种复杂的数学定律(比如幂律分布),就像少数人拥有巨额财富,大多数人很穷。

这篇论文的新发现
作者发现,其实没那么复杂。如果把所有语言里的声音频率画成图,它们都完美地符合一种叫做**“对称狄利克雷分布”**的数学模型。

  • 创意比喻:分蛋糕
    想象你有一块大蛋糕(代表 100% 的语言使用概率),你要把它切给 NN 个客人(代表该语言里的 NN 种声音)。
    • 如果语言很简单(比如只有 11 种声音,像中罗托卡斯语),就像只有 11 个客人。大家分到的蛋糕块大小比较均匀,谁也不比谁多太多。
    • 如果语言很复杂(比如有 160 种声音,像东塔阿语),就像有 160 个客人。这时候,为了把蛋糕分完,必然会出现“有人分得多,有人分得少”的情况,而且这种不均匀性(熵)会变得更明显。

核心发现:补偿假说(The Compensation Hypothesis)
论文提出了一个非常有趣的**“跷跷板”效应**:

  • 语言越复杂(积木种类越多),声音分布的均匀度就越低(有些声音用得极多,有些极少)。
  • 语言越简单(积木种类越少),声音分布反而越均匀

这意味着什么?
这就好比大自然在搞**“能量守恒”。如果一个语言有很多复杂的发音(高认知成本),它就在“使用频率的分布”上偷懒(让某些声音主导,降低处理难度);反之,如果发音很简单,它就在分布上更平均。这就是“宏观补偿”**:一种语言在一个地方复杂了,就在另一个地方简单了,以保持整体的平衡。


2. 微观视角:为什么 /n/ 比 /d/ 更常用?

既然宏观规律知道了,那为什么在英语里,/n/ 这个音比 /d/ 更常出现呢?作者用**“最大熵模型”(可以理解为“最合理的猜测”**)来解释。

作者认为,一个声音在语言里的频率,是由三股力量拉扯决定的,就像拔河比赛

A. 物理成本(省力原则)

  • 比喻:就像我们走路,能走平路就不走山路。
  • 解释:有些声音(如 /n/)发起来很轻松,嘴巴动得少;有些声音(如某些复杂的吸气音)发起来很累。
  • 结果:越省力的声音,在语言里出现的概率越高。就像大家更喜欢走平坦的大路,所以平坦路上的脚印(高频音)更多。

B. 语音环境(预测性原则)

  • 比喻:就像听故事,如果前面说了“今天天气真...",你很容易猜到后面是“好”。
  • 解释:如果一个声音在某个语境下太容易猜到了(比如总是跟在某个词后面),它反而容易被“省略”或者“弱化”,久而久之,它出现的频率反而可能降低。
  • 反直觉的发现:那些**“让人意想不到”**的声音(在特定语境下很难猜),反而因为需要被强调,所以出现得更频繁。这就像故事里那些意想不到的转折,往往让人印象最深,被反复提及。

C. 词汇功能(区分度原则)

  • 比喻:就像给每个人起名字。如果大家都叫“小明”,你就分不清谁是谁;如果名字很独特,你就容易分清。
  • 解释:声音的主要任务是区分单词。如果一个声音能帮我们要区分出很多不同的词(比如 /p/ 和 /b/ 能区分 "pat" 和 "bat"),那它就越重要,出现频率就越高。
  • 结果:那些对“分辨单词”贡献大的声音,在语言里就混得更好,出场率更高。

3. 总结:这篇论文讲了什么?

这篇论文就像给语言学家提供了一套**“双透镜”**:

  1. 广角镜(宏观):告诉我们,不管什么语言,声音分布的整体形状是由“声音总数”决定的。声音越多,分布越不均匀;声音越少,分布越平均。这是一种自然的补偿机制
  2. 显微镜(微观):告诉我们,具体到某一个声音为什么多、为什么少,是因为它在省力、难猜度、区分度这三者之间找到了平衡。

一句话总结
人类语言在安排“声音积木”时,既遵循着**“人多就乱分,人少就均分”的宏观数学规律,又在微观上精打细算,让那些省力、难猜、能区分词义的声音多出场,从而在复杂的认知成本和简单的交流需求之间,达成了一种精妙的动态平衡**。