Modelling the Diachronic Emergence of Phoneme Frequency Distributions

本文通过引入功能负荷效应和趋向特定音系规模稳定性的随机演化模型,证明了语音频率分布的统计规律及音系规模与相对熵的负相关关系可能是历时音变过程的自然产物,而非源于显式的优化或补偿机制。

Fermín Moscoso del Prado Martín, Suchir Salhan

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:为什么世界上各种语言里的发音(音素)出现频率,都呈现出一种相似的、有规律的分布模式?

为了让你轻松理解,我们可以把语言想象成一个不断变化的“乐高积木城堡”,把发音(音素)想象成城堡里不同颜色的积木块

1. 核心谜题:积木的分布规律

研究人员发现,无论哪种语言,其发音频率都有两个奇怪的共同点:

  • 规律一(长尾分布): 就像城市里的人口分布一样,少数几种发音(比如英语里的 /t/ 或 /s/)用得非常多,而大多数发音用得很少。这种分布不是随机的,而是像一条平滑的曲线,尾巴拖得很长。
  • 规律二(负相关): 这是一个更有趣的现象。如果一个语言的“积木种类”(音素库存大小)很多,那么每种积木被使用的“平均信息量”反而会降低。
    • 简单比喻: 想象一个只有 10 种积木的简单城堡,每种积木都很独特,缺一不可(信息量大)。而一个有 100 种积木的复杂城堡,虽然种类多,但因为种类太多,每种积木出现的概率被稀释了,反而显得不那么“独特”或“重要”(相对熵降低)。
    • 以前的理论认为,这是语言为了“平衡”而刻意优化的结果(就像为了保持城堡稳固,故意调整积木比例)。

2. 研究者的猜想:是“刻意设计”还是“自然演化”?

作者问:这些规律真的是语言为了“好用”而刻意设计的吗?还是说,它们只是语言在几千年的历史长河中,像自然演化一样“碰巧”形成的?

为了回答这个问题,他们建立了一个计算机模拟模型,就像在电脑里养了 400 个“语言文明”,让它们经历 1000 年的随机历史变迁。

3. 模拟实验:三次尝试

第一次尝试:完全随机的“混沌世界”

  • 设定: 让积木随机地分裂(一种变两种)或合并(两种变一种),没有任何规则,完全看运气。
  • 结果: 虽然也能生成类似现实世界的频率分布曲线,但搞反了那个“负相关”规律。在这个模拟世界里,积木种类越多,信息量反而越高。
  • 结论: 光靠随机是不够的,现实世界肯定有别的机制在起作用。

第二次尝试:加入“功能负载”(谁更重要,谁就更难消失)

  • 设定: 引入一个现实规则:用得多的积木(高频音)更不容易消失,因为它们区分了很多单词(功能负载高);用得少的积木更容易被合并或淘汰。
  • 结果: 虽然频率分布曲线更像了,但那个“负相关”规律还是错的。而且,积木种类的数量开始像脱缰的野马一样,要么无限增加,要么减少到只剩两三种,这不符合现实(现实语言通常维持在 30-40 种左右)。
  • 结论: 仅仅保护“常用积木”还不够,还需要控制积木的总数。

第三次尝试:加入“舒适区”(中央趋势)

  • 设定: 这是关键的一步。作者假设语言有一个**“舒适区”或“理想大小”**(比如 34 种积木)。
    • 如果积木太少,系统就倾向于分裂(增加种类)。
    • 如果积木太多,系统就倾向于合并(减少种类)。
    • 这就好比一个恒温器,太冷了加热,太热了制冷,把温度维持在中间。
  • 结果: 大成功!
    1. 积木种类的数量稳定在了一个合理的范围内(不再无限膨胀或崩溃)。
    2. 最关键的是: 那个“负相关”规律(种类越多,相对熵越低)自然出现了!
    3. 频率分布曲线也变得和现实世界一模一样。

4. 核心发现:是“意外”而非“设计”

这篇论文最惊人的结论是:
我们之前认为语言中那些精妙的平衡(比如发音频率的规律、种类与熵的关系),可能是语言为了“高效沟通”而刻意优化出来的。

但模拟结果显示,这些规律可能只是历史演化过程中的“副产品”(Epiphenomenal)。

  • 比喻: 就像你往一个房间里扔进很多球,球在地板上随机滚动、碰撞。虽然你没有刻意去摆弄它们,但过一段时间后,它们自然会形成某种特定的分布模式。你不需要为了“美观”去摆它们,这种模式是物理规律(在这里是历史演化规律)自然作用的结果。

总结

这篇论文告诉我们:
语言中那些看似精妙、有规律的统计特征,不一定需要语言使用者有意识地“优化”或“补偿”。它们完全可以是语言在漫长的历史中,经过无数次的随机分裂、合并,并在一种“保持适中规模”的自然倾向下,自然而然演化出来的结果

这就像森林里的树木分布,并不是园丁刻意修剪成那样,而是阳光、土壤和种子竞争的自然结果。语言也是如此,是时间的力量塑造了它的统计面貌。