Simon's model does not produce Zipf's law: The fundamental rich-get-richer mechanism for any power-law size ranking

该论文指出赫伯特·西蒙的“富者愈富”模型存在根本缺陷,并推导出了随时间衰减的创新率机制,从而修正了该模型以正确解释包括齐普夫定律在内的各类幂律规模排名现象。

Pablo Rosillo-Rodes, Julia Witte Zimmerman, Laurent Hébert-Dufresne, Peter Sheridan Dodds

发布于 2026-04-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“富者愈富”**(Rich-get-richer)现象的有趣故事,并指出了一个被大家误用了 70 年的经典理论其实有个大漏洞。

为了让你轻松理解,我们可以把这个世界想象成一个**“超级巨大的词汇游乐场”**。

1. 背景:为什么有些词总是很火?

想象一下,你在写小说或者聊天。

  • 有些词(比如“的”、“是”、“我”)出现得超级频繁,它们是**“超级巨星”**。
  • 有些词(比如“独角兽”、“量子力学”)很少出现,它们是**“路人甲”**。

这种分布有一个神奇的规律,叫齐普夫定律(Zipf's Law):排名第 1 的词出现次数是第 2 名的 2 倍,是第 3 名的 3 倍……以此类推。这就像是一个**“马太效应”**:越有名的词,越容易被人用;越被人用,就越有名。

2. 旧理论:西蒙的“错误”公式

1955 年,一位叫赫伯特·西蒙(Herbert Simon)的大科学家提出了一个解释这个现象的模型。他的逻辑很简单:

  • 每次你说话或写字,你有两个选择:
    1. 创新:发明一个新词(概率是 ρ\rho)。
    2. 跟风:从已经存在的词里挑一个来用。挑哪个呢?挑那个目前用得最多的词(这就是“富者愈富”)。

西蒙认为,只要“创新”的概率 ρ\rho 很小,就能完美解释为什么会出现齐普夫定律。他甚至说,如果创新率趋近于 0,就能得到完美的齐普夫定律。

但是,这篇论文的作者们发现:西蒙算错了!

3. 大发现:西蒙模型的“致命伤”

作者们做了一个思想实验:如果创新率真的变成 0(ρ=0\rho = 0),会发生什么?

  • 按照西蒙的逻辑,既然不再有新词,那系统里就只剩下第一个出现的那个词
  • 结果就是:第 1 个词占据了 100% 的份额,其他所有词都是 0。
  • 这就像是一个**“赢家通吃”**的极端世界,而不是我们看到的“齐普夫定律”那种平滑的阶梯。

比喻:
想象一个**“滚雪球”**游戏。

  • 西蒙的模型:如果你一开始不小心滚了一个小雪球,然后规则是“只准往最大的雪球上滚雪”,而且不再制造新雪球。那么,最后那个最大的雪球会吞掉世界上所有的雪,变成一座大山,而其他位置空空如也。这不符合现实。
  • 现实世界:虽然大词确实更受欢迎,但新词(新雪球)还在不断产生,只是产生的速度在慢慢变慢,而不是突然停止。

4. 新方案:动态的“创新节奏”

作者们修正了这个模型,提出了一个**“动态创新率”**(Dynamic Innovation Rate)。

他们的核心发现是:

  • 为了得到完美的齐普夫定律(α=1\alpha = 1),创新率不能是 0,也不能是常数
  • 创新率必须随着**“新词种类数量”的增加而缓慢下降**。
  • 具体来说,创新率应该像 1/ln(N)1 / \ln(N) 这样变化(NN 是已经出现的词的种类数)。

通俗比喻:
想象你在开一家**“无限扩充的餐厅”**。

  • 旧理论(西蒙):刚开始大家喜欢尝试新菜(创新率高),后来大家只吃招牌菜(创新率低)。如果招牌菜太好吃,大家就再也不点新菜了,结果餐厅只剩下一道菜。
  • 新理论(作者):随着菜单越来越厚(种类 NN 变多),点新菜的冲动会慢慢减弱,但永远不会完全消失
  • 这种减弱是有讲究的:菜单越厚,点新菜的频率就要按特定的数学规律(对数规律)慢慢降下来。只有这样,才能既保证“招牌菜”越来越火,又保证“新菜”能不断加入,最终形成完美的齐普夫分布

5. 实验验证:用名著来打脸

作者们拿 8 本世界名著(比如《弗兰肯斯坦》、《堂吉诃德》、《尤利西斯》等)做测试。

  • 结果:西蒙的旧模型完全无法模拟这些书里的词频分布,尤其是在排名靠前的词上,它预测的“第一名”太夸张了。
  • 新模型:作者提出的“动态创新率”模型,完美地复现了这些书里的真实词频分布。

6. 总结:这对我们意味着什么?

这篇论文告诉我们:

  1. 西蒙的模型虽然经典,但在最关键的“齐普夫定律”极限情况下是失效的。 它错误地预测了当创新停止时会发生什么。
  2. 真正的“富者愈富”机制,必须包含一个**“随时间缓慢衰减的创新率”**。
  3. 这个新公式不仅适用于语言(词频),也适用于城市大小(为什么有的城市超级大,有的很小)、公司规模物种数量等所有遵循“幂律分布”的复杂系统。

一句话总结:
世界之所以没有变成“一个超级巨头吃掉所有小角色”的荒诞世界,是因为创新的火花虽然随着时间慢慢变弱,但从未熄灭,且熄灭的速度恰到好处。这篇论文就是找到了那个“恰到好处的熄灭速度”的数学公式。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →