Non-Zipfian Distribution of Stopwords and Subset Selection Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个语言学中非常有趣的现象：为什么那些我们觉得“没用”的单词（停用词），在统计规律上表现得和“有用”的单词完全不同？

为了让你轻松理解，我们可以把整篇论文想象成一次**“图书馆大扫除”和“人群排队”**的实验。

1. 背景：图书馆里的“常客”与“过客”

想象你有一个巨大的图书馆（这就好比一本厚厚的书，比如《白鲸记》或《布朗语料库》）。

所有单词：就像图书馆里所有的书。
停用词（Stopwords）：就像那些随处可见的“连接词”和“小词”，比如“的”、“是”、“在”、“和”、“我”、“你”。它们就像图书馆里的空气，无处不在，但如果你把它们抽走，故事的大意通常还能猜个八九不离十。
实义词（Non-stopwords）：就像书里的核心内容，比如“鲸鱼”、“复仇”、“大海”、“爱”。这些词承载了真正的意义。

齐普夫定律（Zipf's Law）：
以前，语言学家发现，如果按出现频率给所有书（单词）排队，前几名（最火的词）和后面的书，遵循一个非常完美的数学规律（像一条笔直的斜线）。这就像是一个超级公平的排行榜，第一名出现的次数大约是第二名的两倍，第三名的三倍，以此类推。

2. 核心发现：停用词的“弯曲”排行榜

作者们做了一个实验：他们把“停用词”单独挑出来，重新排个队。

预期：大家可能以为，既然所有词都遵循那个完美的直线规律，那么停用词作为其中的一部分，也应该遵循同样的直线规律。
现实：完全不是！停用词的排行榜变弯了。它不再是一条直线，而是一条优雅的曲线。

这就好比：
如果你把图书馆里所有的书按销量排，是一条直线。但如果你只挑出“小说类”的书来排，你会发现它们的销量分布形状变了，变成了一条弯曲的线。作者发现，这条弯曲的线可以用一个叫**“贝塔排名函数”（Beta Rank Function, BRF）**的数学公式完美描述。

3. 为什么变了？——“漏斗筛选”模型

这是论文最精彩的部分。作者问：为什么把一部分词挑出来，规律就变了？

他们提出了一个**“漏斗筛选”**的比喻：

想象有一个巨大的漏斗（这就是筛选停用词的过程）。

漏斗的顶部很宽：对于排名很靠前的词（比如“的”、“是”），漏斗口很大，它们几乎 100% 会被选进停用词列表。
漏斗的中间变窄：随着排名往下走，被选中的概率开始慢慢下降。
漏斗的底部很细：对于排名很靠后的词（那些生僻词），它们几乎不可能被选进停用词列表。

关键点在于： 这个“被选中的概率”并不是随机的，而是像** Hill 函数**（一种在生物学里描述药物反应或酶活性的曲线）那样平滑下降的。

比喻：这就好比一个**“VIP 入场券”**的发放过程。
- 最火的词（VIP 大佬）：肯定能进停用词列表（概率 100%）。
- 中等热度的词：看运气，概率逐渐降低。
- 冷门词：基本没戏（概率接近 0）。

因为这种**“有选择性的过滤”**，原本笔直的排行榜（齐普夫定律），在经过这个漏斗后，就被“压弯”了，变成了那条漂亮的曲线（贝塔排名函数）。

4. 剩下的词（非停用词）去哪了？

那被过滤掉的词（非停用词）呢？它们的排行榜是什么样？

作者发现，剩下的这些词，它们的排行榜既不是直线，也不是刚才那种弯曲的线。

它们遵循的是一种**“二次函数”**规律。
比喻：如果说停用词的筛选像是一个平滑的漏斗，那么非停用词的分布就像是一个被压扁的弹簧，或者像是一个抛物线。它们在双对数坐标图上，呈现出一种独特的弯曲形状，用普通的直线或简单的曲线都很难描述，必须用“二次方程”才能拟合得最好。

5. 总结与启示

这篇论文告诉我们：

整体与局部的差异：即使整体（所有单词）遵循完美的数学规律（齐普夫定律），当你从中切出一块特定的部分（停用词）时，这块部分的规律会完全改变。
筛选机制决定形状：停用词之所以呈现特殊的曲线，是因为人类语言习惯在“筛选”这些词时，遵循一种特定的概率模式（Hill 函数）。
数学之美：无论是生物体内的酶反应，还是语言中的单词分布，背后似乎都藏着相似的数学逻辑。

一句话总结：
如果把语言比作一条奔流的大河（齐普夫定律），那么“停用词”就像是河面上被特定滤网（Hill 函数）捞起来的一群鱼。因为滤网的大小是变化的，所以捞上来的这群鱼，它们的体型分布（排名规律）就变成了一条漂亮的曲线，而不是原本河流的直线形状。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于自然语言处理（NLP）和定量语言学（QL）的学术论文，主要探讨了停用词（Stopwords）的频率分布规律及其与**齐普夫定律（Zipf's Law）**的偏差。文章提出了一种基于子集选择（Subset Selection）的模型，解释了为什么停用词的频率分布符合 Beta 秩函数（Beta Rank Function, BRF），而非齐普夫定律。

以下是该论文的详细技术总结：

1. 研究问题 (Problem)

背景：齐普夫定律（Zipf's Law）指出，在自然语言文本中，单词的频率 $T$ 与其排名 $r$ 之间通常遵循幂律分布（ $T \propto 1/r^\alpha$ ， $\alpha \approx 1$ ）。
核心矛盾：停用词（如冠词、介词、代词等）通常占据高频词列表的顶端（前 100 个词中约 80%-90% 是停用词）。然而，当仅对停用词子集进行排名并绘制频率分布图时，其分布不再符合标准的齐普夫幂律，而是呈现出弯曲的形态。
研究目标：
1. 确定停用词子集的频率分布遵循何种数学函数形式。
2. 解释非停用词（Non-stopwords）在移除停用词后的分布特征。
3. 建立一个数学模型，从全量文本的齐普夫分布推导出停用词的 Beta 秩函数分布。

2. 方法论 (Methodology)

数据源：
- 文本：《白鲸记》（Moby Dick，约 21 万词）、布朗语料库（Brown Corpus，约 110 万词）以及 30 本来自 Project Gutenberg 的书籍（用于验证）。
- 停用词列表：使用了 NLTK（198 个，去缩写后 123 个）、spaCy（305 个）和 Snowball（175 个）三组不同的停用词列表进行对比分析。
拟合函数：
- 测试了四种函数来拟合排名 - 频率图（Rank-Frequency Plot）：
  1. 齐普夫定律（幂律）： $\log(T) = c' - \alpha \log(r)$
  2. 二次修正幂律： $\log(T) = c' - \alpha \log(r) - \kappa(\log(r))^2$
  3. Beta 秩函数 (BRF)： $T = c(r_{max} + 1 - r)^\beta / r^\alpha$
  4. Mandelbrot 函数（广义齐普夫定律）
- 采样策略：为了避免对数坐标下数据点分布不均（尾部数据点过多）导致的拟合偏差，采用了对数尺度下的均匀采样方法。
模型构建：
- 提出子集选择模型：假设全量文本遵循齐普夫定律，停用词是从中筛选出的子集。
- 选择概率函数：定义一个词被选为停用词的概率 $P(\text{stopword})$ 随其原始排名 $r$ 的变化。该概率被建模为递减的 Hill 函数（即 $1/(1 + (r/r_{mid})^\gamma) $），其中$ r_{mid} $是选择概率为 0.5 时的排名，$ \gamma$ 是 Hill 系数。
- 推导：通过积分计算子集内的新排名 $r_{new}$ 与原始排名 $r$ 的关系，进而推导子集的频率分布公式。

3. 主要结果 (Key Results)

停用词的分布规律：
- 停用词的排名 - 频率图完美符合 Beta 秩函数 (BRF)，而非齐普夫定律。
- 在不同文本和停用词列表组合下，BRF 的拟合效果极佳（ $\alpha$ 值在 0.59-0.93 之间， $\beta$ 值在 1.07-1.24 之间）。
- 相比之下，标准的幂律拟合在停用词子集上表现不佳。
非停用词的分布规律：
- 移除停用词后，剩余的非停用词分布也偏离了齐普夫定律。
- 二次函数（ $\log(T)$ 对 $\log(r)$ 的二次多项式）对非停用词的拟合效果最好（调整后的 $R^2$ 高达 0.99 以上），优于 BRF 和 Mandelbrot 函数。
模型验证：
- 利用 30 本独立书籍的数据，直接估算了“排名为 $r$ 的词是停用词”的概率。
- 估算结果与提出的 Hill 函数模型（ $r_{mid} \approx 75, \gamma \approx 1.78$ ）高度吻合，验证了子集选择模型的有效性。
解析证明：
- 作者从数学上证明了：如果原始全量数据遵循齐普夫定律，且子集选择概率遵循递减的 Hill 函数，那么生成的子集（停用词）的频率分布将自然收敛为 Beta 秩函数（BRF）。
- 同时解释了非停用词为何呈现二次函数特征：在头部区域（Head）和尾部区域（Tail），排名转换关系不同，导致对数坐标下出现从一种幂律到另一种幂律的过渡，二次函数恰好能描述这种过渡。

4. 关键贡献 (Key Contributions)

发现并量化了停用词的非齐普夫特性：明确指出停用词子集遵循 Beta 秩函数（BRF），这是对传统齐普夫定律的重要补充和修正。
提出了“子集选择模型”：建立了一个基于 Hill 函数的概率模型，从理论上解释了为什么从齐普夫分布中筛选出的子集会呈现出 BRF 分布。该模型将语言学现象（停用词筛选）与统计物理/数学模型（Hill 方程、BRF）联系起来。
揭示了非停用词的分布特征：指出非停用词更符合二次函数拟合，并提供了基于子集选择模型的解析解释。
方法论创新：在对数尺度下采用均匀采样点进行拟合，解决了传统方法中尾部数据权重过大导致拟合偏差的问题。

5. 意义与启示 (Significance)

理论意义：深化了对语言统计规律的理解。表明齐普夫定律并非在所有语言子集（如功能词子集）中都严格成立，子集的采样机制（Sampling Mechanism）会改变分布形态。
NLP 应用：
- 对于文本分析、信息检索和主题建模，理解停用词的特殊分布有助于更准确地建模语言结构。
- 虽然现代大模型（如 BERT）不再显式过滤停用词，但理解其统计特性对于特征工程、词嵌入分析以及生成式文本的评估仍有参考价值。
跨学科价值：该研究展示了定量语言学（QL）与统计物理、生物化学（Hill 方程常用于酶动力学）的交叉融合，为分析复杂系统（如基因集、城市人口分布等）中的子集分布提供了通用模型。
对中文处理的启示：论文讨论部分提到，中文分词（Word Segmentation）的不确定性可能导致字符（Character）层面的分布偏离齐普夫定律，这可能与停用词子集选择机制类似，提示在中文 NLP 中需更谨慎地处理分词粒度与频率分布的关系。

总结：
这篇论文通过实证分析和理论推导，证明了停用词并非遵循齐普夫定律，而是遵循 Beta 秩函数。这一现象可以通过一个基于递减 Hill 函数的子集选择模型得到完美解释。该工作不仅修正了对语言频率分布的传统认知，也为理解复杂系统中的子集统计规律提供了新的数学框架。

Non-Zipfian Distribution of Stopwords and Subset Selection Models

1. 背景：图书馆里的“常客”与“过客”

2. 核心发现：停用词的“弯曲”排行榜

3. 为什么变了？——“漏斗筛选”模型

4. 剩下的词（非停用词）去哪了？

5. 总结与启示

1. 研究问题 (Problem)

2. 方法论 (Methodology)

3. 主要结果 (Key Results)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers