Each language version is independently generated for its own context, not a direct translation.

この論文は、言語の「統計的な法則」について、とても面白い発見をした研究です。専門用語を噛み砕いて、日常の例え話を使って説明しましょう。

1. 物語の舞台：「言葉のランキング大会」

まず、どんな本や文章にも、使われる言葉には「人気度（出現回数）」のランキングがあります。
例えば、「The（ザ）」「a（一個）」「is（～である）」のような**「機能語（ストップワード）」**は、文法をつなぐだけで意味はあまりありませんが、圧倒的に使われる回数が多いので、ランキングのトップに君臨しています。

一方、「Whale（クジラ）」「Love（愛）」「Run（走る）」のような**「意味のある言葉」**は、使われる回数が減るにつれて、ランキングは下がっていきます。

これまで、言語学者たちは「すべての言葉のランキング」は、**「Zipf の法則（ジップの法則）」**という単純なルールに従うと考えていました。

ジップの法則とは？
「1 位は 2 位の 2 倍、3 位の 3 倍……というように、順位が上がると使われる回数がきれいに減っていく」という法則です。
例：1 位が 1000 回使われるなら、2 位は 500 回、3 位は 333 回……という感じ。

2. 発見：「機能語」はルールを破っていた！

この論文の著者たちは、「じゃあ、『機能語（ストップワード）』だけを取り出して、その中でのランキングを見てみたらどうなるだろう？」と考えました。

予想： 全体がジップの法則なら、機能語だけ集めても同じようにきれいな直線になるはず。
実際の結果： 全然違う！ 機能語だけのグラフは、ジップの法則のような「きれいな直線」ではなく、**「しっぽが少し丸まった曲線」**になりました。

これを説明するために、著者たちは**「ベータランク関数（BRF）」**という新しい数式を見つけました。

イメージ：
全体（全言葉）のグラフは「滑り台」のように一直線に下がりますが、機能語だけのグラフは、**「滑り台の途中から、少しカーブして緩やかに下がる」**ような形をしています。

3. なぜそうなった？「選抜試験」のシミュレーション

なぜ機能語だけだと形が変わるのか？著者たちは**「選抜モデル」**というアイデアで説明しました。

【アナロジー：音楽フェスの選抜】
Imagine 音楽フェス（全体）があるとします。

全体（全言葉）： 人気アーティストから地味なバンドまで、すべてが「ジップの法則」に従って並んでいます。
選抜（ストップワードの抽出）： ここで、主催者が「『意味のある言葉』は排除して、『機能語』だけステージに出す」とルールを決めたとします。

このとき、主催者が誰を選ぶかには**「ある傾向」**がありました。

トップの人気者（1 位、2 位）： ほぼ 100% 選ばれます（機能語だから）。
中位の人たち： 確率は 50% くらい。
下位の人たち： 確率は 0% に近づく。

この「順位が上がるほど選ばれる確率が下がる」というルール（論文では「ヒル関数」と呼んでいます）を数学的に計算すると、**「全体は直線なのに、選抜されたグループだけ曲がったグラフになる」**ことが証明されました。

つまり、**「機能語というグループは、全体から『特定のフィルター』を通して選ばれた結果、ジップの法則から外れた独特な形になった」**というのがこの論文の核心です。

4. 逆の現象：「意味のある言葉」も変だった

面白いことに、機能語を**「除いた」**残りの言葉（意味のある言葉）のグラフも、ジップの法則にはなりませんでした。

全体： 直線（ジップの法則）
機能語だけ： 曲線（ベータランク関数）
意味のある言葉だけ： さらに別の曲線（2 次関数に近い形）

これは、**「機能語という巨大な山が取り除かれたことで、残りの言葉の並び方が、元のルールとは全く違う新しい形に変化してしまった」ことを意味します。
まるで、「大きな岩（機能語）を川から取り除くと、残った小石の並び方が、元の川の流れとは違うパターンになる」**ようなものです。

5. まとめ：何がわかったの？

この論文は、以下のようなことを教えてくれます。

「機能語」は特別だ： 言語の統計において、機能語は「全体の法則」に従わず、独自の「曲線（ベータランク関数）」を描く。
「選び方」が形を変える： 全体から特定のグループ（機能語）を選ぶ仕組み（確率的な選抜）を理解すれば、なぜその形になるかが数学的に説明できる。
言語の奥深さ： 単に「言葉の頻度」を見るだけでなく、「どの言葉が選抜されたか」という**「選び方のルール」**まで分析することで、言語の構造がより深く理解できる。

一言で言うと：
「言葉のランキングは、全体で見ると『直線』に見えるけど、『意味のない言葉』だけ集めると『曲線』になる。それは、**『意味のある言葉』が排除されるという『選抜のルール』**が、統計の形をいじくり回したからだ！」という発見です。

この研究は、AI（人工知能）が文章を理解する際や、言語の進化を研究する際に、非常に重要なヒントを与えてくれます。

Each language version is independently generated for its own context, not a direct translation.

論文要約：ストップワードの非 Zipf 分布と部分集合選択モデル

タイトル: Non-Zipfian Distribution of Stopwords and Subset Selection Models
著者: Wentian Li, Oscar Fontanelli
日付: 2026 年 3 月 6 日

1. 研究の背景と問題提起

自然言語処理（NLP）における「ストップワード（Stopwords）」は、文脈や意味にあまり寄与しない機能語（代名詞、冠詞、前置詞など）を指し、通常はテキスト分析前のフィルタリング対象とされます。一方、言語学（特に定量的言語学）では、ストップワードの出現頻度分布は重要な研究対象です。

既知の事実として、すべての単語のランク - 頻度プロット（出現頻度と順位の関係）は、Zipf の法則（べき乗則、 $T \propto r^{-\alpha}$ ）に従うことが一般的です。しかし、本研究は以下の重要な疑問を提起しています。

問題: 全体が Zipf の法則に従うデータセットから「ストップワード」という部分集合を抽出した場合、その部分集合内のランク - 頻度プロットはどうなるのか？
仮説: ストップワードの分布も Zipf の法則に従うのか、それとも異なる関数形を示すのか？

2. 手法とデータ

2.1 データセット

テキスト: 『Moby Dick』（プロジェクト・グーテンベルク）、Brown コーパス（NLTK 経由）。検証用に Project Gutenberg から 30 冊の書籍を使用。
ストップワードリスト:
1. NLTK: 198 項目（縮約形を除き 123 語）。
2. spaCy: 305 項目。
3. Snowball: 175 項目（検証用）。
- これらのリスト間の重複・非重複を分析し、共通部分（123 語）と spaCy 全体（305 語）の 2 つのケースで分析を行いました。

2.2 分析手法

回帰分析: ランク - 頻度プロットを以下の関数でフィッティングし、適合度（ $R^2$ $R^{2}$ ）を比較しました。
1. Zipf の法則（べき乗則）
2. 二次関数補正付きべき乗則
3. ベータランク関数 (Beta Rank Function, BRF): $T = c(r_{max} + 1 - r)^\beta / r^\alpha$
4. Mandelbrot 関数（一般化 Zipf 法則）
サンプリング: 対数スケール上でデータを均等にサンプリングし、ヘッダー（頻出語）とテール（稀な語）の両方を適切に評価できるようにしました。
モデル構築: ストップワードの選択確率をモデル化し、理論的な導出を行いました。

3. 主要な結果

3.1 ストップワードの分布特性

全体単語: 『Moby Dick』や Brown コーパスの全単語のランク - 頻度プロットは、ほぼ完璧に Zipf の法則（ $\alpha \approx 1$ ）に従います。
ストップワード: ストップワードのみを抽出してプロットすると、分布は曲線を描き、Zipf の法則には当てはまりません。
- 発見: ストップワードの分布は、ベータランク関数 (BRF) によって非常に高精度にフィットします。
- 非ストップワード（残りの単語）の分布は、Zipf の法則からも外れますが、BRF ではなく、対数ランクの二次関数（ $\log(T) \sim -\alpha \log(r) - \kappa (\log(r))^2$ ）によって最もよく説明されました。

3.2 部分集合選択モデルの提案

著者は、Zipf 分布に従う全体データからストップワードが選択される過程を説明するモデルを提案しました。

選択確率モデル:
ランク $r$ $r$ の単語がストップワードとして選択される確率 $P(r)$ $P (r)$ は、減少する Hill 関数（ロジスティック関数の変形）で記述されます。
$P(\text{stopword})_r = \frac{1}{1 + (r/r_{mid})^\gamma}$
ここで、 $r_{mid}$ $r_{mi d}$ は選択確率が 0.5 になるランク、 $\gamma$ $γ$ は Hill 係数です。
- このモデルは、30 冊の独立したテキストコーパスを用いた直接推定によって検証され、高い精度でデータと一致しました。

3.3 理論的導出

ストップワードの BRF 化: 全体が Zipf 分布 ( $T \propto r^{-\alpha}$ $T \propto r^{- α}$ ) を持ち、上記の Hill 関数に従って部分集合が選択されると仮定すると、数学的に部分集合内の分布が BRF になることを証明しました。
- 小 $r$ （ヘッダー部）では $r_{new} \approx r$ となり、大 $r$ （テール部）では $r_{new} \propto r^\gamma$ となる関係から、BRF の形が導かれます。
非ストップワードの二次関数化: 選択されない（非ストップワードである）確率は増加する Hill 関数となり、これにより対数スケールでの二次関数フィットが理論的に説明可能です。

4. 考察と意義

4.1 分布の「曲がり」のメカニズム

Zipf 分布（対数 - 対数グラフで直線）から BRF（曲線）への変化は、部分集合サンプリングという自然なメカニズムによって説明できます。

上位ランクの単語はストップワードとして残る可能性が高く、分布の「ヘッダー」は直線性を保ちます。
下位ランクになるにつれてストップワードとして選択される確率が低下し、分布の「テール」が圧縮されます。
この両端の制約により、グラフは必然的に曲がって BRF 形状になります。

4.2 学術的意義

ストップワード分布の解明: ストップワードが単なる「ノイズ」ではなく、特定の統計的分布（BRF）に従うことを初めて示しました。
分布変換の一般モデル: 「全体がべき乗則に従うデータから部分集合を抽出すると、その分布がどう変化するか」という一般的な問題を、Hill 関数を用いた選択モデルで定式化し、理論的に裏付けました。
言語学的洞察: 中国語の文字分布が Zipf 法則から外れる現象など、他の言語現象に対しても、単語分割（トークナイゼーション）が部分集合選択に相当する可能性を示唆しています。

5. 結論

本研究は、ストップワードのランク - 頻度分布が Zipf の法則ではなくベータランク関数 (BRF) に従うことを実証し、そのメカニズムを部分集合選択モデル（選択確率がランクの関数として Hill 関数に従う）によって説明しました。また、このモデルは非ストップワードの分布が二次関数で近似される理由も理論的に説明します。これは、自然言語の統計的構造を理解する上で、部分集合の抽出プロセスが分布形状を決定づける重要な要素であることを示す画期的な成果です。

Non-Zipfian Distribution of Stopwords and Subset Selection Models