Non-Zipfian Distribution of Stopwords and Subset Selection Models

この論文は、ストップワードの頻度分布が Zipf の法則ではなく Beta ランク関数に従うことを発見し、順位に基づく確率的な選択モデルを提案することで、ストップワードの分布特性と非ストップワードの二次関数的な適合性を理論的に説明しています。

Wentian Li, Oscar Fontanelli

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、言語の「統計的な法則」について、とても面白い発見をした研究です。専門用語を噛み砕いて、日常の例え話を使って説明しましょう。

1. 物語の舞台:「言葉のランキング大会」

まず、どんな本や文章にも、使われる言葉には「人気度(出現回数)」のランキングがあります。
例えば、「The(ザ)」「a(一個)」「is(~である)」のような**「機能語(ストップワード)」**は、文法をつなぐだけで意味はあまりありませんが、圧倒的に使われる回数が多いので、ランキングのトップに君臨しています。

一方、「Whale(クジラ)」「Love(愛)」「Run(走る)」のような**「意味のある言葉」**は、使われる回数が減るにつれて、ランキングは下がっていきます。

これまで、言語学者たちは「すべての言葉のランキング」は、**「Zipf の法則(ジップの法則)」**という単純なルールに従うと考えていました。

ジップの法則とは?
「1 位は 2 位の 2 倍、3 位の 3 倍……というように、順位が上がると使われる回数がきれいに減っていく」という法則です。
例:1 位が 1000 回使われるなら、2 位は 500 回、3 位は 333 回……という感じ。

2. 発見:「機能語」はルールを破っていた!

この論文の著者たちは、「じゃあ、『機能語(ストップワード)』だけを取り出して、その中でのランキングを見てみたらどうなるだろう?」と考えました。

  • 予想: 全体がジップの法則なら、機能語だけ集めても同じようにきれいな直線になるはず。
  • 実際の結果: 全然違う! 機能語だけのグラフは、ジップの法則のような「きれいな直線」ではなく、**「しっぽが少し丸まった曲線」**になりました。

これを説明するために、著者たちは**「ベータランク関数(BRF)」**という新しい数式を見つけました。

イメージ:
全体(全言葉)のグラフは「滑り台」のように一直線に下がりますが、機能語だけのグラフは、**「滑り台の途中から、少しカーブして緩やかに下がる」**ような形をしています。

3. なぜそうなった?「選抜試験」のシミュレーション

なぜ機能語だけだと形が変わるのか?著者たちは**「選抜モデル」**というアイデアで説明しました。

【アナロジー:音楽フェスの選抜】
Imagine 音楽フェス(全体)があるとします。

  • 全体(全言葉): 人気アーティストから地味なバンドまで、すべてが「ジップの法則」に従って並んでいます。
  • 選抜(ストップワードの抽出): ここで、主催者が「『意味のある言葉』は排除して、『機能語』だけステージに出す」とルールを決めたとします。

このとき、主催者が誰を選ぶかには**「ある傾向」**がありました。

  • トップの人気者(1 位、2 位): ほぼ 100% 選ばれます(機能語だから)。
  • 中位の人たち: 確率は 50% くらい。
  • 下位の人たち: 確率は 0% に近づく。

この「順位が上がるほど選ばれる確率が下がる」というルール(論文では「ヒル関数」と呼んでいます)を数学的に計算すると、**「全体は直線なのに、選抜されたグループだけ曲がったグラフになる」**ことが証明されました。

つまり、**「機能語というグループは、全体から『特定のフィルター』を通して選ばれた結果、ジップの法則から外れた独特な形になった」**というのがこの論文の核心です。

4. 逆の現象:「意味のある言葉」も変だった

面白いことに、機能語を**「除いた」**残りの言葉(意味のある言葉)のグラフも、ジップの法則にはなりませんでした。

  • 全体: 直線(ジップの法則)
  • 機能語だけ: 曲線(ベータランク関数)
  • 意味のある言葉だけ: さらに別の曲線(2 次関数に近い形)

これは、**「機能語という巨大な山が取り除かれたことで、残りの言葉の並び方が、元のルールとは全く違う新しい形に変化してしまった」ことを意味します。
まるで、
「大きな岩(機能語)を川から取り除くと、残った小石の並び方が、元の川の流れとは違うパターンになる」**ようなものです。

5. まとめ:何がわかったの?

この論文は、以下のようなことを教えてくれます。

  1. 「機能語」は特別だ: 言語の統計において、機能語は「全体の法則」に従わず、独自の「曲線(ベータランク関数)」を描く。
  2. 「選び方」が形を変える: 全体から特定のグループ(機能語)を選ぶ仕組み(確率的な選抜)を理解すれば、なぜその形になるかが数学的に説明できる。
  3. 言語の奥深さ: 単に「言葉の頻度」を見るだけでなく、「どの言葉が選抜されたか」という**「選び方のルール」**まで分析することで、言語の構造がより深く理解できる。

一言で言うと:
「言葉のランキングは、全体で見ると『直線』に見えるけど、『意味のない言葉』だけ集めると『曲線』になる。それは、**『意味のある言葉』が排除されるという『選抜のルール』**が、統計の形をいじくり回したからだ!」という発見です。

この研究は、AI(人工知能)が文章を理解する際や、言語の進化を研究する際に、非常に重要なヒントを与えてくれます。