Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon

この論文は、機械学習を用いてスラウェシ島のオーストロネシア語族基本語彙から非主流語彙を抽出・分析した結果、特定の先オーストロネシア語の単一層の存在は確認されなかったものの、地理的な偏りが見られ、従来の比較言語学的手法を補完する有効なアプローチであることが示されたことを述べています。

Mukhlis Amien, Go Frendi Gunawan

公開日 2026-04-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

言語の「化石」を探す:スラウェシ島の言葉に隠された謎を AI で解き明かす

この研究は、インドネシアのスラウェシ島にある「言葉の化石」を見つけるための、とても面白い実験です。

想像してみてください。スラウェシ島には、オーストロネシア語族(マダガスカルからイースター島まで広がる巨大な言語ファミリー)の言葉が話されています。しかし、その中にある「基本的な言葉(例えば『食べる』『大きい』『噛む』など)」の中に、なぜか**「祖先の言葉(プロト・オーストロネシア語)の形に当てはまらない奇妙な言葉」**が混じっていることに言語学者たちは気づいていました。

「これは、オーストロネシア人が来る前に住んでいた先住民の言葉(基盤言語)の名残ではないか?」
「それとも、それぞれの言語が独自に発明した新しい言葉なのだろうか?」

これまで、この謎を解くには熟練した言語学者が一つ一つ手作業で調べるしかなかったのですが、この論文では**「AI(機械学習)」**を使って、その謎を解こうとしました。


1. 実験の舞台:言葉の「お掃除」と「探偵」

研究チームは、まずスラウェシ島の 6 つの言語から 1,357 個の基本的な言葉を集めました。

  • ステップ 1:お掃除(ルールベースの除去)
    まず、AI に「オーストロネシア語族の共通祖先から明らかに受け継がれている言葉」や「アラビア語やマレー語からの借用語」を除外するよう指示しました。
    残った「怪しい言葉」が 438 個(全体の約 26%)見つかりました。これが「候補リスト」です。

  • ステップ 2:探偵(AI による分析)
    ここが今回のポイントです。AI に「この言葉がオーストロネシア語族かどうか」を教える際、「他の言語との関係性(共通祖先かどうか)」という答えを教えないようにしました。
    代わりに、AI には**「言葉の音の見た目(発音の長さ、音の並び、特定の音の出現頻度)」**だけを教えて、自分で「怪しい言葉」の特徴を見つけさせました。

2. 発見された「音の指紋」

AI は、見事に「怪しい言葉」の共通パターンを見つけ出しました。これを**「音の指紋(フォノロジカル・フィンガープリント)」**と呼んでいます。

この指紋を持つ言葉には、以下のような特徴がありました:

  • 長い言葉: 祖先の言葉は通常「2 音節」ですが、怪しい言葉はそれより長い。
  • 音がごちゃごちゃしている: 連続した子音(例:「スト」や「クン」のような音の塊)が多い。
  • 喉の音が多い: 声門閉鎖音(喉を詰まらせて出す音)が含まれている。
  • 接頭辞が少ない: オーストロネシア語特有の「ma-」や「pa-」のような頭の部分がない。

【わかりやすい例え】
オーストロネシア語の基本的な言葉は、まるで**「整然としたレゴブロック」のように、決まった形(2 音節)で組まれています。
一方、この「怪しい言葉」は、
「レゴの箱からこぼれ落ちた、形がバラバラで、他の箱(先住民の言語)から拾ってきたようなブロック」**のように見えました。

3. 意外な結末:「共通の祖先」はいなかった?

ここが最も重要な発見です。
「もしこれらが先住民の言葉の名残なら、スラウェシ島の異なる言語同士で、同じ意味の言葉が似ているはずだ(共通の祖先から分かれたはずだ)」と考えられます。

しかし、AI が 266 個の「怪しい言葉」をグループ化して分析したところ、**「全くまとまりがない」**ことがわかりました。

  • 言葉のグループ化のスコアはほぼゼロ(ランダムに近い)。
  • 同じ意味の言葉でも、言語によって全く違う形をしていた。

【結論の比喩】
これは、**「それぞれの料理人が、同じ『スパイスの味』を好むために、それぞれが独自に新しい料理を作った」ような状況です。
「共通の先祖(先住民の言語)」から受け継がれたのではなく、
「それぞれの言語が、似たような理由(文化や必要性)で、独立して似たような『奇妙な形』の言葉を生み出した」**というのが結論でした。

4. なぜこんなことが起きたのか?

研究チームは、この「音の指紋」が単なる偶然ではなく、オーストロネシア語の「音のルール」に反するものだと指摘しています。

  • オーストロネシア語のルール: 音はシンプルで、2 音節が基本。
  • 怪しい言葉: 音のルールを破っている。

面白いことに、ジャワ島の古い文字(ハナカラカ文字)の研究とも一致しました。昔、インドから来た文字をジャワ人が使ったとき、「オーストロネシア語にない音(息を吐く音や、舌を巻く音など)」を無理やり削ぎ落として、自分たちの音に合うように直した歴史があります。
今回の AI が検出した「怪しい言葉」の特徴は、まさに**「オーストロネシア語の音のルールに合わないもの」**でした。つまり、AI は言語学者の直感を、データで裏付けることに成功したのです。

まとめ:AI は言語学者の「助手」

この研究は、以下のことを示しています:

  1. AI は使える: 複雑な言語のデータから、人間が見逃しやすい「音のパターン」を見つけ出すことができる。
  2. 「似ている」=「同じ祖先」ではない: 言葉が似ているからといって、必ずしも共通の祖先がいるわけではない。それぞれの言語が独立して似た変化をすることがある。
  3. 新しい視点: 言語学者は、AI が「怪しい」と flagged した言葉を重点的に調べることで、より効率的に言語の歴史を解明できる。

一言で言えば:
「スラウェシ島の言葉には、オーストロネシア語の『制服』を着ていない『私服』の言葉がたくさん見つかった。でも、それらは『同じ家族の服』ではなく、それぞれが『自分好みの服』を自分で作った結果だった」という、言語の進化に関する新しい物語が、AI によって描き出されたのです。