Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

この論文は、バングラデシュの42の少数民族言語(その多くが危機に瀕し計算資源が不足している)を対象に、90 日間の現地調査で収集された約 107 時間の音声データと構造化テキストを含む「マルチリンガル・クラウド・コーパス」を構築し、公開したことを報告するものである。

Mohammad Mamun Or Rashid

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「言葉のデジタル・タイムカプセル」**を作る壮大なプロジェクトについて書かれたものです。

バングラデシュという国には、98% の人々が話す「ベンガル語」がありますが、実はその下には、**「ゼロ・リソース(デジタル資源が全くない)」**と言われている民族の言語が 40 種類以上もひっそりと存在しています。それらの多くは、文字を持たず、インターネット上にも存在しない「口承(口で伝えるだけ)」の言語です。

このプロジェクトは、**「Oral to Web(口からウェブへ)」**というコンセプトで、消えゆくかもしれないこれらの言語を、デジタルの世界に保存しようとしたものです。

以下に、難しい専門用語を使わず、身近な例え話を使って説明します。


1. なぜこのプロジェクトが必要だったのか?

【例え:図書館のない村】
想像してください。ある村に、素晴らしい物語や歌、歴史を口伝で伝えてくれるおじいちゃんやおばあちゃんがいます。しかし、その村には**「図書館」も「記録係」もいません。** おじいちゃんが亡くなれば、その物語は永遠に消えてしまいます。

バングラデシュの少数民族の言語も、まさにこの状態でした。

  • 文字がない(本がない)。
  • インターネットに載っていない(検索できない)。
  • 話せる人が減っている(図書館の司書が少なくなっている)。

このままでは、これらの言語は「デジタルの闇」に飲み込まれてしまいます。そこで、**「言葉の図書館(クラウド)」**を作ろうというのがこのプロジェクトの目的です。

2. 彼らはどうやって「言葉の図書館」を作ったの?

彼らは、**「3 つのステップ」**という魔法のレシピを使って、42 種類の言語をデジタル化しました。

ステップ 1:準備(レシピの作成)

まず、どんな言葉を録音するかを決めました。

  • 単語: 「リンゴ」「走る」「お母さん」など、基本的な言葉 475 種類。
  • 文: 「私は行く」「彼は食べた」など、文法のパターン 887 種類。
  • 会話: 「お祭りの準備」「病院での会話」「昔話」など、日常のシチュエーション 46 種類。

これは、**「世界中のどんな言語でも、同じ質問をして同じ答えをもらう」**というルールです。そうすることで、言語同士を比較したり、AI が学習しやすくなったりします。

ステップ 2:フィールドワーク(採集)

90 日間、バングラデシュの山や村を回り、77 人のネイティブスピーカーに協力してもらいました。

  • 彼らは、準備した「レシピ」に沿って、話者にベンガル語で質問し、その言語での答えを録音しました。
  • 録音した音声を、専門家が**「IPA(国際音声記号)」**という、世界中の言語の音を正確に書き表す「楽譜」に変換しました。
  • さらに、その内容をベンガル語と英語に翻訳し、**「3 言語(現地の言葉+ベンガル語+英語)」**でつなげました。

【例え:料理のレシピカード】
録音された音声は「料理そのもの」、IPA は「正確な材料と調理法のメモ」、翻訳は「その料理が何なのかを説明するラベル」です。これらをセットにすることで、誰が聞いても「この料理(言語)が何であるか」がわかるようになります。

ステップ 3:ラボ作業(整理と公開)

集めたデータは、**「マルチリンガル・クラウド(Multilingual Cloud)」**というウェブサイトに公開されました。

  • ここには、**約 8 万 5 千の「言葉の断片」**と、107 時間分の音声が収められています。
  • 誰でも無料で検索して、その言語の音がどう聞こえるか、どんな意味かを確認できます。

3. このプロジェクトのすごいところは?

  • 絶滅危惧種の救済活動:
    話者がたった 6 人しかいない「Rengmitcha」という言語も、このプロジェクトでデジタル化されました。話者が亡くなっても、その言語の「音」と「意味」はクラウドに永遠に残ります。これは、**「言葉のデジタル・ミイラ化」ではなく、「言葉のデジタル・種子」**を保存する作業です。
  • AI へのプレゼント:
    これまで AI(人工知能)は、英語や中国語のような「大きな言語」しか勉強できませんでした。しかし、このプロジェクトで集められたデータは、AI が「小さな言語」も理解するための**「最初の教科書」**になります。
  • コミュニティへの還元:
    単に学者がデータを取るだけでなく、地域の人々が自分の言語をデジタルで書き留めるためのツール(フォントやキーボード)も提供されました。これにより、彼らはスマホや PC で自分の母語を使えるようになります。

4. まとめ:このプロジェクトが描く未来

この論文は、**「言葉は消えてしまう運命にあるのではなく、デジタル技術を使えば未来へ繋げられる」**という希望を伝えています。

バングラデシュという国が、政府の支援のもとで、**「口承(口)からデジタル(Web)へ」という橋を架けたのです。
これは、バングラデシュだけでなく、世界中の「言葉の絶滅危惧種」を守るための
「青写真(モデルケース)」**となるでしょう。

一言で言うと:

「消えかけの『言葉の種』を、デジタルという『温室』で育て、世界中の誰にでも見せて、未来に受け継ぐための巨大なデジタル・アーカイブを作った!」

これが、この論文が伝えたい「Oral to Web」の物語です。