SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

この論文は、スリランカの立法文書(1981 年から 2014 年の法律と法案)から約 200 万語を収集・精製し、情報抽出や要約などの自然言語処理タスクを支援するための大規模なシナ語専門コーパス「SinhaLegal」を提案し、その統計的特性や言語モデルへの適合性を評価したものである。

Minduli Lasandi, Nevidu Jayatilleke

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

スリランカの「法律の図書館」を作った話:SINHALEGAL の紹介

この論文は、スリランカの言語であるシンハラ語で書かれた法律文書(「法」や「法案」)を、コンピューターが読みやすく整理した巨大なデータ集(コーパス)「SINHALEGAL」を作ったというお話しです。

まるで、散らかった古い倉庫を片付けて、整然とした図書館を作り、その中身を分析したようなプロジェクトです。以下に、難しい専門用語を使わずに、身近な例え話で解説します。


1. なぜこれが必要だったのか?(問題意識)

法律の文書は、普段私たちが読む新聞や小説とは全く違います。

  • 難解な言葉: 専門用語ばかりで、一般人には読みにくい。
  • 複雑な構造: 文法が硬く、長い文章が続く。
  • デジタル化の壁: 多くの法律文書は、古びた紙の書類をスキャンした「画像」のままで、コンピューターは中身(文字)を認識できません。

特に、シンハラ語は話している人が多くても、コンピューター用の「法律データ」がほとんど存在しない「低リソース言語」でした。これは、AI が法律を学ぶための「教科書」がないのと同じ状態です。

2. 彼らが何をしたのか?(プロジェクトの概要)

研究者たちは、スリランカの政府が公開している膨大な PDF ファイル(1,206 件、約 200 万語)を集め、以下の手順で「AI が読める本」に変身させました。

① 材料を集める(データ収集)

GitHub という場所にある、スリランカの公文書コレクションから、1981 年から 2014 年までの「法律(Acts)」と「法案(Bills)」を 2,865 件もダウンロードしました。

  • 例え: 巨大な図書館から、必要な本だけを抜き出して持ち帰るような作業です。

② 文字を読み取る(OCR)

画像になっている PDF を、Google の AI 技術を使って「文字」に変換しました。

  • 工夫: 15 ページ以上ある長い文書は、AI が処理しやすいように「15 ページずつ」に切り分けました。
  • 例え: 写真に写っている文字を、手書きのメモに書き写す作業ですが、今回は AI が高速で行いました。

③ 掃除と整頓(後処理)

ここが最も大変な部分でした。AI が読み取った文字には、以下のような「ゴミ」が混ざっていました。

  • ページの番号やフッター(下部の余計な文字)。
  • 誤って認識された文字(「あ」が「ア」になったり、意味のない記号が入ったり)。
  • 行間がバラバラになったり、余計な改行が入ったりしている状態。

研究者たちは、シンハラ語を母語とする人が手作業でこれらを一つ一つチェックし、きれいに掃除しました。

  • 例え: 古本屋で買ったボロボロの本を、ページを剥がしたり、汚れを落として、新品のように綺麗にする「本のリノベーション」作業です。

④ 選別(フィルタリング)

すべての文書を使えるわけではありませんでした。

  • 印刷が両面で重なり、文字が読めないもの。
  • 表や複雑なレイアウトで、文字がバラバラになったもの。
    これらは「品質が低い」として除外しました。最終的に、1,206 件の高品質な文書だけが選ばれました。

3. できたデータはどんなもの?(評価と分析)

完成した「SINHALEGAL」を詳しく調べてみました。

  • 語彙の多様性: 法律用語は独特で、同じ言葉が何度も繰り返されますが、同時に非常に専門的な単語もたくさん含まれています。
  • 固有名詞の抽出: 「誰が(人物)」「いつ(日付)」「どこで(組織)」「いくら(金額)」といった重要な情報を、ルールに基づいて自動的に見つけられるようにしました。
  • トピック分析: 文書全体を分析すると、「議会」「裁判所」「年金」「選挙」「お金」など、法律の主要なテーマが見えてきました。

4. AI はこれをどう使うのか?(実験結果)

このデータを使って、最新の AI モデル(Llama や Mistral など)にテストを行いました。

  • 結果: AI は、一般的なシンハラ語の文章よりも、この「法律の文章」の方が予測が得意でした。
  • 理由: 法律文書は決まり文句(「この法律は〜とする」など)が繰り返し使われるため、AI が「次はどんな言葉が来るか」を推測しやすかったからです。
  • 例え: 一般的な会話は自由奔放で予測しにくいですが、法律は「決まりきった型」があるため、AI にとっては「練習しやすいテキスト」だったと言えます。

5. まとめ:この研究の意義

この「SINHALEGAL」は、単なるデータ集ではありません。

  • 橋渡し: 法律の専門家と AI の技術をつなぐ架け橋です。
  • 未来への投資: これを使って、法律の要約を作ったり、特定の条文を検索したり、新しい法律の影響を分析したりする AI が作れるようになります。

スリランカの法律研究において、これまで存在しなかった「基礎となる土台」を築いた、画期的なプロジェクトなのです。


一言で言うと:
「散らかった法律の古書を、AI が読めるように掃除して整理し、法律の専門家と AI が協力して未来を切り開くための『最強の教科書』を作った」お話です。