Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

本論文は、7 世紀から 2025 年までの 1,300 年間にわたる 6 言語・19 種類のソースからなる大規模な公開ドメインテキスト「Open Korean Historical Corpus」を構築し、これを用いてハングルへの移行や北朝鮮の語彙の分岐など、韓国語の歴史的変遷を定量的に分析するとともに、大規模言語モデルの事前学習に資する基盤リソースを提供するものである。

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

韓国語の「タイムマシン」を作りました:『オープン・コリアン・ヒストリカル・コーパス』の紹介

この論文は、韓国語の歴史を研究するための**「巨大なデジタル図書館」**を新しく作ったというお話しです。

これまで、韓国語の自然言語処理(AI が言葉を理解する技術)の分野では、「現代の韓国語」ばかりが研究され、「昔の韓国語」はほとんど無視されてきました。 なぜなら、昔の文書は読みにくく、データとして手に入らなかったからです。

この研究チームは、「7 世紀から 2025 年までの 1,300 年」にわたる、約1,770 万枚の文書を集め、誰でも自由に使えるようにしました。これを「オープン・コリアン・ヒストリカル・コーパス(OKHC)」と呼びます。

このプロジェクトを、3 つの面白いメタファー(比喩)を使って説明しましょう。


1. 失われた「タイムカプセル」を掘り起こす

想像してみてください。韓国という国には、長い間、**「2 つの言語」**が混在していました。

  • 漢字(ハンジャ): 中国から来た難しい文字。昔の知識人や役人が使っていた「高級な言語」。
  • ハングル(韓国文字): 15 世紀に作られた、誰でも読み書きできる「国民の文字」。

昔の韓国では、話し言葉はハングルに近いのに、書き言葉は漢字ばかりでした。まるで**「口では日本語を話しているのに、手紙はすべて英語で書かれている」**ような状態です。さらに、その中間には「イドゥ」という、漢字を韓国語の文法に合わせて変形させた独特な書き方もありました。

しかし、現代の韓国人の多くは、これらの古い文字が読めません。それは、**「タイムカプセルが錆びついて開けられなくなっている」**ような状態でした。

この研究は、その錆びたカプセルをすべて開け、中身(1,770 万枚の文書)をデジタル化して、**「誰でも見られるようにした」**のです。

2. 文字の「交代劇」を動画で見る

この巨大な図書館を使って、チームは韓国語の歴史を「動画」のように分析しました。

  • 漢字からハングルへの劇的な変化:
    昔は文書がすべて漢字でしたが、1890 年代から急激にハングルに切り替わりました。まるで**「黒白テレビが、ある日突然、フルカラーの液晶テレビに変わってしまった」**ようなスピード感です。1894 年の改革(カボ改革)をきっかけに、この変化が加速したことがデータで明らかになりました。

  • 「イドゥ」の最期:
    漢字とハングルの中間のような「イドゥ」という書き方は、1860 年代に一番流行しましたが、その後、急激に姿を消しました。これは、政府が「もうイドゥは使わないで、ハングルを使いなさい」と決めたからでした。

3. 北と南の「方言」の壁

韓国は南北に分かれてから 70 年以上経ち、言葉も大きく変わりました。

  • 北朝鮮の言葉: 独自の発音や、外国語の書き方が全く違います。
    • 例:「ドイツ」を北朝鮮では「ドゥイチュウラン」と書き、南では「トイシル」と書きます。
  • AI の困りごと:
    今の AI(言語モデル)は、南の言葉(ハングル)を勉強して作られています。そのため、北のニュース記事を読みさせると、「知らない単語」が 51 倍も出てきて、AI がパニックになります。
    これは、**「関西弁を話している人に、標準語しか知らない通訳を当てた」**ような状態です。このデータセットがあれば、AI が北の言葉も理解できるように訓練できるようになります。

なぜこれが重要なの?

  • AI の学習教材になる: これまでの AI は「現代の韓国語」しか知らなかったため、昔の文書を読むとつまずいていました。このデータセットを使えば、AI は**「歴史的な文書もスラスラ読める」**ようになります。
  • 文化の保存: 昔の文書は、単なる文字の羅列ではなく、当時の政治、生活、考え方が詰まっています。これを AI が分析できるようになれば、**「過去の韓国がどう動いていたか」**を科学的に解明できます。
  • 誰でも使える: 以前は、政府のデータベースは「有料」だったり「許可が必要」だったりして、研究者でもアクセスしにくかったです。今回は、**「誰でも無料でダウンロードして研究できる」**ようにしました。

まとめ

この論文は、**「韓国語の歴史という、長い間眠っていた巨大な宝物を、デジタルという魔法の箱に入れて、世界中の研究者に配った」**というニュースです。

これにより、AI は「現代の韓国語」だけでなく、「昔の韓国語」や「北の韓国語」まで理解できるようになり、私たちは韓国の過去と未来を、これまで以上に深く理解できるようになるでしょう。