Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

本文介绍了涵盖 1300 年历史、包含 1770 万份文档和 51 亿个标记的“开放韩语历史语料库”,填补了韩语历史 NLP 研究的空白,并揭示了从吏读到谚文的书写演变及现代分词器在朝鲜语词汇上的显著差异。

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为"开放韩语历史语料库"(Open Korean Historical Corpus)的宏大项目。为了让你轻松理解,我们可以把它想象成建造了一座跨越 1300 年的“韩语时光图书馆”

以下是用通俗易懂的语言和生动的比喻对这篇论文的解读:

1. 为什么要建这座“图书馆”?(背景与痛点)

想象一下,韩语的历史就像一条河流,但这条河的水流非常复杂:

  • 以前:韩国人说话是韩语,但写字却主要用汉字(Hanja),就像用中文写英文句子,语法完全不同,非常别扭。
  • 后来:发明了谚文(Hangul,即现在的韩文),但很长一段时间里,人们是汉字和谚文混着写的。
  • 现在:我们主要用纯谚文。

问题在于:现在的计算机(AI)和语言模型,大多只读过“现代纯韩文”的书。它们面对几百年前那些“汉字 + 谚文”或者“纯汉字”的古书时,就像让一个只读过现代流行小说的人去读《红楼梦》的文言文版,完全看不懂,或者读得断断续续。

之前的韩国政府虽然有一些资料库,但就像上了锁的私人保险柜,普通研究者很难拿到,或者拿到的资料不能随意使用(版权限制太严)。

2. 这座“图书馆”里有什么?(核心内容)

研究者团队(来自 KAIST 等机构)像一群数字考古学家,花了大量时间从 19 个不同的“档案馆”里,把散落在各处的历史资料收集起来,整理成了这个开放语料库

  • 规模巨大:它包含了1770 万份文档,相当于51 亿个单词
  • 时间跨度:从公元 7 世纪(新罗时代)一直到 2025 年。
  • 内容多样
    • 语言:不仅有现代韩语,还有中古韩语、朝鲜语(北韩)、古典中文,甚至日本殖民时期的日语。
    • 文字:这是最珍贵的部分。它包含了吏读(Idu,一种用汉字标记韩语语法的特殊写法)、汉字谚文混写古谚文等。
    • 比喻:如果说以前的资料库只有一本《现代韩文词典》,那这个新语料库就是一本从古代到未来的“韩语进化百科全书”

3. 他们发现了什么?(主要发现)

利用这个巨大的数据库,研究者像侦探一样,通过数据分析揭示了韩语历史的三个重大秘密:

A. “吏读”的兴衰(Idu)

  • 发现:这种特殊的“汉字 + 韩语语法”写法,在 1860 年代达到顶峰,然后迅速消失。
  • 原因:就像旧式马车被汽车取代一样。1894 年的“甲午更张”改革强制推行谚文,导致这种古老的写法迅速被淘汰。

B. 从“汉字”到“谚文”的急转弯

  • 发现:很多人以为从汉字过渡到谚文是慢慢发生的,但数据证明这是一场**“急转弯”**。
  • 比喻:在 1890 年之前,书面语几乎全是汉字(就像大家都穿长袍马褂);但到了 1890 年后,随着现代化改革,大家突然开始大量穿“西装”(谚文)。到 1980 年,93% 的文字都变成了谚文。

C. 南北韩的“语言隔阂”

  • 发现:由于几十年的分裂,北韩和南韩的词汇差异巨大。
  • 后果:如果你用一个只学过南韩语言的 AI 去读北韩的新闻,AI 会像听天书一样,遇到大量不认识的词(生词率高达 51 倍)。
  • 例子:北韩把“德国”写成"도이췰란드",而南韩是"독일"。这种差异让现代 AI 很难理解北韩的文本。

4. 这个“图书馆”有什么用?(价值)

  • 给 AI 补课:现在的 AI 可以拿这些历史资料去“预习”,学会读懂几百年前的古文,理解那些复杂的汉字混写,甚至能更好地处理北韩的文本。
  • 给历史学家工具:以前研究语言变化只能靠人工翻书,现在可以用计算机进行大规模定量分析,像看气象图一样清晰地看到语言是如何随时间演变的。
  • 免费开放:最重要的是,这个图书馆是免费向公众开放的(遵循 CC BY-NC 协议),任何研究者都可以进来“借书”做研究,打破了以往资料被垄断的局面。

总结

这篇论文就像宣布:“我们终于把韩语过去 1300 年的‘断代史’拼成了一幅完整的拼图,并且把这幅拼图免费挂在了网上。”

它不仅解决了“资料难找”的问题,还让计算机能够真正“读懂”韩语的历史,无论是古老的汉字记录,还是分裂后的语言差异,都能被更准确地理解和处理。这对于保护文化遗产和开发更聪明的 AI 来说,都是一块巨大的基石。