Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

이 논문은 7 세기부터 2025 년까지 1,300 년의 역사와 6 개 언어를 아우르는 1770 만 건의 공개 도메인 텍스트로 구성된 '오픈 한국어 역사 코퍼스 (Open Korean Historical Corpus)'를 소개하고, 이를 통해 한국어의 문자 체계 변화와 어휘적 분화 등 주요 언어학적 변천을 정량적으로 분석하여 대규모 언어 모델 학습을 위한 기초 자원을 마련했다는 점을 강조합니다.

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"한국어의 1,300 년 역사를 한 번에 담은 거대한 디지털 도서관"**을 소개하는 이야기입니다.

상상해 보세요. 우리가 매일 쓰는 한국어는 마치 변신하는 요정과 같습니다. 옛날에는 한자 (漢字) 만 썼다가, 한글이 생기고는 한자와 한글을 섞어 썼다가, 지금은 거의 한글만 씁니다. 그런데 이 요정이 어떻게 변해 왔는지, 그 긴 여정을 기록한 책들이 흩어져 있거나, 너무 어렵거나, 아니면 아예 찾아볼 수 없었습니다.

이 연구팀은 **"그 흩어진 보물들을 모두 모아서, 누구나 무료로 볼 수 있는 거대한 책상 (Open Korean Historical Corpus)"**을 만들었습니다.

주요 내용을 쉬운 비유로 설명해 드릴게요.

1. 왜 이 도서관이 필요할까요? (문제 상황)

지금까지 컴퓨터가 한국어를 이해하는 방식은 **"현대인"**에게만 맞춰져 있었습니다.

  • 비유: 컴퓨터가 한국어를 공부할 때, 2025 년의 뉴스만 읽게 했다면, 100 년 전이나 500 년 전에 사람들이 어떻게 글을 썼는지 전혀 모를 것입니다.
  • 문제: 옛날 글 (한자, 이두, 한글과 한자가 섞인 글) 은 너무 어렵고, 데이터가 공개되지 않아서 컴퓨터가 공부할 수 없었습니다. 마치 **"고서적은 있지만, 그걸 읽을 안경이 없는 상태"**였던 것입니다.

2. 이 도서관에는 무엇이 있나요? (해결책)

연구팀은 19 개의 다른 도서관과 박물관에서 자료를 모았습니다.

  • 규모: 1,300 년의 시간 (서기 7 세기~2025 년) 을 아우르는 1,770 만 개의 문서51 억 개의 단어가 들어 있습니다.
  • 다양성:
    • 한자 (漢字): 옛날 왕조 시대의 기록.
    • 이두 (吏讀): 한자를 빌려와서 우리말 순서대로 쓴 독특한 방식 (옛날 한국인의 '번역기' 같은 것).
    • 혼용문 (한자 + 한글): 한글이 생긴 후 한참 동안 쓰인, 두 가지 글자가 섞인 글.
    • 북한 말: 남한과 다른 북한만의 고유한 표현들.
    • 일제 강점기 일본어: 식민지 시절의 기록.

이 모든 것을 누구나 무료로 다운로드하고 연구할 수 있게 (오픈 라이선스) 정리했습니다.

3. 이 도서관을 통해 무엇을 발견했나요? (주요 발견)

이 거대한 데이터를 컴퓨터로 분석하니, 한국어의 숨겨진 비밀들이 드러났습니다.

  • 비유 1: 이두 (Idu) 의 몰락

    • 1860 년대까지만 해도 '이두'라는 독특한 글쓰기 방식이 아주 유행했습니다. 하지만 1894 년 갑오개혁 이후, 정부에서 한글 사용을 장려하자 순식간에 사라졌습니다. 마치 "옛날에 유행했던 특정 옷 스타일이 갑자기 사라진 것"처럼요.
  • 비유 2: 한자에서 한글로의 급격한 전환

    • 우리는 "한글이 천천히 자리 잡았을 거"라고 생각하지만, 데이터는 1890 년경에 한자가 급격히 사라지고 한글이 폭발적으로 늘어났다고 말합니다. 마치 "눈이 녹듯이" 한자가 사라지고 한글로 채워진 것입니다. 1980 년대가 되면 글자의 93% 가 한글이 되었습니다.
  • 비유 3: 남북한의 언어 차이

    • 남한과 북한은 70 년 이상 갈라져 살면서 언어가 달라졌습니다.
    • 비유: 남한의 컴퓨터가 북한의 뉴스를 읽으려 하면, **"모르는 단어가 너무 많아서 당황"**합니다. 북한은 외래어를 우리 식으로 다르게 적거나 (예: '도이췰란드' vs '독일'), 완전히 다른 단어를 쓰기 때문입니다. 이 차이를 분석하니, 현대 컴퓨터가 북한 글을 읽을 때 모르는 단어가 최대 51 배 더 많았습니다.

4. 이 도서관이 우리에게 주는 선물 (의의)

이 프로젝트는 단순히 옛날 글을 모은 것을 넘어, 미래의 인공지능 (AI) 을 더 똑똑하게 만드는 기초가 됩니다.

  • 역사적 이해: AI 가 과거의 글을 읽으면, 한국 문화와 언어의 흐름을 더 깊이 이해하게 됩니다.
  • 북한 말 이해: 남북 교류 시대에 북한 말을 잘 이해할 수 있는 AI 를 만들 수 있습니다.
  • 공정한 접근: 누구나 이 데이터를 쓸 수 있게 되어, 연구의 문턱이 낮아졌습니다.

요약

이 논문은 **"한국어의 긴 역사를 한눈에 볼 수 있는 거대한 디지털 박물관"**을 세우고, 그곳에서 언어가 어떻게 변해 왔는지, 그리고 남북의 언어가 어떻게 달라졌는지를 과학적으로 증명했습니다. 이제 우리는 이 보물창고를 통해 과거의 지혜를 배우고, 더 똑똑한 AI 를 만들 수 있게 되었습니다.