Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"한국어의 1,300 년 역사를 한 번에 담은 거대한 디지털 도서관"**을 소개하는 이야기입니다.

상상해 보세요. 우리가 매일 쓰는 한국어는 마치 변신하는 요정과 같습니다. 옛날에는 한자 (漢字) 만 썼다가, 한글이 생기고는 한자와 한글을 섞어 썼다가, 지금은 거의 한글만 씁니다. 그런데 이 요정이 어떻게 변해 왔는지, 그 긴 여정을 기록한 책들이 흩어져 있거나, 너무 어렵거나, 아니면 아예 찾아볼 수 없었습니다.

이 연구팀은 **"그 흩어진 보물들을 모두 모아서, 누구나 무료로 볼 수 있는 거대한 책상 (Open Korean Historical Corpus)"**을 만들었습니다.

주요 내용을 쉬운 비유로 설명해 드릴게요.

1. 왜 이 도서관이 필요할까요? (문제 상황)

지금까지 컴퓨터가 한국어를 이해하는 방식은 **"현대인"**에게만 맞춰져 있었습니다.

비유: 컴퓨터가 한국어를 공부할 때, 2025 년의 뉴스만 읽게 했다면, 100 년 전이나 500 년 전에 사람들이 어떻게 글을 썼는지 전혀 모를 것입니다.
문제: 옛날 글 (한자, 이두, 한글과 한자가 섞인 글) 은 너무 어렵고, 데이터가 공개되지 않아서 컴퓨터가 공부할 수 없었습니다. 마치 **"고서적은 있지만, 그걸 읽을 안경이 없는 상태"**였던 것입니다.

2. 이 도서관에는 무엇이 있나요? (해결책)

연구팀은 19 개의 다른 도서관과 박물관에서 자료를 모았습니다.

규모: 1,300 년의 시간 (서기 7 세기~2025 년) 을 아우르는 1,770 만 개의 문서와 51 억 개의 단어가 들어 있습니다.
다양성:
- 한자 (漢字): 옛날 왕조 시대의 기록.
- 이두 (吏讀): 한자를 빌려와서 우리말 순서대로 쓴 독특한 방식 (옛날 한국인의 '번역기' 같은 것).
- 혼용문 (한자 + 한글): 한글이 생긴 후 한참 동안 쓰인, 두 가지 글자가 섞인 글.
- 북한 말: 남한과 다른 북한만의 고유한 표현들.
- 일제 강점기 일본어: 식민지 시절의 기록.

이 모든 것을 누구나 무료로 다운로드하고 연구할 수 있게 (오픈 라이선스) 정리했습니다.

3. 이 도서관을 통해 무엇을 발견했나요? (주요 발견)

이 거대한 데이터를 컴퓨터로 분석하니, 한국어의 숨겨진 비밀들이 드러났습니다.

비유 1: 이두 (Idu) 의 몰락
- 1860 년대까지만 해도 '이두'라는 독특한 글쓰기 방식이 아주 유행했습니다. 하지만 1894 년 갑오개혁 이후, 정부에서 한글 사용을 장려하자 순식간에 사라졌습니다. 마치 "옛날에 유행했던 특정 옷 스타일이 갑자기 사라진 것"처럼요.
비유 2: 한자에서 한글로의 급격한 전환
- 우리는 "한글이 천천히 자리 잡았을 거"라고 생각하지만, 데이터는 1890 년경에 한자가 급격히 사라지고 한글이 폭발적으로 늘어났다고 말합니다. 마치 "눈이 녹듯이" 한자가 사라지고 한글로 채워진 것입니다. 1980 년대가 되면 글자의 93% 가 한글이 되었습니다.
비유 3: 남북한의 언어 차이
- 남한과 북한은 70 년 이상 갈라져 살면서 언어가 달라졌습니다.
- 비유: 남한의 컴퓨터가 북한의 뉴스를 읽으려 하면, **"모르는 단어가 너무 많아서 당황"**합니다. 북한은 외래어를 우리 식으로 다르게 적거나 (예: '도이췰란드' vs '독일'), 완전히 다른 단어를 쓰기 때문입니다. 이 차이를 분석하니, 현대 컴퓨터가 북한 글을 읽을 때 모르는 단어가 최대 51 배 더 많았습니다.

4. 이 도서관이 우리에게 주는 선물 (의의)

이 프로젝트는 단순히 옛날 글을 모은 것을 넘어, 미래의 인공지능 (AI) 을 더 똑똑하게 만드는 기초가 됩니다.

역사적 이해: AI 가 과거의 글을 읽으면, 한국 문화와 언어의 흐름을 더 깊이 이해하게 됩니다.
북한 말 이해: 남북 교류 시대에 북한 말을 잘 이해할 수 있는 AI 를 만들 수 있습니다.
공정한 접근: 누구나 이 데이터를 쓸 수 있게 되어, 연구의 문턱이 낮아졌습니다.

요약

이 논문은 **"한국어의 긴 역사를 한눈에 볼 수 있는 거대한 디지털 박물관"**을 세우고, 그곳에서 언어가 어떻게 변해 왔는지, 그리고 남북의 언어가 어떻게 달라졌는지를 과학적으로 증명했습니다. 이제 우리는 이 보물창고를 통해 과거의 지혜를 배우고, 더 똑똑한 AI 를 만들 수 있게 되었습니다.

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

1. 왜 이 도서관이 필요할까요? (문제 상황)

2. 이 도서관에는 무엇이 있나요? (해결책)

3. 이 도서관을 통해 무엇을 발견했나요? (주요 발견)

4. 이 도서관이 우리에게 주는 선물 (의의)

요약

논문 요약: 오픈 한국어 역사 말뭉치 (Open Korean Historical Corpus, OKHC)

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 및 분석 (Results & Analysis)

5. 의의 및 중요성 (Significance)

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

1. 왜 이 도서관이 필요할까요? (문제 상황)

2. 이 도서관에는 무엇이 있나요? (해결책)

3. 이 도서관을 통해 무엇을 발견했나요? (주요 발견)

4. 이 도서관이 우리에게 주는 선물 (의의)

요약

논문 요약: 오픈 한국어 역사 말뭉치 (Open Korean Historical Corpus, OKHC)

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 및 분석 (Results & Analysis)

5. 의의 및 중요성 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers