Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts
이 논문은 7 세기부터 2025 년까지 1,300 년의 역사와 6 개 언어를 아우르는 1770 만 건의 공개 도메인 텍스트로 구성된 '오픈 한국어 역사 코퍼스 (Open Korean Historical Corpus)'를 소개하고, 이를 통해 한국어의 문자 체계 변화와 어휘적 분화 등 주요 언어학적 변천을 정량적으로 분석하여 대규모 언어 모델 학습을 위한 기초 자원을 마련했다는 점을 강조합니다.