SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

이 논문은 1800 년부터 1955 년까지의 출판 시기와 5 세기부터 20 세기까지의 집필 시기를 아우르는 185 개 문학 작품 24 만 4 천 단어로 구성된 시디아크 (SiDiaC-v.2.0) 를 소개하며, 이는 스리랑카 국립도서관 자료를 기반으로 OCR 및 정제 과정을 거쳐 생성된 가장 방대한 싱할라어 역사적 말뭉치임을 밝히고 있습니다.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕰️ 1. 이 프로젝트는 무엇인가요? (시간 여행의 지도)

상상해 보세요. 1800 년부터 1955 년까지, 그리고 더 거슬러 올라가서 기원전 5 세기부터 20 세기까지 쓰인 책들이 한곳에 모여 있다고 가정해 봅시다.

  • SiDiaC-v.1.0 (이전 버전): 연구팀이 이전에 만든 '시간 여행 지도'였는데, 책이 46 권밖에 없었고, 일부 페이지가 찢어지거나 글자가 섞여 있는 등 '결함'이 있었습니다. 마치 낡은 지도에 구멍이 뚫려 있는 것과 같죠.
  • SiDiaC-v.2.0 (이번 버전): 이번에는 그 지도를 완벽하게 수리하고 확장했습니다. 책의 수는 46 권에서 185 권으로 늘었고, 총 단어 수는 약 24 만 개에 달합니다. 이는 싱할라어 역사 연구에 있어 지금까지 만들어진 가장 방대하고 정확한 데이터입니다.

🧹 2. 어떻게 만들었나요? (더러운 보물 정화하기)

이 책들은 스리랑카 국립 도서관의 디지털 아카이브에서 가져온 것들입니다. 하지만 오래된 책들은 마치 먼지 쌓인 보물함과 같아서, 바로 쓸 수 없었습니다. 연구팀은 다음과 같은 과정을 거쳤습니다.

  1. 불필요한 것 제거 (필터링):
    • 저작권 문제가 있는 책이나, 싱할라어가 아닌 다른 언어 (팔리어, 산스크리트어, 영어) 로만 쓰인 책은 제외했습니다. 마치 보물상자에서 진짜 보물이 아닌 돌멩이나 쓰레기를 골라내는 과정입니다.
  2. OCR (광학 문자 인식) 과 수정:
    • 책 내용을 컴퓨터가 읽을 수 있도록 스캔했습니다. 하지만 오래된 글씨는 컴퓨터가 잘 못 읽어서 "A"를 "B"로 잘못 읽거나, 줄이 끊긴 채로 인식하는 경우가 많았습니다.
    • 연구팀은 사람이 직접 하나하나 확인하며 이 오류들을 수정했습니다. 마치 고서적 복원 전문가가 낡은 종이를 조심스럽게 닦아내듯 말이죠.
  3. 특수 마킹 (태그 달기):
    • 시 (詩) 에서는 운율을 맞추기 위해 단어를 잘라 쓰는 경우가 많습니다. 컴퓨터가 이를 혼동하지 않도록 <psi> 같은 특수 마킹을 넣어 "여기는 시의 운율 때문에 단어가 잘린 거야"라고 알려주었습니다.
    • 문장이 끝나는 곳에는 <eos> 마크를 넣어 문장 구분을 명확히 했습니다.

📚 3. 어떤 책들이 들어있나요? (다양한 장르의 사료)

이 시간 여행 지도에는 다양한 장르의 책들이 들어있습니다.

  • 종교 (불교): 스리랑카 문화의 핵심인 불교 경전과 해설서들이 가장 많습니다.
  • 시 (Poetry): 운율과 아름다움을 중시한 고전 시가들입니다.
  • 역사, 의학, 언어: 과거의 지혜가 담긴 다양한 분야의 책들입니다.

이 책들은 **1800 년1955 년 (출판 연도)**과 **5 세기20 세기 (작성 연도)**라는 두 가지 시간 축을 가지고 있어, 언어가 어떻게 변해왔는지 추적할 수 있게 해줍니다.

🔍 4. 이 데이터로 무엇을 알 수 있나요? (언어의 진화 관찰)

연구팀은 이 거대한 데이터베이스를 이용해 단어들의 의미 변화를 분석했습니다. 마치 언어의 DNA 를 분석하는 것과 같습니다.

  • 예시 1: "사 (Sathara)"라는 단어
    • 이 단어는 '4'라는 숫자, '기술', '도둑' 등 여러 뜻을 가집니다.
    • 분석 결과, 13~15 세기에는 '4'라는 숫자가 불교의 '4 가지 지혜'나 '4 지옥'과 연결되어 종교적 의미로 쓰인 반면, 19 세기에는 '도둑'이라는 뜻이 아주 드물게 등장했습니다.
  • 예시 2: "마 (Maha)"라는 단어
    • '위대하다', '강하다', '크다'는 뜻을 가집니다.
    • 과거에는 '위대함'이나 '신성함'을 표현하는 데 많이 쓰였으나, 시간이 지나면서 '강함'이나 '크기'를 강조하는 의미로 쓰이는 빈도가 변했습니다.

이처럼 단어 주변의 다른 단어들이 어떻게 변했는지를 분석함으로써, 수백 년 전 사람들이 어떤 생각을 하고 살았는지, 언어가 어떻게 진화했는지 알 수 있습니다.

🌟 5. 왜 중요한가요? (저자원 언어의 등불)

싱할라어는 컴퓨터가 잘 이해하지 못하는 **'저자원 언어 (Low-resource language)'**로 분류됩니다. 영어나 중국어처럼 방대한 데이터가 없기 때문에 인공지능 (AI) 이 배우기 어려운 언어입니다.

이 프로젝트는 싱할라어 AI 가 과거를 이해하고 미래를 예측할 수 있는 튼튼한 기초를 닦아주었습니다. 마치 어두운 방에 전등을 켜듯, 이 데이터는 싱할라어 자연어 처리 (NLP) 연구자들에게 가장 중요한 등불이 될 것입니다.

💡 요약

SiDiaC-v.2.0은 단순히 책 185 권을 디지털로 옮긴 것이 아닙니다.
**"오래된 책들을 깨끗이 닦고, 오류를 고치고, 시간 순서대로 정리하여, 과거의 언어가 어떻게 살아 숨 쉬었는지 보여주는 거대한 시간 여행 지도"**를 완성한 것입니다. 이를 통해 우리는 과거의 지혜를 되살리고, 미래의 AI 가 우리 언어를 더 잘 이해하도록 돕게 되었습니다.