Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

이 논문은 방글라데시의 42 개 소수 민족 언어 (전체 40 개 언어 중 14 개가 위기에 처함) 에 대해 체계적인 필드워크를 통해 수집된 85,792 개의 텍스트 항목과 약 107 시간의 음성 기록을 포함하는 최초의 국가 규모 다국어 클라우드 코퍼스인 'Multilingual Cloud Corpus'를 소개하고, 이를 통해 구어 중심의 '제로 리소스' 언어를 디지털화하여 언어 문서화, 저자원 NLP, 그리고 디지털 보존에 기여하는 방안을 논의합니다.

Mohammad Mamun Or Rashid

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

방글라데시의 '소리'를 '웹'으로: 사라져가는 언어를 구하는 모험

이 논문은 방글라데시라는 나라에서 일어나고 있는 아주 특별하고 중요한 프로젝트에 대한 이야기입니다. 이 프로젝트의 이름은 **'오랄 투 웹 (Oral to Web, 구전에서 웹으로)'**입니다.

간단히 말해, **"종이도 없고 인터넷도 없는 채로 입에서 입으로만 전해져 오던 언어들을, 디지털 세상으로 데려와 영구히 보존하자"**는 거대한 모험입니다.

이 복잡한 학술 논문을 누구나 쉽게 이해할 수 있도록, 몇 가지 재미있는 비유로 설명해 드리겠습니다.


1. 왜 이 프로젝트가 필요한가요? (숨겨진 보물상자)

방글라데시는 보통 '벵골어 (방글라어) 만 쓰는 나라'로 알려져 있습니다. 마치 거대한 바다처럼 모든 사람이 같은 말을 쓴다고 생각하죠. 하지만 사실 그 바다 밑에는 **40 개 이상의 작은 섬 (민족 언어)**들이 숨어 있습니다.

  • 문제점: 이 작은 섬들 중 14 개는 이미 '멸종 위기'에 처해 있습니다. 마치 마지막 한 두 명만 남아서 속삭이는 언어들처럼요.
  • 현재 상황: 지금까지 이 언어들을 기록한 것은 대부분 특정 마을의 학자들이 쓴 작은 책자 정도였습니다. 하지만 전국적으로 모든 언어를 한곳에 모아 체계적으로 정리한 '디지털 도서관'은 한 번도 없었습니다.
  • 결과: 컴퓨터가 이 언어들을 이해할 수 없어서, 인공지능 (AI) 이 이 언어를 배우거나 번역할 수 없었습니다.

2. 이 프로젝트는 무엇을 했나요? (디지털 등대 만들기)

연구팀은 이 사라져가는 언어들을 구하기 위해 **'멀티링글 클라우드 (Multilingual Cloud)'**라는 거대한 디지털 도서관을 지었습니다.

이 과정은 크게 세 단계로 나뉩니다:

  1. 준비 (지도 그리기): 어떤 언어를 기록할지, 어떤 질문을 할지 미리 정했습니다. 마치 탐험가들이 보물찾기를 위해 지도를 그리는 것과 같습니다.
  2. 현장 작업 (소리 채집): 90 일 동안 방글라데시 전역의 9 개 지역을 돌아다니며 77 명의 원어민 화자를 만나 녹음했습니다.
    • 단어: '사과', '물', '어머니' 같은 기본 단어 475 개를 녹음했습니다.
    • 문장: "나는 간다", "너는 무엇을 먹었니?" 같은 문장 887 개를 녹음했습니다.
    • 이야기: 결혼식, 농사, 장례식 등 실제 삶에서 일어나는 이야기 46 가지 상황을 녹음했습니다.
  3. 정리 (디지털화): 녹음된 소리를 컴퓨터가 읽을 수 있는 **IPA(국제음성기호)**라는 특수한 기호로 적어 넣었습니다. 마치 소리를 문자로 번역하는 작업입니다.

결과물:

  • 85,792 개의 데이터: 벵골어, 영어, 그리고 원어민의 발음 (IPA) 이 모두 나란히 있는 텍스트 8 만 개가 넘습니다.
  • 107 시간의 녹음: 40 개 이상의 언어로 녹음된 오디오 파일입니다.

3. 이 데이터는 왜 중요할까요? (미래를 위한 씨앗)

이 프로젝트는 단순히 언어를 기록하는 것을 넘어, 세 가지 큰 의미를 가집니다.

  • 컴퓨터를 위한 '교과서':
    지금까지 이 언어들은 컴퓨터 (AI) 가 배울 수 있는 책이 없었습니다. 이 데이터는 AI 가 이 언어들을 배우고, 번역기를 만들거나, 음성 인식을 할 수 있게 해주는 '최초의 교과서' 역할을 합니다. 마치 낯선 땅에 길을 닦아주는 것과 같습니다.

  • 멸종 위기 언어의 '시간 캡슐':
    **렌미치카 (Rengmitcha)**라는 언어는 전 세계에 6 명 정도만 남았습니다. 모두 60 대 이상의 어르신들이죠. 이 프로젝트는 이 어르신들의 목소리를 디지털로 저장함으로써, 언어가 완전히 사라지더라도 그 소리와 문법이 영원히 남게 했습니다. 마치 마지막 불꽃을 등불에 담아두는 것과 같습니다.

  • 디지털 소외 계층의 '열쇠':
    많은 소수 민족은 자신의 언어로 스마트폰을 쓰거나 인터넷을 할 수 없었습니다. 이 플랫폼은 그들에게 **자신의 언어로 타이핑하고 읽을 수 있는 도구 (키보드, 폰트)**를 제공했습니다. 이는 단순히 기록을 넘어, 그들이 디지털 세상에 다시 참여할 수 있게 해주는 '열쇠'입니다.

4. 결론: 하나의 모델이 되다

이 논문은 방글라데시라는 개발도상국에서도 정부의 지원과 학자들의 노력으로 대규모 언어 보존 프로젝트가 가능함을 증명했습니다.

이 프로젝트는 **"말이 사라지면 문화도 사라진다"**는 위기감에서 시작되어, **"디지털 기술로 그 소리를 영원히 남기자"**는 희망으로 끝났습니다. 이제 이 데이터는 전 세계 연구자와 방글라데시 소수 민족에게 공개되어, 사라져가는 언어들을 되살리는 데 쓰일 것입니다.

한 줄 요약:

"입으로만 전해지다 사라질 뻔한 40 개 이상의 언어를, 연구팀이 직접 찾아가 녹음하고 정리하여 **'디지털 보물창고'**로 만든 위대한 이야기입니다."