WAXAL: A Large-Scale Multilingual African Language Speech Corpus

이 논문은 24 개 아프리카 언어의 1 억 2,500 만 명 이상의 화자를 포괄하며 자동 음성 인식 (ASR) 및 텍스트 음성 변환 (TTS) 을 위한 대규모 공개 음성 데이터셋 'WAXAL'을 소개하고, 데이터 수집 방법론과 윤리적 고려사항을 논의하여 아프리카 언어 기술의 디지털 격차 해소를 목표로 합니다.

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, Angela Nakalembe, MohamedElfatih MohamedKhair, Vusumuzi Dube, Tavonga Siyavora, Subhashini Venugopalan, Jason Hickey, Uche Okonkwo, Abhishek Bapna, Isaac Wiafe, Raynard Dodzi Helegah, Elikem Doe Atsakpo, Charles Nutrokpor, Fiifi Baffoe Payin Winful, Kafui Kwashie Solaga, Jamal-Deen Abdulai, Akon Obu Ekpezu, Audace Niyonkuru, Samuel Rutunda, Boris Ishimwe, Michael Melese, Engineer Bainomugisha, Joyce Nakatumba-Nabende, Andrew Katumba, Claire Babirye, Jonathan Mukiibi, Vincent Kimani, Samuel Kibacia, James Maina, Fridah Emmah, Ahmed Ibrahim Shekarau, Ibrahim Shehu Adamu, Yusuf Abdullahi, Howard Lakougna, Bob MacDonald, Hadar Shemtov, Aisha Walcott-Bryant, Moustapha Cisse, Avinatan Hassidim, Jeff Dean, Yossi Matias

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "말이 통하지 않는 디지털 장벽"

지금까지 인공지능 (AI) 이 말을 잘하게 되려면, 그 언어로 된 **거대한 데이터 (책이나 녹음 파일)**가 필요했습니다. 하지만 이 데이터는 영어, 중국어, 스페인어 같은 '부자 언어'에는 넘쳐나는데, 아프리카의 2,000 개가 넘는 언어 중 대부분은 데이터가 거의 없어서 AI 가 그 언어를 배우지 못했습니다.

이는 마치 전 세계가 고화질 TV 를 보고 있는데, 아프리카의 많은 사람들은 여전히 흑백 TV 나 아예 TV 가 없는 상태와 같습니다. 기술의 혜택이 특정 사람들만 누리고 있는 '디지털 격차'가 생긴 것입니다.

2. 해결책: WAXAL 프로젝트

구글 연구소와 아프리카의 대학, 지역 단체들이 손을 잡고 이 문제를 해결하기 위해 WAXAL이라는 프로젝트를 시작했습니다.

  • 목표: 아프리카의 24 개 언어 (약 1 억 명 이상의 화자가 사용하는 언어) 에 대해 AI 가 말을 듣고, 또 말을 할 수 있게 하는 데이터를 만드는 것.
  • 비유: 이는 마치 아프리카의 각 언어마다 '말하기 교실'과 '듣기 교실'을 동시에 짓는 작업과 같습니다.

3. 두 가지 주요 교실 (데이터 구성)

이 프로젝트는 크게 두 가지 종류의 데이터를 모았습니다.

A. ASR 데이터 (듣기 교실) - "자연스러운 대화"

  • 무엇인가요? 약 1,250 시간 분량의 자연스러운 대화 녹음입니다.
  • 어떻게 만들었나요? 참가자들에게 다양한 사진을 보여주고 "이 사진에 대해 말해보세요"라고 요청했습니다. (예: 시장 풍경, 가족 사진 등)
  • 왜 사진인가요? 미리 대본을 외워서 읽는 것보다, 사진을 보고 즉흥적으로 말하게 하면 더 자연스럽고 다양한 억양과 표현이 나옵니다. 마치 친구들과 수다를 떨며 녹음하는 것과 비슷합니다.
  • 특징: 14 개 언어, 다양한 나이와 성별의 사람들이 참여했습니다.

B. TTS 데이터 (말하기 교실) - "정교한 목소리"

  • 무엇인가요? 약 235 시간 분량의 고화질 녹음입니다.
  • 어떻게 만들었나요? 전문 스튜디오에서 성우들이 발음 연습용 대본을 읽게 했습니다.
  • 왜 필요할까요? AI 가 사람처럼 자연스러운 목소리로 말을 하게 하려면, 아주 깨끗하고 정돈된 목소리 데이터가 필요합니다. 마치 명품 목소리 아카이브를 만드는 것과 같습니다.
  • 특징: 10 개 언어, 72 명의 성우 (남녀 반반) 가 참여했습니다.

4. 어떻게 만들었나요? (협력의 힘)

이 프로젝트는 구글 혼자 한 것이 아닙니다.

  • 아프리카의 전문가들과 손잡고: 우간다 마케레레 대학, 가나 대학, 디지털 우무간다, 미디어 트러스트 등 4 개의 현지 기관과 협력했습니다.
  • 현지 언어 전문가: 녹음된 내용을 적어낼 때는 현지 언어 전문가들을 고용하여 정확도를 높였습니다.
  • 윤리적 고려: 모든 참가자에게 "이 녹음은 연구에 쓰이겠습니다"라고 설명하고 허락을 받았습니다. 또한, 녹음된 내용에서 개인을 식별할 수 있는 정보는 모두 지웠습니다.

5. 왜 중요한가요? (열린 문)

이 프로젝트의 가장 큰 특징은 모두에게 공개한다는 점입니다.

  • 무료 도서관: 이 데이터는 누구나 무료로 다운로드해서 연구하거나, 새로운 앱을 만들 수 있도록 CC-BY-4.0이라는 매우 자유로운 라이선스로 공개되었습니다.
  • 미래의 영향: 이제 개발자들은 이 데이터를 바탕으로 아프리카 언어로 된 음성 비서, 자동 자막 서비스, 교육용 앱 등을 만들 수 있게 됩니다.

6. 한계와 주의점

물론 완벽하지는 않습니다.

  • 데이터의 양: 전체 녹음 중 10% 만을 텍스트로 변환 (대본화) 했습니다.
  • 방언의 다양성: 한 언어 안에도 지역마다 사투리가 있는데, 모든 사투리를 다 담지는 못했습니다.
  • 윤리적 리스크: 목소리 데이터가 악용될 가능성은 항상 있지만, 기술의 혜택이 더 크다고 판단했습니다.

요약

WAXAL은 아프리카의 언어들이 디지털 세상에서 소외되지 않도록, "말하고 듣는 기술"을 가르칠 수 있는 거대한 보물창고를 만든 프로젝트입니다. 이제 아프리카의 수많은 언어도 AI 와 함께 대화할 수 있는 기회를 얻게 되었습니다.