UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

본 논문은 음성 기술 분야에서 우르두어의 자원 부족 문제를 해결하기 위해 LLM 기반 파이프라인을 통해 개발된 12 차원 비언어적 주석이 포함된 156 시간 분량의 오디오를 포함하는 대규모 고품질 우르두어 음성 코퍼스인 UrduSpeech 와 표준화된 벤치마크를 소개합니다.

원저자: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

게시일 2026-05-19✓ Author reviewed
📖 3 분 읽기☕ 가벼운 읽기

원저자: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

인공지능 (AI) 의 세계를 거대한 도서관으로 상상해 보세요. 수년 동안 이 도서관은 영어, 중국어, 스페인어로 된 책들로 가득 차 있었지만, 2 억 3 천만 명 이상이 사용하는 언어인 우르두어에 전념한 섹션은 거의 비어 있었습니다. 마치 몇 장의 흩어진 낡은 팜플렛만을 이용해 로봇에게 언어를 가르치려 하는 것과 같습니다.

이 논문은 그 불균형을 해결하기 위해 설계된 거대한 새로운"책장"인 UrduSpeech를 소개합니다. 연구자들이 무엇을 구축했고 어떻게 했는지에 대한 간단한 개요는 다음과 같습니다.

1. 문제: 뒤처진 언어

우르두어는 오른쪽에서 왼쪽으로 쓰인다는 점 (아랍어와 유사) 과 문장 안에 영어 단어가 자주 섞인다는 점 (이야기를 하는 동안 두 방언을 오가는 사람과 비슷) 이라는 독특한 특징을 지닙니다. 이러한 기이함 때문에 표준 AI 도구는 우르두어를 힌디어로 오인하거나 화자가 언어를 전환할 때 이를 이해하지 못하는 등 혼란을 겪곤 합니다. 연구자들은 이러한 특정 도전 과제를 존중하는 자원을 구축하고자 했습니다.

2. 해결책: 156 시간의"소리 도서관"

팀원들은 고품질 오디오 156 시간의 컬렉션인 UrduSpeech를 만들었습니다. 이를 비교하자면, 멈추지 않고 듣는다면 완독하는 데 6 일 이상이 걸립니다.

그들은 단순히 무작위 소음을 폴더에 던져 넣지 않았습니다. 이 도서관을 세 가지 특정"방"(하위 집합) 으로 조직했습니다.

  • US-Std: 표준 파키스탄 우르두어 (공식적인, "교과서"버전).
  • US-CS: 코드 전환 우르두어 (화자들이 우르두어와 영어를 자연스럽게 섞는 경우, 예를 들어"I need a chai and a coffee"라고 말하는 것).
  • US-EngPk: 파키스탄 억양으로 말하는 영어.

3. 구축 방법:"스마트 필터"파이프라인

이 데이터를 수집하는 것은 바위 더미 속에서 특정 보석을 찾는 것과 같았습니다. 그들은 인터넷 (유튜브) 과 오래된 아카이브 (1980 년대 TV 쇼 등) 에서 200 시간의 오디오를 수집했습니다. 이를 정제하기 위해 세 단계의 프로세스를 사용했습니다.

  • 1 단계: 노이즈 캔슬러: 그들은 AI 도구를 사용하여 배경 소음 (교통 소음이나 바람 등) 을 제거하고 대화 중 다른 목소리들을 분리하여 주요 화자만 녹음되도록 했습니다.
  • 2 단계:"엄격한 편집자"(LLM): 그들은 강력한 AI(Gemini 2.5 Pro) 를 엄격한 편집자로 활용했습니다. 이 AI 에게는 특별한 지시가 내려졌습니다. "영어 단어를 우르두어 문자로 번역하지 말고 소리에 맞게 유지하라"는 것과 "우르두어와 힌디어를 혼동하지 말라"는 것입니다. 또한 화자의 나이, 감정, 목소리 질감 (거칠거나 매끄러운지), 억양 등 12 가지 다른"분위기"태그 (비언어적 요소) 를 오디오에 대해 확인했습니다.
  • 3 단계: 인간 안전망: 데이터가 최종 확정되기 전에 원어민 우르두어 화자들이 샘플을 청취하여 AI 가 실수를 하지 않았는지 확인했습니다. 그들은 최종 품질 관리 검사원 역할을 했습니다.

4."골드 스탠다드"벤치마크

이 도서관이 훌륭함을 증명하기 위해 그들은 9 시간 분량의"골드 스탠다드"세트를 만들었습니다. 이는 인간이 수동으로 점검하고 수정한 작고 완벽하게 큐레이션된 컬렉션입니다. 그들은 이를 사용하여 다양한 AI 전사 모델을 테스트했습니다.

결과: 그들은 대부분의 기존 AI 모델이 우르두어에 어려움을 겪으며, 종종 단어를 잘못 인식하거나 문자를 혼동한다는 사실을 발견했습니다. 그러나 그들이 선택한 모델 (Gemini 2.5 Pro) 은 언어의 뉘앙스를 이해하는 원어민처럼 훨씬 더 잘 수행했습니다.

5. 도서관 안에는 무엇이 들어있나?

최종 컬렉션에는 71,792 개의 개별 오디오 클립이 포함되어 있습니다. 이는 매우 다양합니다.

  • 콘텐츠: 뉴스와 드라마부터 시, 블로그, 심지어Bait-Bazi라고 불리는 희귀한 형태의 구술 시에 이르기까지 모든 것이 포함되어 있습니다.
  • 사람들: 남성과 여성의 균형 잡힌 혼합과 어린이부터 노인에 이르기까지 모든 연령대의 화자들이 등장합니다.
  • 품질: 인간이 오디오를 청취했을 때 5 점 만점에 4.6 점이라는 높은 점수를 주어 목소리가 명확하고 전사가 정확함을 확인했습니다.

6. 왜 이것이 중요한가

이전 우르두어 데이터셋을 몇 개의 의자가 있는 작은 잠긴 방으로 생각한다면, UrduSpeech는 실제로 그들이 말하는 모든 방식으로 말하는 모든 배경을 가진 사람들로 가득 찬 수천 개의 좌석이 있는 광활한 열린 홀입니다.

연구자들은 이 도서관을 누구나 사용할 수 있도록 무료로 개방했습니다. 이 고품질이고 잘 조직된 데이터를 제공함으로써, 그들은 AI 개발자들이 우르두어 화자를 위한 더 나은 도구를 구축하도록 돕고, 이 주요 언어가 디지털 미래에서 더 이상 소외되지 않도록 하기를 희망합니다.

간단히 말해: 그들은 우르두어를 위한 거대하고 세심하게 조직된 소리 도서관을 구축하고, 다른 AI 도구들이 저지른 실수를 수정했으며, 올바른 인간과 기계의 팀워크를 통해 복잡하고 혼합된 언어의 발음도 완벽하게 이해할 수 있음을 증명했습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →