원저자: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

게시일 2026-05-19✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

인공지능 (AI) 의 세계를 거대한 도서관으로 상상해 보세요. 수년 동안 이 도서관은 영어, 중국어, 스페인어로 된 책들로 가득 차 있었지만, 2 억 3 천만 명 이상이 사용하는 언어인 우르두어에 전념한 섹션은 거의 비어 있었습니다. 마치 몇 장의 흩어진 낡은 팜플렛만을 이용해 로봇에게 언어를 가르치려 하는 것과 같습니다.

이 논문은 그 불균형을 해결하기 위해 설계된 거대한 새로운"책장"인 UrduSpeech를 소개합니다. 연구자들이 무엇을 구축했고 어떻게 했는지에 대한 간단한 개요는 다음과 같습니다.

1. 문제: 뒤처진 언어

우르두어는 오른쪽에서 왼쪽으로 쓰인다는 점 (아랍어와 유사) 과 문장 안에 영어 단어가 자주 섞인다는 점 (이야기를 하는 동안 두 방언을 오가는 사람과 비슷) 이라는 독특한 특징을 지닙니다. 이러한 기이함 때문에 표준 AI 도구는 우르두어를 힌디어로 오인하거나 화자가 언어를 전환할 때 이를 이해하지 못하는 등 혼란을 겪곤 합니다. 연구자들은 이러한 특정 도전 과제를 존중하는 자원을 구축하고자 했습니다.

2. 해결책: 156 시간의"소리 도서관"

팀원들은 고품질 오디오 156 시간의 컬렉션인 UrduSpeech를 만들었습니다. 이를 비교하자면, 멈추지 않고 듣는다면 완독하는 데 6 일 이상이 걸립니다.

그들은 단순히 무작위 소음을 폴더에 던져 넣지 않았습니다. 이 도서관을 세 가지 특정"방"(하위 집합) 으로 조직했습니다.

US-Std: 표준 파키스탄 우르두어 (공식적인, "교과서"버전).
US-CS: 코드 전환 우르두어 (화자들이 우르두어와 영어를 자연스럽게 섞는 경우, 예를 들어"I need a chai and a coffee"라고 말하는 것).
US-EngPk: 파키스탄 억양으로 말하는 영어.

3. 구축 방법:"스마트 필터"파이프라인

이 데이터를 수집하는 것은 바위 더미 속에서 특정 보석을 찾는 것과 같았습니다. 그들은 인터넷 (유튜브) 과 오래된 아카이브 (1980 년대 TV 쇼 등) 에서 200 시간의 오디오를 수집했습니다. 이를 정제하기 위해 세 단계의 프로세스를 사용했습니다.

1 단계: 노이즈 캔슬러: 그들은 AI 도구를 사용하여 배경 소음 (교통 소음이나 바람 등) 을 제거하고 대화 중 다른 목소리들을 분리하여 주요 화자만 녹음되도록 했습니다.
2 단계:"엄격한 편집자"(LLM): 그들은 강력한 AI(Gemini 2.5 Pro) 를 엄격한 편집자로 활용했습니다. 이 AI 에게는 특별한 지시가 내려졌습니다. "영어 단어를 우르두어 문자로 번역하지 말고 소리에 맞게 유지하라"는 것과 "우르두어와 힌디어를 혼동하지 말라"는 것입니다. 또한 화자의 나이, 감정, 목소리 질감 (거칠거나 매끄러운지), 억양 등 12 가지 다른"분위기"태그 (비언어적 요소) 를 오디오에 대해 확인했습니다.
3 단계: 인간 안전망: 데이터가 최종 확정되기 전에 원어민 우르두어 화자들이 샘플을 청취하여 AI 가 실수를 하지 않았는지 확인했습니다. 그들은 최종 품질 관리 검사원 역할을 했습니다.

4."골드 스탠다드"벤치마크

이 도서관이 훌륭함을 증명하기 위해 그들은 9 시간 분량의"골드 스탠다드"세트를 만들었습니다. 이는 인간이 수동으로 점검하고 수정한 작고 완벽하게 큐레이션된 컬렉션입니다. 그들은 이를 사용하여 다양한 AI 전사 모델을 테스트했습니다.

결과: 그들은 대부분의 기존 AI 모델이 우르두어에 어려움을 겪으며, 종종 단어를 잘못 인식하거나 문자를 혼동한다는 사실을 발견했습니다. 그러나 그들이 선택한 모델 (Gemini 2.5 Pro) 은 언어의 뉘앙스를 이해하는 원어민처럼 훨씬 더 잘 수행했습니다.

5. 도서관 안에는 무엇이 들어있나?

최종 컬렉션에는 71,792 개의 개별 오디오 클립이 포함되어 있습니다. 이는 매우 다양합니다.

콘텐츠: 뉴스와 드라마부터 시, 블로그, 심지어Bait-Bazi라고 불리는 희귀한 형태의 구술 시에 이르기까지 모든 것이 포함되어 있습니다.
사람들: 남성과 여성의 균형 잡힌 혼합과 어린이부터 노인에 이르기까지 모든 연령대의 화자들이 등장합니다.
품질: 인간이 오디오를 청취했을 때 5 점 만점에 4.6 점이라는 높은 점수를 주어 목소리가 명확하고 전사가 정확함을 확인했습니다.

6. 왜 이것이 중요한가

이전 우르두어 데이터셋을 몇 개의 의자가 있는 작은 잠긴 방으로 생각한다면, UrduSpeech는 실제로 그들이 말하는 모든 방식으로 말하는 모든 배경을 가진 사람들로 가득 찬 수천 개의 좌석이 있는 광활한 열린 홀입니다.

연구자들은 이 도서관을 누구나 사용할 수 있도록 무료로 개방했습니다. 이 고품질이고 잘 조직된 데이터를 제공함으로써, 그들은 AI 개발자들이 우르두어 화자를 위한 더 나은 도구를 구축하도록 돕고, 이 주요 언어가 디지털 미래에서 더 이상 소외되지 않도록 하기를 희망합니다.

간단히 말해: 그들은 우르두어를 위한 거대하고 세심하게 조직된 소리 도서관을 구축하고, 다른 AI 도구들이 저지른 실수를 수정했으며, 올바른 인간과 기계의 팀워크를 통해 복잡하고 혼합된 언어의 발음도 완벽하게 이해할 수 있음을 증명했습니다.

기술 요약: UrduSpeech

1. 문제 제기

약 2 억 3 천만 명의 화자를 보유하고 있음에도 불구하고, 우르두어는 음성 기술 분야에서 극도로 자원이 부족합니다. 기존 자원들은 해당 언어에 고유한 특정 언어학적 및 음향적 과제를 해결하지 못합니다. 이러한 과제에는 다음이 포함됩니다:

문자 제약: 오른쪽에서 왼쪽으로 쓰는 (RTL) 페르시아 - 아랍 문자.
코드 스위칭: 우르두어 - 영어 코드 스위칭 (CS) 의 보편성.
음향적 유사성: 힌디어와의 음향적 근접성으로 인한 빈번한 오분류.
전문 데이터 부족: 기계 독해, 딥페이크 탐지, 음성 감정 인식과 같은 정교한 작업을 위한 고품질 데이터의 부족.
자원 격차: 기존 데이터셋 (예: ARL Urdu, Common Voice) 은 종종 제한적인 라이선스, 높은 비용, 제한된 화자 다양성, 또는 초언어적 메타데이터 부재로 고통받고 있습니다.

2. 방법론

저자들은 "야생 (in-the-wild)" 오디오를 처리하도록 설계된 다단계 LLM 기반 큐레이션 파이프라인을 통해 156 시간 분량의 코퍼스인 UrduSpeech를 개발했습니다.

데이터 수집 및 전처리

소스: 1980 년대부터 현재까지 40 년에 걸친 유튜브 및 아카이브 파키스탄 텔레비전 (PTV) 로그에서 200 시간의 원시 오디오를 수집했습니다.
전처리:
- 소스 분리: 효율적인 보컬 분리를 위해 Spleeter 에서 Demucs 모델로 전환했습니다.
- 화자 분리 (Diarization): Pyannote 3.1을 사용하여 화자를 분리한 후, ID 일관성을 보장하기 위해 수동 전역 정렬을 수행했습니다.
- 필터링: 2 초 미만의 세그먼트, 단일 화자 클립, 35 초를 초과하는 클립은 폐기되었습니다. 이 과정을 통해 44 시간의 잔류 노이즈가 제거되어 최종 156 시간 코퍼스가 완성되었습니다.

모델 선정 및 벤치마킹

최적의 전사 모델을 선정하기 위해 13 시간 규모의 파일럿 연구가 수행되었습니다. 세 가지 모델을 원어민 화자의 정답 (ground truth) 과 비교하여 평가했습니다:

Whisper-large-v3: 코드 스위칭 오디오에서 실패했으며, 영어를 우르두어 문자로 음역하는 경우가 많아 문자 그대로의 내용을 유지하지 못했습니다.
OmniASR-LLM-1B: 아랍어/페르시아어에서 환각 현상을 일으켰고, 억양이 있는 세그먼트에서 단어 반복 (word-looping) 을 보였습니다.
Gemini-2.5-Pro: 의미적 인식과 프롬프트 엔지니어링 능력으로 인해 우수한 모델로 선정되었습니다. 이 모델은 가장 낮은 단어 오류율 (WER) 을 달성했으며, 코드 스위칭 중에도 문자 충실도 (우르두어 대 힌디어) 와 문자 그대로의 전사를 성공적으로 유지했습니다.

주석 파이프라인

Gemini 2.5-Pro를 사용한 2 단계 프롬프트 전략이 적용되었습니다:

전사: 힌디어/데바나가리 문자 혼입을 방지하고 코드 스위칭 시 문자 그대로의 전사를 의무화하기 위해 프롬프트에 엄격한 제약을 부과했습니다.
초언어적 메타데이터: 두 번째 프롬프트를 통해 각 세그먼트에 대해 12 차원 메타데이터 레이블 (예: 피치, 질감, 리듬, 나이, 억양) 을 생성했습니다.

품질 관리: 모델 신뢰도 점수가 0.6 미만인 세그먼트는 폐기되었습니다. 최종 데이터셋은 71,792 개의 분리된 클립으로 구성됩니다.

인간 중심 검증

벤치마크 세트: US-Std, US-CS, US-EngPk 로 구성된 9 시간 규모의 하위 집합 (US-Benchmark) 은 원어민 주석가들에 의해 수동으로 수정되어 정답으로 사용되었습니다.
평가: 180 개의 클립이 세 가지 복잡도 수준에서 샘플링되었으며, 6 명의 원어민 우르두어 화자가 5 점 리커트 척도 (ITU-T P.800 프로토콜) 를 사용하여 평가했습니다.
지표: 오디오 품질, 전사 정확도, 인구 통계, 운율, 정서, 발음, 문맥 정확도를 평가했습니다.

3. 주요 기여

UrduSpeech 파이프라인: 원시 오디오 필터링, 화자 분리 수행, RTL 제약 처리, 코드 스위칭 환경에서 힌디어와 우르두어 구분을 가능하게 하는 강력한 프레임워크.
US-Benchmark 세트: 12 차원 초언어적 메타데이터를 갖춘 9 시간 규모의 수동 검증 벤치마크 세트로, 오류 분석을 위한 새로운 정답을 확립했습니다.
UrduSpeech 코퍼스: 156 시간 규모의 오픈소스 코퍼스로 다음을 포함합니다:
- 59.2 시간의 US-Std (표준 파키스탄 우르두어).
- 89.4 시간의 US-CS (코드 스위칭 우르두어 - 영어).
- 7.3 시간의 US-EngPk (파키스탄 억양 영어).
- 포괄적인 초언어적 레이블 (감정, 질감, 억양) 이 포함된 71,792 개의 발화.
SOTA 평가: Gemini 2.5-Pro, Whisper-large-v3, OmniASR-LLM-1 에 대한 심층 평가를 통해 우르두어 고품질 전사를 위한 기준선을 확립했습니다.

4. 결과

전사 성능: Gemini-2.5-Pro 는 다른 모델들을 크게 능가하여 코드 스위칭 없이 0.023, 코드 스위칭 포함 시 0.028의 WER 을 달성했습니다. 반면 Whisper 와 OmniASR 은 약 0.28~0.53 의 수치를 보였습니다.
인간 품질 평가:
- 평균 의견 점수 (MOS): 코퍼스는 4.64 ( $\sigma = 0.74$ ) 의 글로벌 MOS 를 달성했습니다.
- 신뢰도: 평가의 92.78% 가 4 또는 5 점이었습니다. 평가자 간 신뢰도는 Set B 에서 Cohen's $\kappa$ 0.678, Set C 에서 0.545 를 보였습니다.
- 신뢰성: 큐레이션 파이프라인은 모델 출력과 인간 검증을 기반으로 **97.6%**의 신뢰도 점수를 입증했습니다.
인구 통계: 코퍼스는 60/40 성별 균형 (남성 42,990 명 대 여성 28,802 명 발화) 을 유지하며 다양한 연령대 (청년, 중년, 아동, 노년) 를 포함합니다.
분포: 데이터는 뉴스, 드라마, 시, 블로그, Bait-Bazi와 같은 희귀 문학 형식을 포함한 12 개 카테고리를 포괄합니다.

5. 중요성 및 주장

이 논문은 UrduSpeech 를 글로벌 AI 의 언어적 포용성으로의 중요한 도약으로 위치시킵니다. 그 주요 중요성은 다음과 같습니다:

디지털 격차 해소: 멀티모달 기반 모델에 의해 소외되어 온 2 억 3 천만 명의 화자를 가진 언어에 대한 정확한 언어적 표현을 제공합니다.
세부 메타데이터: 정밀한 오류 분석 및 정서 컴퓨팅과 화자 프로파일링 연구를 가능하게 하는 12 차원 초언어적 메타데이터 프레임워크를 통합한 최초의 자원입니다.
코드 스위칭 대응: 우르두어 - 영어 코드 스위칭 및 파키스탄 억양 영어를 위한 대규모 데이터셋을 제공함으로써 "야생 (in-the-wild)" 격차를 구체적으로 해결합니다.
오픈 과학: 라이선스 부여 또는 유료인 많은 기반 데이터셋과 달리, 코퍼스와 파이프라인은 오픈소스되어 우르두어 및 기타 자원이 부족한 페르시아 - 아랍 문자 언어에 대한 향후 연구를 촉진하는 것을 목표로 합니다.

저자들은 야생 녹음에서의 잠재적 과도 분할로 인해 고유 화자 수를 보수적으로 추정 (3,000 개 이상 감지된 클러스터 대비 1,000 명 이상) 했으며, 일부 세그먼트에 잔류 배경 노이즈가 존재한다는 한계를 지적했습니다. 향후 작업은 ASR/TTS 를 위한 기준 벤치마크 확립과 단어 수준의 정밀도를 위한 강제 정렬 (forced alignment) 구현에 초점을 맞출 것입니다.

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations