BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti… — 쉬운 설명

당신에게 도서관이 하나 있다고 상상해 보십시오. 하지만 특정 언어인 발티(Balti)에 대해서는 책이 단 한 권도 없습니다. 발티는 파키스탄과 인도에서 약 40만 명이 사용하는 언어입니다. 단순히 책이 없는 것이 아니라, 음성 비서도, 받아쓰기 소프트웨어도, 컴퓨터가 음성을 이해할 수 있는 방법조차 전혀 없는 상태입니다. 이는 마치 표지판이나 지도가 없는 도시를 항해하려는 것과 같습니다.

이 논문은 그 첫 번째 지도를 만들기 위해 설계된 프로젝트인 BaltiVoice를 소개합니다.

문제점: 어둠 속에 갇힌 언어

발티는 고유한 소리와 문법을 가진 독특한 언어입니다. 이 언어는 나스탈리크(Nastaliq)라고 불리는 아름다운 문자로 쓰이는데, 이는 우르두어와 매우 흡사하게 생겼습니다. 상당한 규모의 화자 공동체가 있음에도 불구하고, 이 언어는 인공지능의 세계에서 완전히 보이지 않는 존재였습니다. 만약 이 프로젝트 이전에 똑똑한 컴퓨터에게 발티어를 "듣도록" 요청했다면, 그것은 마치 개에게 책을 읽으라고 시키는 것과 같았을 것입니다. 컴퓨터는 그저 무작위로 추측하며 거의 모든 것을 틀리게 답했을 것입니다.

해결책: 훈련용 체육관 만들기

컴퓨터에게 언어를 말하는 법을 가르치려면, 사람들이 그 언어로 말하는 수천 개의 예시를 보여주어야 합니다. 저자인 무함마드 알리(Muhammad Ali)는 **모질라 커먼 보이스(Mozilla Common Voice)**라는 거대한 온라인 커뮤니티 프로젝트로 향했습니다. 이것을 전 세계적인 녹음실이라고 생각하십시오. 자원봉사자들이 문장을 소리 내어 읽는 곳입니다.

수집: 알리는 16.8시간 분량의 녹음된 음성을 모았습니다.
규모: 이는 136명의 서로 다른 사람이 말한 10,060개의 문장에 해당합니다.
검증: 숙제를 채점하는 선생님처럼, 다른 자원봉사자들이 이 녹음들이 정확한지 확인했습니다.

이 컬렉션은 이제 **BaltiVoice 코퍼스(corpus)**라고 불립니다. 이것은 컴퓨터에게 발티어에 대해 가르치기 위한 최초의 공개된 "교과서"입니다.

스승: 위스퍼(Whisper)와 "우르두어" 트릭

저자는 컴퓨터의 두뇌를 처음부터 직접 만들지 않았습니다. 대신, 이미 매우 똑똑한 기존 AI 모델인 위스퍼(Whisper)(구체적으로는 "small" 버전)를 사용했습니다.

위스퍼를 이미 99개의 언어(영어, 스페인어, 중국어 등)를 수천 시간 동안 공부한 다국어 능력자 학생이라고 상상해 보십시오. 하지만 이 학생은 발티어를 단 한 번도 들어본 적이 없습니다. 만약 지금 이 학생에게 발티어를 들어보라고 한다면, 학생은 헛소리를 늘어놓는 환각 현상을 보일 것입니다. 오차율이 **182%**에 달한다는 것은(즉, 말하지도 않은 단어를 스스로 만들어낸다는 뜻입니다), 거의 모든 것을 틀린다는 의미입니다.

이를 해결하기 위해 저자는 영리한 트릭을 사용했습니다:

비유: 발티어는 우르두어와 매우 유사한 나스탈리크 문자로 쓰이기 때문에, 저자는 AI에게 "이봐, 잠시 동안 이것을 우르두어라고 가정해 봐"라고 말했습니다.
훈련: 그 후 AI는 "미세 조정(fine-tuning)" 과정을 거쳤습니다. 이것은 그 다국어 능력자 학생에게 데려가서 16.8시간의 발티어 녹음본을 이용해 속성 과외를 시키는 것과 같습니다. 학생은 소리를 듣고, 텍스트를 읽으며, 발티어 특유의 소리를 배워야 했습니다.

결과: 혼돈에서 명료함으로

표준 컴퓨터에서 약 2시간 동안 훈련한 후, 결과는 극적이었습니다:

훈련 전: AI는 무작정 추측하고 있었습니다(오차율 182%). 본질적으로 아무 말이나 지어내고 있었던 것입니다.
훈련 후: AI의 실수는 **30%**로 떨어졌습니다.

오차율 30%는 무엇을 의미할까요?
AI가 문장을 듣고 있다고 상상해 보십시오. 문장에 10개의 단어가 있다면, AI는 약 7개는 맞히고 3개는 틀릴 것입니다.

완벽한가요? 아닙니다. 의사의 받아쓰기나 모든 단어가 정확해야 하는 법률 기록물에 쓰이기에는 아직 부족합니다.
유용한가요? 네. 이것은 기계가 이 언어를 이해할 수 있다는 것을 증명합니다. 이는 앞이 보이지 않는 곳에서 비틀거리는 시각 장애인이 이제 막 지평선 너머의 희미한 빛을 발견한 것과 같습니다.

이것이 중요한 이유

이 논문은 이것이 단순히 높은 점수를 얻기 위한 것이 아니라, 대화를 시작하는 것임을 강조합니다.

기준점(Baseline): 이 전에는 진전을 측정할 방법이 없었습니다. 이제 연구자들은 출발선에서 달려 나갈 수 있는 "출발선"을 갖게 되었습니다.
미래: 저자는 이 오픈 소스 "체육관"(데이터와 훈련된 모델)을 통해 다른 과학자들이 들어와 더 많은 훈련을 수행하고, 궁극적으로 그 오차율을 낮출 수 있기를 희망합니다.

핵심 요약

이 논문은 기초적인 단계입니다. AI에게 보이지 않았던 언어를 가져와, 말하기 예시가 담긴 작은 도서관을 구축하고, 똑똑한 컴퓨터에게 그 언어를 듣는 법을 가르쳤습니다. 컴퓨터가 여전히 실수(3단어 중 1단어 꼴)를 하기는 하지만, "완전한 혼란"에서 "기초적인 이해"로 나아갔으며, 이는 발티어 화자들이 자신의 언어로 기술과 상호작용할 수 있는 미래의 도구들을 위한 문을 열어주었습니다.

기술 요약: BaltiVoice

문제 정의
파키스탄 길기트-발티스탄과 인도 라다크 일부 지역에서 약 40만 명이 사용하는 발티(Balti)어(ISO 639-3: bft)는 역사적으로 자연어 처리(NLP) 및 자동 음성 인식(ASR) 연구에서 부재해 왔습니다. 이 언어는 독특한 음운론과 문법을 가진 티베트계 언어임에도 불구하고, 우르두어에서 변형된 나스탈리크(Nastaliq) 기반의 문자를 사용하고 있음에도 불구하고 공개적으로 사용 가능한 ASR 자원, 주석이 달린 음성 코퍼스 또는 베이스라인 시스템이 존재하지 않았습니다. 결과적으로, 화자들은 모국어로 된 음성 인터페이스, 받아쓰기 소프트웨어 및 접근성 도구를 사용할 수 없으며, 연구자들은 발티 ASR의 진전을 측정할 지표를 갖지 못했습니다.

방법론
이러한 격차를 해소하기 위해 저자들은 데이터 수집, 전처리 및 모델 미세 조정(fine-tuning)을 위한 파이프라인인 BaltiVoice를 개발했습니다:

데이터셋 구축: 코퍼스는 Mozilla Common Voice Balti 서브셋에서 유도되었습니다. 저자들은 10,547개의 녹음 클립 중 검증된 10,060개의 발화(utterance)를 활용하였으며, 총 16.8시간의 음성 데이터를 확보했습니다. 데이터는 네이티브 나스탈리크 스크립트로 작성된 낭독 음성 녹음으로 구성됩니다.
- 전처리: 오디오 파일은 16 kHz 모노 WAV 형식의 MP3에서 변환되었습니다. 두 단어 미만의 발화는 필터링되었습니다.
- 분할: 학습 및 검증 세트 간에 화자 중복을 방지하기 위해 GroupShuffleSplit(seed 42)을 사용하여 엄격한 화자 분리(speaker-disjoint) 분할을 적용했습니다. 이를 통해 9,519개의 학습 발화(화자 122명)와 538개의 검증 발화(화자 14명)가 생성되었습니다.
- 정규화: 텍ек 정규화는 적용되지 않았으며, 구두점은 제공된 그대로 유지되었습니다. 저자들은 나스탈리크 스크립트의 유니코드 모호성(예: 시각적으로 동일하지만 코드 포인트가 다른 문자들)에 관한 한계를 언급했으나, 체계적인 정규화는 향후 과제로 남겨두었습니다.
모델 아키텍처 및 훈련:
- 베이스 모델: OpenAI의 Whisper-small(2,444만 파라미터)이 베이스 모델로 선택되었습니다. 훈련에 사용된 NVIDIA T4 GPU의 메모리 제약으로 인해 더 큰 변체(예: Whisper-medium) 대신 이 모델이 선택되었습니다.
- 토큰화: 토크나이저는 language="urdu" 및 task="transcribe"로 초기화되었습니다. 이러한 선택은 발티와 우르두어의 스크립트 유사성(둘 다 나스탈리크 사용)에 기인하며, 이를 통해 모델이 라운드트립 토큰화 과정에서 문자의 손실 없이 발티 유니코드 문자를 올바르게 처리할 수 있도록 했습니다.
- 미세 조정: 모델은 AdamW 옵티마이저, $1 \times 10^{-5}$ 의 학습률, 그리고 fp16 정밀도를 사용하여 Seq2SeqTrainer를 통해 미세 조정되었습니다. 훈련은 16.8시간의 데이터를 사용하여 1,000 스텝 동안 진행되었으며, 250 스텝마다 체크포인트가 저장되었습니다.

주요 기여
본 논문은 세 가지 주요 산물을 제시하며, 모두 HuggingFace와 GitHub에 공개되어 있습니다:

BaltiVoice 코퍼스: 네이티브 나스탈리크 전사(transcription)가 포함된 16.8시간, 10,060개 발화의 낭독 음성 코퍼스로, CC0 라이선스 하에 공개되었습니다.
Whisper-small-balti: 발티어를 위해 특별히 미세 조정된 ASR 모델입니다.
재현 가능한 파이프라인: 전체 훈련 코드, Colab 노트북, 그리고 전사를 위한 라이브 Gradio 데모를 제공합니다.

결과
미세 조정된 모델은 제로샷(zero-shot) 베이스라인에 비해 유의미한 개선을 보였습니다:

제로샷 베이스라인: 미세 조정 없이 발티어에 적용했을 때, Whisper-small은 **182.18%**의 단어 오류율(WER)을 기록했습니다. 저자들은 WER이 100%를 초과하는 것은 모델이 참조 텍스트에 없는 단어를 환각(hallucination)하고 있음을 나타내며, 이는 발티어가 모델의 사전 훈련 분포에서 완전히 벗어나 있음을 확인시켜 준다고 언급했습니다.
미세 조정 성능: 1,000 스텝의 훈련 후, 모델은 홀드아웃(held-out) 검증 세트에서 **30.07%**의 WER을 달성했습니다.
오류 분석: 질적 분석에 따르면 대부분의 오류는 단어 끝부분에서의 단일 문자 치환으로 나타났는데, 이는 모델이 어휘 패턴은 학습했으나 교착어(agglutinative language)의 형태론적 복잡성을 다루는 데 어려움을 겪고 있음을 시사합니다. 전체 단어 삭제 또는 삽입 오류는 덜 빈번했습니다.

의의 및 주장
저자들은 본 연구의 의의를 이전에 존재하지 않았던 언어를 위한 측정 가능한 시작점을 구축하는 것으로 규정합니다.

베이스라인 구축: 주요 목표는 향후 발티 NLP 연구를 가속화하기 위한 재현 가능한 베이스라인을 제공하는 것입니다.
저자원 전이의 실효성: 단 16.8시간의 데이터를 사용하여 WER을 182%에서 30%로 낮춘 것은, 관련 언어(특히 스크립트와 음운적 특징을 공유하는 우르두어 및 티베트어)로부터의 교차 언어 전이가 사전 훈련 분포에 없는 언어에 대해서도 효과적임을 시사합니다.
겸허한 기대치: 저자들은 30%의 WER이 "받아쓰기"나 일반적인 접근성 도구로 쓰기에는 "너무 높다"고 명시적으로 언급했습니다. 이는 약 세 단어 중 하나꼴로 수정이 필요함을 의미하기 때문입니다. 그러나 정확한 전사가 결정적이지 않은 키워드 탐지(keyword spotting)나 주제 탐지(topic detection)와 같은 좁은 범위의 작업에는 출력이 사용 가능할 수 있다고 주장합니다나.
향atic 방향: 논문은 발티 형태론을 위한 텍스트 정규화, 자연스러운(대화형) 음성을 포함한 코퍼스 확장, 더 큰 컴퓨팅 예산 하에서의 더 큰 모델 변체(예: Whisper-medium) 실험 등 명확한 개선 경로를 식별했습니다.

논문은 모든 산물을 공개하여 향후 연구의 장벽을 낮추고자 함을 강조하며 마무리하면서도, 낭독 음성 데이터를 사용했기에 발생하는 대화형 음성과의 차이와 같은 한계를 인정하고 있습니다.

BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language