BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language
本論文は、Mozilla Common Voiceに由来する16.8時間のデータセットを用いて、ゼロショットのベースラインである182.18%から単語誤り率を30.07%へと大幅に減少させた、バルティ語における初の公開音声コーパスおよびファインチューニングされたWhisper ASRモデルであるBaltiVoiceを紹介するものである。