Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data
Este artigo demonstra que o uso de pré-treinamento contínuo com dados não rotulados e pseudo-rótulos para adaptar o modelo wav2vec2-bert-2.0 permite alcançar um desempenho state-of-the-art em reconhecimento de fala em swahili, reduzindo a taxa de erro de palavras em 82% com apenas 20.000 amostras rotuladas.