WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech
Questo articolo presenta WhisperAlign, una soluzione per il riconoscimento automatico del parlato e la diarizzazione in bengalese a lungo termine che combina l'uso strategico di WhisperX per la segmentazione temporale e il fine-tuning specifico del dominio del modello Pyannote per migliorare l'accuratezza nella trascrizione e nella distinzione dei parlanti.