WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech
Ce papier présente WhisperAlign, une solution combinant un découpage audio basé sur WhisperX et un affinage spécifique du domaine de Pyannote, pour améliorer la reconnaissance automatique de la parole et la diarisation dans des enregistrements bengalis longs et multi-locuteurs.