WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech
Dieser Beitrag stellt eine Lösung für die DL Sprint 4.0 vor, die durch eine wortgrenzenbewusste, WhisperX-angereicherte Pipeline mit feinabgestimmten Modellen die Genauigkeit der bengalischen Langzeit-Spracherkennung und Sprecherdiarisierung in Szenarien mit überlappenden Stimmen signifikant verbessert.