Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement
Ce papier présente URSA-GAN, un cadre génératif unifié qui utilise une architecture à double encodage et une perturbation stochastique dynamique pour adapter robustement la reconnaissance et l'amélioration de la parole à des conditions de bruit et de canal inconnues, réduisant ainsi significativement les erreurs et améliorant les métriques perceptuelles.