SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
Le papier présente SENS-ASR, une méthode qui améliore la reconnaissance automatique de la parole en streaming en enrichissant les informations acoustiques avec des représentations sémantiques extraites des cadres passés via un module d'enseignement par distillation de connaissances, réduisant ainsi significativement le taux d'erreur sur les mots dans des scénarios à faible latence.