SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
El artículo presenta SENS-ASR, un enfoque que mejora la calidad de la transcripción en sistemas de reconocimiento automático de voz en streaming mediante la inyección de información semántica extraída de embeddings pasados y refinada mediante destilación de conocimiento, logrando así una reducción significativa de la tasa de error de palabras en escenarios de baja latencia.