SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
O artigo apresenta o SENS-ASR, uma abordagem que melhora a qualidade da transcrição em sistemas de reconhecimento automático de fala em streaming ao reforçar informações acústicas com informações semânticas extraídas de embeddings de frames passados via um módulo treinado por destilação de conhecimento.