SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
Il paper presenta SENS-ASR, un approccio che migliora la qualità della trascrizione nei sistemi di riconoscimento vocale in streaming iniettando informazioni semantiche estratte da un modulo addestrato tramite distillazione della conoscenza, ottenendo così una significativa riduzione del tasso di errore delle parole in scenari con finestre temporali ridotte.