SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
Dit paper introduceert SENS-ASR, een methode die de transcriptiekwaliteit van streaming automatische spraakherkenning verbetert door akoestische informatie aan te vullen met semantische informatie afgeleid van verleden frames via kennisdistillatie, wat resulteert in een aanzienlijke vermindering van de woordfoutenratio bij scenarios met een kleine chunk-grootte.