End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge Distillation
이 논문은 프레임 레벨 어댑터와 다중 웨이트-k 지식 증류를 통해 지연 시간을 줄이고 ASR 오류에 대한 내성을 강화하며, UASpeech 데이터셋에서 기존 최첨단 모델 대비 54.25% 의 단어 오류율 감소와 4.67 점의 MOS 를 달성한 엔드 - 투 - 엔드 동시 구 dysarthria 음성 재구성 시스템을 제안합니다.