TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition
本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。