DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
本論文は、従来の VAD 依存型パイプラインの制約を克服し、LLM の高度な対話能力を維持しながら双方向のリアルタイム音声対話を可能にする「DuplexCascade」という、マイクロターン最適化と制御トークンを活用した VAD 不要のストリーミング型音声対話システムを提案し、オープンソースの音声対話システムにおいて最先端の性能を達成したことを示しています。