DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
이 논문은 VAD(음성 활동 감지) 없이 스트리밍 파이프라인을 구축하고 말뭉치 단위를 '마이크로 턴'으로 변환하며 대화 제어 토큰을 도입함으로써, 강력한 LLM 지능을 유지하면서도 자연스러운 전체이중 (Full-Duplex) 음성 대화를 실현하는 'DuplexCascade'를 제안합니다.