DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
El artículo presenta DuplexCascade, un sistema de diálogo voz-voz full-duplex que elimina la necesidad de detección de voz (VAD) mediante la conversión de turnos largos en micro-turnos y el uso de tokens de control especializados, logrando así una interacción bidireccional rápida que preserva la inteligencia conversacional de los modelos de lenguaje.