DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
Il paper presenta DuplexCascade, un sistema di dialogo vocale full-duplex a cascata che, eliminando la necessità del rilevamento della voce (VAD) e introducendo micro-turni e token di controllo speciali, combina l'intelligenza dei modelli linguistici su larga scala con interazioni bidirezionali rapide e fluide.