DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
Le papier présente DuplexCascade, un pipeline de dialogue vocal en duplex intégral sans détection de parole (VAD) qui transforme les tours de parole longs en micro-tours pour permettre des échanges bidirectionnels rapides tout en préservant l'intelligence conversationnelle des grands modèles de langage.