DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich ein Gespräch vor, bei dem Sie und Ihr Gesprächspartner nicht abwechselnd sprechen müssen, sondern sich gleichzeitig unterhalten können – genau wie zwei Freunde, die beim Gehen durch die Stadt plaudern, sich gegenseitig unterbrechen, mit „Mhm" oder „Aha" zustimmen und dabei nicht auf ein rotes Licht warten müssen, das signalisiert: „Jetzt bist du dran."

Das ist das Ziel von DuplexCascade, einem neuen System, das in diesem Papier vorgestellt wird. Hier ist die Erklärung, wie es funktioniert, ohne technisches Fachchinesisch:

Das Problem: Der steife „Reden-Warten-Reden"-Takt

Die meisten heutigen Sprach-Assistenten (wie Siri oder Alexa) funktionieren wie ein Ping-Pong-Spiel.

Sie sprechen.
Der Assistent hört zu, bis Sie ganz aufhören (das nennt man VAD – Voice Activity Detection).
Der Assistent denkt nach und antwortet.
Erst dann dürfen Sie wieder etwas sagen.

Das Problem dabei: Wenn Sie mitten im Satz eine kurze Pause machen, denkt der Assistent oft, Sie seien fertig, und unterbricht Sie. Oder wenn Sie ihn unterbrechen wollen, ignoriert er es, weil er gerade „hört". Das wirkt unnatürlich und steif.

Die Lösung: Ein fließender Gesprächs-Strom

Die Forscher von DuplexCascade haben eine clevere Idee: Statt auf das Ende eines ganzen Satzes zu warten, schneiden sie das Gespräch in winzige Mini-Schnipsel (sie nennen sie „Micro-Turns") von etwa 0,6 Sekunden.

Stellen Sie sich das wie einen Fließband vor:

Der Zuhörer (ASR): Ein Roboter hört Ihnen zu und schreibt alles mit, was Sie sagen, in Echtzeit auf. Er schickt diesen Text alle 0,6 Sekunden in kleinen Häppchen weiter.
Der Denker (LLM): Ein sehr intelligenter KI-Geist (ein großes Sprachmodell) bekommt diese kleinen Häppchen. Er muss nicht warten, bis Sie den ganzen Satz fertig haben. Er denkt sofort über das letzte Häppchen nach und entscheidet: „Soll ich jetzt antworten? Soll ich nur kurz 'Mhm' sagen? Oder soll ich warten, weil der Nutzer noch spricht?"
Der Sprecher (TTS): Ein Roboter-Stimme spricht das Ergebnis sofort aus, während der Denker schon über das nächste Häppchen nachdenkt.

Der geheime Trick: Die „Verkehrsschilder"

Das Herzstück der Erfindung sind spezielle Steuerungs-Wörter (Special Tokens), die der KI beigebracht wurden. Das ist wie ein Set an unsichtbaren Verkehrsschildern, die dem KI-Geist sagen, was er tun soll, ohne dass er auf eine externe „Stopp-oder-Geh"-Kamera (VAD) angewiesen ist.

Beispiele für diese Schilder:

„Der Nutzer spricht noch": Die KI hält die Klappe und wartet.
„Der Nutzer hat aufgehört": Die KI darf jetzt antworten.
„Der Nutzer unterbricht mich gerade": Die KI stoppt sofort ihre Antwort und hört zu.
„Der Nutzer nickt nur zu (Backchannel)": Die KI ignoriert das „Mhm" und spricht weiter, anstatt sich stören zu lassen.
„Ich antworte mit einem kurzen 'Aha'": Die KI gibt ein kurzes, bestätigendes Geräusch von sich, während der Nutzer noch redet.

Warum ist das so besonders?

Früher gab es zwei Lager:

Die Intelligenzen: Sehr kluge Text-KIs, die aber nur im „Ping-Pong"-Modus sprachen (steif).
Die Duplex-Modelle: Modelle, die gleichzeitig reden und hören konnten, aber oft dumm wirkten oder den Faden verloren.

DuplexCascade kombiniert das Beste aus beiden Welten:
Es nutzt die kluge Text-KI (die wir schon kennen und lieben), trainiert sie aber nur mit ein paar Text-Gesprächen, damit sie die „Mini-Schnipsel" und die „Verkehrsschilder" versteht. Es muss nicht neu von Grund auf lernen, wie Sprache klingt (was oft zu Fehlern führt), sondern lernt nur, wann sie sprechen soll.

Das Ergebnis

Das System ist wie ein guter Gesprächspartner:

Es unterbricht Sie nicht, wenn Sie nur kurz nachdenken.
Es hört zu, wenn Sie es unterbrechen.
Es sagt „Mhm", wenn Sie ihm zustimmen.
Und es bleibt dabei extrem schlau und versteht komplexe Fragen.

Zusammenfassend: DuplexCascade macht die KI menschlicher, indem es das starre „Reden-Warten-Reden" durch einen natürlichen, fließenden Gesprächsfluss ersetzt, bei dem alle Beteiligten gleichzeitig „im Gespräch" sind.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „DuplexCascade" auf Deutsch:

Titel: DuplexCascade: Voll-Duplex-Sprach-zu-Sprach-Dialog mit VAD-freier kaskadierter ASR–LLM–TTS-Pipeline und Mikro-Turn-Optimierung

Autoren: Jianing Yang, Yusuke Fujita, Yui Sudo (SB Intuitions Corp. & Universität Tokio)

1. Problemstellung

Bestehende gesprochene Dialogsysteme stehen vor einem fundamentalen Dilemma:

Kaskadierte Systeme (ASR–LLM–TTS): Diese nutzen die hohe Intelligenz moderner Text-LLMs, sind aber typischerweise auf Halbduplex beschränkt. Sie verlassen sich auf externe Voice Activity Detection (VAD), um Sprechpausen zu erkennen und die Sprecherrolle zu wechseln. Dies führt zu unnatürlichem Verhalten (z. B. Unterbrechungen bei bedeutungsvollen Pausen, Fehlen von Rückmeldungen/Backchannels) und ist bei Rauschen oder Überlappungen fehleranfällig.
End-to-End (E2E) Modelle: Diese unterstützen zwar Voll-Duplex-Interaktionen (gleichzeitiges Hören und Sprechen) ohne VAD, leiden jedoch oft unter einer geringeren konversationellen Intelligenz, da das gemeinsame Lernen robuster multimodaler Repräsentationen und Dialogstrategien schwierig ist.

Ziel: Ein System zu entwickeln, das die Intelligenz eines Text-LLMs beibehält, aber Voll-Duplex-Interaktionen ohne VAD ermöglicht.

2. Methodik: DuplexCascade

Das vorgeschlagene System ist eine kaskadierte Streaming-Pipeline, die das Konzept der „Mikro-Turns" (Mikro-Wechsel) einführt, um die Lücke zwischen Text-LLM und Echtzeit-Sprachdialog zu schließen.

A. Architektur und Datenfluss

Streaming-ASR: Die Benutzeraudio wird kontinuierlich in Text transkribiert.
Mikro-Turn-Puffer: Statt ganzer Sätze zu warten, wird der transkribierte Text alle $\Delta t$ Sekunden (z. B. 0,6 s) in kleine Blöcke („Mikro-Turns") gepuffert und an das LLM gesendet.
LLM-Verarbeitung: Das LLM verarbeitet den Dialogverlauf und den neuesten Mikro-Turn. Es generiert nicht nur Text, sondern entscheidet über den nächsten System-Mikro-Turn.
Streaming-TTS: Der generierte Text wird sofort in Audio umgewandelt und ausgegeben, was eine nahtlose, unterbrechbare Interaktion ermöglicht.

B. Konversationelle Spezial-Token (Key Innovation)

Um das Verhalten des LLMs unter Streaming-Bedingungen zu steuern, wurden spezielle Steuer-Token eingeführt, die den Dialogfluss explizit regeln:

: Das System schweigt, solange der Nutzer spricht.
: Signalisiert das Ende der Nutzeräußerung; das System beginnt mit der Antwort.
: Das System bricht die Generierung ab, wenn der Nutzer unterbricht.
: Das System ignoriert kurze Rückmeldungen des Nutzers (z. B. „ja", „okay") während der eigenen Rede und fährt fort.
: Das System gibt kurze Rückmeldungen (z. B. „hmm") während des Sprechens des Nutzers aus.
: Das System wartet, wenn der Nutzer nach einer Antwort des Systems schweigt (Nachdenkphase).
: Repräsentiert Stille des Nutzers in einem Intervall.

C. Training und Datengenerierung

Da echte Voll-Duplex-Datensätze mit Turn-Taking-Annotationen rar sind, wurde ein dynamischer Datenaufbau aus reinen Textdialogen (UltraChat) entwickelt:

Umstrukturierung: Lange Sprechwechsel werden in Mikro-Turns zerlegt.
Simulation von Interaktionsphänomenen: Es werden zufällig Pausen, Unterbrechungen, Backchannels und Denkphasen simuliert, um das LLM auf diese Szenarien vorzubereiten.
Feinabstimmung (Fine-Tuning): Es wird eine leichte LoRA-Adaptation (Low-Rank Adaptation) auf einem 7B-LLM (Qwen2-7B-Instruct) durchgeführt.
- Datenmenge: Nur 50.000 mehrstufige Textdialoge.
- Dauer: 5.000 Schritte (ca. 5 Stunden auf 8 H100 GPUs).
- Strategie: Nur die System-Mikro-Turns werden für das Training genutzt, um die konversationelle Intelligenz des Basis-LLMs zu erhalten.

3. Wichtige Beiträge

VAD-freier Voll-Duplex in kaskadierten Systemen: DuplexCascade beweist, dass man die Vorteile modularer Architekturen (starke LLMs) mit der Flexibilität von Voll-Duplex-Systemen kombinieren kann, ohne auf VAD angewiesen zu sein.
Mikro-Turn-Paradigma: Die Umwandlung von „Satz-basierten" Wechseln in „Chunk-basierte" Mikro-Interaktionen ermöglicht eine natürliche, bidirektionale Kommunikation.
Steuerung durch Token: Die Einführung von konversationellen Spezial-Token erlaubt eine präzise, programmierbare Steuerung des Turn-Taking-Verhaltens direkt im LLM, statt auf unsichere VAD-Signale zu vertrauen.
Effizienz: Das System erreicht State-of-the-Art-Ergebnisse mit minimalem Feinabstimmungsaufwand (nur Textdaten, keine teure Audio-LLM-Alignment).

4. Ergebnisse

Die Evaluation erfolgte auf zwei Benchmarks: Full-Duplex-Bench (Turn-Taking) und VoiceBench (Konversationelle Intelligenz).

Full-Duplex-Bench (Turn-Taking):
- DuplexCascade erreicht die höchste durchschnittliche Turn-Taking-Accuracy unter allen getesteten Open-Source-Modellen.
- Es übertrifft VAD-basierte Systeme (wie Freeze-Omni) deutlich in der Robustheit bei Pausen und Unterbrechungen.
- Die Variante DuplexCascade-β (mit Backchannel-Training) erzielt hervorragende Ergebnisse bei Backchannel-Metriken.
VoiceBench (Konversationelle Intelligenz):
- Im Gegensatz zu vielen E2E-Modellen, die an Intelligenz verlieren, behält DuplexCascade die Fähigkeiten des Text-LLMs weitgehend bei.
- Die Modelle schneiden auf fast allen VoiceBench-Dimensionen (Logik, Faktenwissen, Anweisungsfolgen) deutlich besser ab als andere Voll-Duplex-Systeme und sind mit einer naiven Kaskade (ASR+LLM) vergleichbar, trotz der Streaming-Einschränkungen.
Parameter-Analyse ( $\Delta t$ ):
- Eine Analyse der Mikro-Turn-Länge $\Delta t$ zeigt, dass 0,6 s ein guter Kompromiss zwischen Genauigkeit und Latenz ist. Längere Intervalle (bis 1,2 s) verbessern die Genauigkeit, erhöhen aber die Verzögerung.

5. Bedeutung und Fazit

DuplexCascade stellt einen wichtigen Fortschritt in der Entwicklung natürlicher Sprachassistenten dar. Es widerlegt die Annahme, dass kaskadierte Systeme zwangsläufig auf Halbduplex beschränkt sein müssen. Durch die intelligente Umstrukturierung des Dialogs in Mikro-Turns und die Nutzung von Spezial-Token gelingt es, die Stärke moderner Text-LLMs (hohe Intelligenz, einfache Anpassung) mit der Natürlichkeit von Voll-Duplex-Interaktionen zu vereinen.

Das System ist besonders relevant, da es:

Keine aufwendige Audio-LLM-Training erfordert.
Robust gegenüber Unterbrechungen und Pausen ist.
Eine skalierbare Lösung für den Einsatz in realen Szenarien bietet, bei denen sowohl Reaktionsgeschwindigkeit als auch konversationelle Tiefe gefordert sind.