Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einen virtuellen Telefonsekretär bauen, der nicht nur versteht, was Sie sagen, sondern auch sofort antwortet, Termine in einem Kalender einträgt und dabei so natürlich klingt wie ein echter Mensch.

Das ist das Ziel dieses Forschungsberichts von Salesforce. Die Autoren haben herausgefunden, wie man so etwas von Grund auf neu baut – und warum die bisher "coolsten" neuen Technologien dafür noch nicht ganz geeignet sind.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "All-in-One"-Traum vs. die Realität

Es gibt derzeit viele neue KI-Modelle, die versprechen, Sprache direkt in Sprache zu verwandeln (man spricht hinein, die KI spricht sofort zurück, ohne dass ein Text dazwischen steht). Man könnte sich das wie einen Einzelkünstler vorstellen, der gleichzeitig denkt, schreibt und spricht.

Das Problem: Diese Einzelkünstler sind zwar talentiert, aber extrem langsam.
Der Vergleich: Stellen Sie sich vor, Sie bestellen eine Pizza. Der "Einzelkünstler" (wie das Modell Qwen2.5-Omni) würde erst die Bestellung genau aufnehmen, dann den Teig kneten, die Sauce auftragen, den Ofen vorheizen und erst dann die Pizza backen, bevor er Ihnen sagt: "Hier ist Ihre Pizza." Das dauert etwa 13 Sekunden bis zur ersten Antwort. In einem echten Gespräch wäre das eine peinliche, ewige Stille.

2. Die Lösung: Das Fließband-Prinzip (Die Kaskade)

Die Autoren zeigen, dass der Schlüssel zum "Echtzeit"-Gefühl nicht ein einzelner super-schneller Künstler ist, sondern ein gut koordiniertes Fließband.

Stellen Sie sich eine Hochgeschwindigkeits-Postzustellung vor:

Der Hörer (STT): Ein Mitarbeiter hört Ihnen sofort zu und tippt mit, während Sie noch sprechen. Er schickt den Text sofort weiter, sobald ein ganzer Satz fertig ist.
Der Denker (LLM): Ein anderer Mitarbeiter liest den Satz, denkt nach, schlägt eine Handlung vor (z. B. "Termin im Kalender prüfen") und tippt die Antwort sofort aus, Wort für Wort.
Der Sprecher (TTS): Ein dritter Mitarbeiter nimmt die fertigen Sätze und verwandelt sie sofort in Sprache, während der Denker schon den nächsten Satz tippt.

Der Trick: Alle drei arbeiten gleichzeitig. Sobald der Denker den ersten Satz fertig hat, spricht der Sprecher ihn schon aus, während der Denker noch am zweiten Satz arbeitet.

Das Ergebnis: Der Nutzer hört die Antwort nach nur 0,7 bis 1 Sekunde. Das fühlt sich an, als würde die KI sofort antworten, obwohl im Hintergrund viel passiert.

3. Warum "Sprache direkt in Sprache" (noch) nicht reicht

Die Forscher haben getestet, ob man den "Einzelkünstler" (das direkte Sprach-zu-Sprach-Modell) trotzdem nutzen kann. Das Ergebnis war eindeutig:

Zu langsam: Es dauert zu lange, bis der erste Ton kommt.
Keine Werkzeuge: Diese Modelle können keine komplexen Aufgaben erledigen (wie "Prüfe den Kalender" oder "Rufe die Datenbank ab"). Sie können nur reden, aber nicht tun.
Kein Fließband: Sie produzieren den ganzen Text erst, bevor sie mit dem Sprechen anfangen. Das tötet das Echtzeit-Gefühl.

4. Wie das fertige System funktioniert (Die Bausteine)

Um diesen perfekten, schnellen Agenten zu bauen, haben die Autoren drei spezialisierte Teile zusammengefügt:

Der Übersetzer (Deepgram): Wandelt Ihre Stimme in Text um. Er ist extrem schnell und merkt sofort, wenn Sie aufhören zu sprechen.
Der Intellekt (vLLM / LLM): Das ist das "Gehirn". Es nutzt eine spezielle Technik, um Text Wort für Wort zu streamen (wie bei einem Live-Ticker). Es kann auch "Werkzeuge" benutzen, um echte Aufgaben zu erledigen.
Der Sprecher (ElevenLabs): Wandelt den Text sofort in eine natürliche Stimme um. Auch hier wird nicht auf das Ende des Textes gewartet, sondern sofort gesprochen.

Der "Satz-Puffer": Das ist das wichtigste Klebeband. Da der Denker Wörter ausstößt, wie sie ihm einfallen, muss ein kleiner Puffer warten, bis ein ganzer Satz (mit Punkt oder Ausrufezeichen) fertig ist, bevor er ihn zum Sprecher schickt. So klingt es natürlich und nicht wie ein roboterhaftes Stottern.

5. Das Endergebnis

Mit dieser Methode (dem Fließband) erreichen sie eine Reaktionszeit von unter 1 Sekunde.

Vergleich: Der "Einzelkünstler" braucht 13 Sekunden. Das Fließband braucht 0,7 Sekunden.
Funktion: Das System kann nicht nur reden, sondern auch Termine buchen, Stornierungen vornehmen oder Patientendaten abfragen – genau wie ein echter menschlicher Mitarbeiter.

Fazit für den Alltag

Die Botschaft der Forscher ist: Man muss nicht alles in einem einzigen Modell vereinen, um schnell zu sein.

Statt einen einzigen "Super-Roboter" zu bauen, der alles kann, aber langsam ist, ist es besser, spezialisierte Experten zu haben, die perfekt zusammenarbeiten. Das Geheimnis von "Echtzeit" ist nicht Geschwindigkeit im Sinne von "schnelles Denken", sondern Überlappung: Während einer noch arbeitet, beginnt der nächste schon mit seiner Aufgabe.

Die Autoren haben den kompletten Code dafür veröffentlicht, damit jeder nachbauen kann, wie man so einen modernen, schnellen Sprach-Assistenten selbst erstellt.

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

1. Das Problem: Der "All-in-One"-Traum vs. die Realität

2. Die Lösung: Das Fließband-Prinzip (Die Kaskade)

3. Warum "Sprache direkt in Sprache" (noch) nicht reicht

4. Wie das fertige System funktioniert (Die Bausteine)

5. Das Endergebnis

Fazit für den Alltag

Problemstellung

Methodik und Architektur

Wichtige Beiträge

Ergebnisse (Benchmarks)

Bedeutung und Fazit

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

1. Das Problem: Der "All-in-One"-Traum vs. die Realität

2. Die Lösung: Das Fließband-Prinzip (Die Kaskade)

3. Warum "Sprache direkt in Sprache" (noch) nicht reicht

4. Wie das fertige System funktioniert (Die Bausteine)

5. Das Endergebnis

Fazit für den Alltag

Problemstellung

Methodik und Architektur

Wichtige Beiträge

Ergebnisse (Benchmarks)

Bedeutung und Fazit

Mehr davon

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses