Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Each language version is independently generated for its own context, not a direct translation.

Hoe bouw je een 'Live' Stemassistent? (Zonder te wachten)

Stel je voor dat je een gesprek voert met een superintelligente robot. Je wilt dat hij direct antwoordt, net als een mens. Maar in de wereld van computers is "direct" heel lastig. Meestal moet de robot eerst luisteren, dan nadenken, dan praten, en dan pas hoor je iets. Dat voelt als een gesprek met iemand die altijd 10 seconden stilte houdt voordat hij reageert.

Dit artikel van Salesforce AI Research is een handleiding voor bouwers die een echte, snelle stemassistent willen maken voor bedrijven (bijvoorbeeld voor een ziekenhuis of een klantenservice). Ze laten zien hoe je dat doet, van de grond af op, zonder te wachten op de "magische" toekomst.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. De Grote Misvatting: De "Alles-in-Één" Robot

Er zijn al veel nieuwe AI-modellen die direct van spraak naar spraak kunnen gaan (je spreekt, en de robot praat direct terug). De auteurs noemen deze "Level 1" en "Level 2" modellen.

De vergelijking: Stel je voor dat je een chef-kok hebt die alles zelf doet: hij kiest de ingrediënten, snijdt ze, kookt ze en serveert ze. Dat klinkt elegant, maar het duurt lang.
Het probleem: De onderzoekers hebben een model getest (Qwen2.5-Omni) dat direct van spraak naar spraak werkt. Het resultaat? Het duurde 13 seconden voordat de robot voor het eerst een geluidje maakte.
De les: Voor een echt gesprek is dat te lang. Je wilt geen robot die 13 seconden stil is terwijl je wacht. Bovendien kunnen deze "alles-in-één" modellen nog niet goed taken uitvoeren, zoals "boek een afspraak" of "zoek een patiënt op". Ze zijn te traag en te dom voor complexe werk.

2. De Oplossing: Het Assemblagebandje (De Cascaded Pipeline)

In plaats van één superklokke chef-kok, kiezen de auteurs voor een productielijn. Dit is de manier waarop de grote bedrijven het doen.

De vergelijking: Denk aan een fabriek voor het maken van een auto.
1. Station 1 (Luisteren): Een werknemer hoort wat je zegt en schrijft het direct op een briefje (Spraak-naar-Text).
2. Station 2 (Denken): Een slimme ingenieur leest het briefje, denkt na, en schrijft een antwoord op een nieuw briefje (De AI).
3. Station 3 (Praten): Een acteur leest het antwoord voor en spreekt het in (Text-naar-Spraak).

Het geheim van snelheid: In een oude fabriek wacht Station 2 tot Station 1 alles heeft gedaan, en Station 3 wacht tot Station 2 alles heeft gedaan.
In deze nieuwe fabriek werken ze gelijktijdig:

Zodra Station 1 de eerste zin van je zin heeft opgeschreven, geeft hij die al door aan Station 2.
Zodra Station 2 de eerste zin van het antwoord heeft bedacht, geeft hij die al door aan Station 3.
Station 3 begint al te praten, terwijl Station 2 nog nadenkt over de tweede zin.

Dit noemen ze streaming en pipelining. Het is alsof je een emmer water door een buis giet: zodra het water bij de ingang is, begint het er al bij de uitgang te komen. Je hoeft niet te wachten tot de hele emmer leeg is.

3. De Resultaten: Sneller dan een knipperend oog

Door deze fabrieksmethode te gebruiken, hebben ze een systeem gebouwd dat binnen 0,7 tot 0,9 seconden begint met praten.

Dat is sneller dan de tijd die het menselijk brein nodig heeft om te beseffen dat je iets gezegd hebt.
Het voelt alsof de robot direct reageert, net als een mens.

4. Waarom is dit belangrijk voor bedrijven?

De echte kracht zit niet in het praten, maar in het doen.

Een simpele robot kan alleen "Hallo" zeggen.
Een Enterprise Agent (zoals in dit artikel) kan: "Ik zie dat je een afspraak wilt maken. Ik check even of dokter Jansen vrij is... Ja, hij kan om 14:00. Ik boek het voor je."

Dit is mogelijk omdat ze de "Denk-afdeling" (de LLM) loskoppelen van de "Spraak-afdeling". De denk-afdeling is slim genoeg om complexe taken te doen (zoals databases checken), en de spraak-afdeling zorgt ervoor dat het snel klinkt.

5. Wat hebben ze precies gedaan?

Ze hebben geen nieuwe "magische" AI bedacht. Ze hebben laten zien hoe je bestaande, snelle onderdelen slim aan elkaar koppelt:

Deepgram: Voor het luisteren (Spraak naar tekst).
vLLM: Voor het denken (De AI die nadenkt en taken uitvoert).
ElevenLabs: Voor het praten (Tekst naar spraak).

Ze hebben een tussenstukje (een "zin-buffer") gebouwd. Dit is als een tolk die wacht tot de spreker een volledige zin heeft gezegd voordat hij de volgende stap start, zodat de zinnen natuurlijk klinken en niet als gebroken stukjes.

Conclusie

De boodschap van dit artikel is simpel:
Wacht niet op de perfecte "alles-in-één" robot die direct van spraak naar spraak denkt. Die is nog te traag.
Bouw in plaats daarvan een snel assemblagebandje waar luisteren, denken en praten tegelijkertijd gebeuren. Dan heb je een stemassistent die niet alleen slim is, maar ook echt snel en handig voor bedrijven.

Ze hebben de code voor dit hele systeem openbaar gemaakt, zodat iedereen het kan nabouwen. Het is een handleiding voor de toekomst van stemtechnologie: niet wachten, maar streamen.

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

1. De Grote Misvatting: De "Alles-in-Één" Robot

2. De Oplossing: Het Assemblagebandje (De Cascaded Pipeline)

3. De Resultaten: Sneller dan een knipperend oog

4. Waarom is dit belangrijk voor bedrijven?

5. Wat hebben ze precies gedaan?

Conclusie

Titel: Bouwen van Enterprise Realtime Voice Agents van Scratch: Een Technische Tutorial

1. Het Probleem

2. Methodologie en Onderzoek

A. Evaluatie van Native Speech-to-Speech Modellen

B. De Gekozen Architectuur: De Cascaded Streaming Pipeline

C. De "Sentence Buffer" (Zinsbuffer)

D. Turn-taking en VAD

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie en Conclusie

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

1. De Grote Misvatting: De "Alles-in-Één" Robot

2. De Oplossing: Het Assemblagebandje (De Cascaded Pipeline)

3. De Resultaten: Sneller dan een knipperend oog

4. Waarom is dit belangrijk voor bedrijven?

5. Wat hebben ze precies gedaan?

Conclusie

Titel: Bouwen van Enterprise Realtime Voice Agents van Scratch: Een Technische Tutorial

1. Het Probleem

2. Methodologie en Onderzoek

A. Evaluatie van Native Speech-to-Speech Modellen

B. De Gekozen Architectuur: De Cascaded Streaming Pipeline

C. De "Sentence Buffer" (Zinsbuffer)

D. Turn-taking en VAD

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Homotopy type theory as a language for diagrams of $\infty$ -logoses