Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir un asistente de voz empresarial (como un recepcionista de hospital o un agente de banco) que pueda hablar contigo en tiempo real, entender lo que dices, consultar bases de datos y agendar citas, todo sin que tengas que esperar a que termine de hablar para que él te responda.

Este documento es como un manual de construcción paso a paso creado por investigadores de Salesforce AI Research. Aquí te explico sus hallazgos principales usando analogías sencillas:

1. El Gran Malentendido: ¿Un solo robot o un equipo?

Mucha gente pensaba que la solución mágica sería un solo modelo de inteligencia artificial que escuchara y hablara directamente, como un humano (llamado "modelo nativo de voz a voz").

La analogía: Imagina que quieres enviar una carta urgente.
- El enfoque "Nativo" (el error): Es como tener un solo mensajero que tiene que escribir la carta, leerla, pensar la respuesta, escribir la respuesta y luego enviarla. ¡Es muy lento! El documento prueba que estos modelos tardan unos 13 segundos en decir su primera palabra. ¡Para una conversación en vivo, eso es una eternidad!
- El enfoque "En Cascada" (la solución): Es como tener un equipo de trabajo en una línea de montaje.
  1. Oído (STT): Escucha lo que dices y lo escribe.
  2. Cerebro (LLM): Lee lo escrito, piensa la respuesta y empieza a dictarla palabra por palabra.
  3. Boca (TTS): Mientras el cerebro sigue dictando, la boca empieza a hablar lo que ya se dictó.

La lección clave: La velocidad no viene de un solo "super-robot", sino de que todos trabajan al mismo tiempo (como una cadena de montaje).

2. ¿Cómo logran que sea "Tiempo Real"? (La Magia del Flujo)

Para que el asistente parezca que te escucha y responde al instante, usan una técnica llamada "Streaming" (Transmisión en vivo).

La analogía del "Buffer de Oraciones":
Imagina que el "Cerebro" (la IA) está escribiendo un correo electrónico muy largo. Si esperas a que termine todo el correo para enviarlo, tardarás mucho.
En su lugar, el sistema tiene un secretario intermedio (el "Buffer de Oraciones").
- El Cerebro escribe: "Hola, ¿cómo estás?" -> ¡El secretario corta esa frase y se la pasa inmediatamente a la "Boca" para que la diga!
- Mientras la Boca dice "Hola, ¿cómo estás?", el Cerebro ya está escribiendo la siguiente parte: "Estoy aquí para ayudarte...".
- Resultado: Tú escuchas la respuesta casi al mismo tiempo que el Cerebro la está pensando. ¡Es como si el asistente nunca dejara de hablar!

3. ¿Por qué es tan importante para las empresas? (El Poder de las Herramientas)

El documento destaca que los modelos "nativos" (los que intentan hablar directamente) son muy bonitos, pero no tienen herramientas.

La analogía:
- Un modelo nativo es como un actor de teatro muy talentoso que puede improvisar cualquier diálogo, pero si le pides que consulte el inventario de la tienda o reserve una cita en el calendario, no sabe cómo hacerlo. Solo habla.
- El sistema que ellos construyeron es como un gerente de oficina. Tiene un cerebro potente que sabe usar herramientas (llamar a bases de datos, cancelar citas, buscar información de pacientes).
- Conclusión: Para una empresa, no basta con que la IA hable bonito; tiene que ser útil. Por eso, el sistema de "línea de montaje" es mejor: permite conectar la voz con herramientas reales.

4. Los Resultados: ¿Qué tan rápido es?

Gracias a esta arquitectura de equipo (Escucha + Piensa + Habla simultáneamente), lograron tiempos increíbles:

Tiempo para la primera palabra: Tardaron menos de 1 segundo (aproximadamente 0.75 segundos).
Comparación:
- El modelo "Nativo" (un solo robot): Tardaba 13 segundos.
- El sistema "En Cascada" (el equipo): Tarda 0.75 segundos.
- ¡Es 17 veces más rápido!

5. ¿Qué ofrecen al mundo?

Los autores no solo explican la teoría; regalan el plano completo. Han creado un tutorial de 9 capítulos con código real y probado.

El regalo: Te enseñan cómo conectar:
1. Deepgram: Para escuchar (el oído).
2. vLLM: Para pensar (el cerebro).
3. ElevenLabs: Para hablar (la boca).
4. Y cómo unirlos todos para que funcionen juntos sin esperas.

Resumen en una frase

Este documento nos enseña que para crear un asistente de voz empresarial rápido y útil, no debemos buscar un solo "super-robot" mágico, sino construir un equipo eficiente donde escuchar, pensar y hablar ocurran al mismo tiempo, permitiendo que la IA actúe como un empleado real que puede resolver problemas mientras te habla.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Construcción de Agentes de Voz en Tiempo Real para Empresas desde Cero

1. El Problema

A pesar de la existencia de más de 25 modelos de voz-a-voz (speech-to-speech) de código abierto y numerosos marcos de trabajo (frameworks) para agentes de voz, existe una brecha significativa en la literatura técnica:

Falta de documentación integral: No hay recursos que expliquen cómo construir un agente de voz en tiempo real desde cero, conectando componentes individuales hasta un sistema de transmisión (streaming) funcional con capacidades de llamada a funciones (function calling).
Limitaciones de los modelos nativos: Los modelos nativos de voz-a-voz (como Qwen2.5-Omni), aunque generan audio de alta calidad, sufren de latencia excesiva para interacciones en tiempo real (tiempo hasta el primer audio de ~13 segundos) y carecen de soporte para llamadas a funciones, esenciales en entornos empresariales.
Opacidad de los frameworks existentes: Herramientas como Pipecat o LiveKit ofrecen soluciones listas para usar ("pip install"), pero no enseñan los mecanismos internos de transmisión y orquestación necesarios para optimizar la latencia.

2. Metodología y Arquitectura

Los autores proponen que la clave para lograr un agente "en tiempo real" no reside en un único modelo rápido, sino en el streaming (transmisión) y la tubería en cascada (pipelining) entre componentes.

Arquitectura de Tubería en Cascada: En lugar de usar un modelo monolítico de voz-a-voz, el sistema utiliza tres componentes separados que ejecutan sus tareas de forma concurrente:
1. STT (Speech-to-Text): Conversión de voz a texto en tiempo real.
2. LLM (Large Language Model): Generación de texto y razonamiento con llamadas a funciones.
3. TTS (Text-to-Speech): Síntesis de voz a partir del texto generado.
Componentes Específicos Utilizados:
- STT: Deepgram (Nova-3) vía WebSocket para transcripciones parciales y finales.
- LLM: vLLM sirviendo modelos como Qwen2.5-7B-Instruct, compatible con la API de OpenAI, permitiendo generación de tokens en streaming y llamadas a funciones.
- TTS: ElevenLabs (modelo eleven_turbo_v2_5) para síntesis de audio en streaming.
Mecanismo de "Buffer de Oración" (Sentence Buffer):
- Este es el componente crítico de orquestación. El LLM envía tokens de texto en streaming. El buffer acumula estos tokens hasta detectar un límite de oración (puntos, signos de exclamación, etc.), evitando falsos positivos en abreviaturas.
- Una vez completada una oración, se envía inmediatamente al TTS para su síntesis, mientras el LLM sigue generando el resto de la respuesta. Esto crea una superposición de ejecución que reduce drásticamente la latencia percibida.
Detección de Actividad de Voz (VAD) y Turnos:
- Se utiliza Silero VAD para detectar cuándo el usuario habla o guarda silencio, gestionando un estado máquina (IDLE, ESCUCHANDO, PROCESANDO, HABLANDO) y permitiendo interrupciones (bipartición) cuando el usuario interrumpe al agente.

3. Contribuciones Clave

Encuesta Exhaustiva: Un análisis de más de 25 modelos de voz-a-voz y 30+ frameworks, identificando que ninguno de los modelos nativos (Nivel 1 y 2) soporta llamadas a funciones, lo que los hace inviables para agentes empresariales complejos.
Evaluación Empírica: Demostración de que los modelos nativos de voz-a-voz (como Qwen2.5-Omni) tienen una latencia de ~13-26 segundos, mientras que la arquitectura en cascada logra tiempos inferiores a 1 segundo.
Implementación Completa y Probada: Un código abierto que implementa un agente de voz empresarial con llamadas a funciones, logrando un tiempo de respuesta inferior a un segundo.
Tutorial Progresivo: Una guía de 9 capítulos que cubre desde el STT hasta el cliente web, explicando cada componente internamente.

4. Resultados Experimentales

El sistema logró un Tiempo hasta el Primer Audio (TTFA) medido de 947 ms (P50) y un caso óptimo de 729 ms, superando la barrera de un segundo.

Comparativa de Latencia (TTFA):
- Qwen2.5-Omni (Modo Lote): ~26,500 ms.
- Qwen2.5-Omni (Streaming por oración): ~13,200 ms.
- Tubería en Cascada (Este trabajo): ~755 ms.
Desglose de Latencia (P50):
- Deepgram STT: ~337–402 ms.
- LLM (vLLM TTFT): ~337 ms (tras calentamiento).
- ElevenLabs TTS (TTFB): ~219–221 ms.
Capacidad Empresarial: El sistema soporta llamadas a funciones recursivas (ej. consultar disponibilidad, agendar citas, cancelar citas) en un escenario de recepción hospitalaria, algo imposible con los modelos nativos actuales.

5. Significado e Impacto

Cambio de Paradigma: El trabajo establece que para agentes de voz empresariales, la arquitectura en cascada (STT $\to$ LLM $\to$ TTS) con streaming es superior a los modelos nativos de voz-a-voz actuales debido a la necesidad de llamadas a funciones y baja latencia.
Definición de "Tiempo Real": El tiempo real no se logra con un modelo rápido, sino mediante la superposición de procesos (pipelining). El buffer de oración es la primitiva de orquestación fundamental.
Educación y Transparencia: Al liberar el código completo, el tutorial desmitifica la construcción de agentes de voz, permitiendo a los ingenieros entender y optimizar cada capa del sistema, desde la detección de voz hasta la síntesis, en lugar de depender de cajas negras comerciales.
Viabilidad Empresarial: Demuestra que es posible construir agentes de voz autónomos, capaces de ejecutar tareas complejas en entornos de producción con una latencia comparable a una conversación humana natural, utilizando infraestructura estándar (GPU NVIDIA A10G) o APIs en la nube.

En conclusión, el artículo proporciona la hoja de ruta técnica definitiva para pasar de prototipos de voz a agentes empresariales funcionales y en tiempo real, priorizando la arquitectura modular y el streaming sobre la elegancia arquitectónica de los modelos monolíticos.

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

1. El Gran Malentendido: ¿Un solo robot o un equipo?

2. ¿Cómo logran que sea "Tiempo Real"? (La Magia del Flujo)

3. ¿Por qué es tan importante para las empresas? (El Poder de las Herramientas)

4. Los Resultados: ¿Qué tan rápido es?

5. ¿Qué ofrecen al mundo?

Resumen en una frase

Resumen Técnico: Construcción de Agentes de Voz en Tiempo Real para Empresas desde Cero

1. El Problema

2. Metodología y Arquitectura

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Homotopy type theory as a language for diagrams of $\infty$ -logoses