Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Este artigo apresenta um tutorial técnico que demonstra como construir agentes de voz em tempo real para empresas, provando que a chave para a baixa latência não reside em modelos nativos de fala-para-fala, mas sim na implementação de um pipeline em cascata com streaming (STT \rightarrow LLM \rightarrow TTS), alcançando tempos de resposta de áudio inferiores a um segundo.

Jielin Qiu, Zixiang Chen, Liangwei Yang, Ming Zhu, Zhiwei Liu, Juntao Tan, Wenting Zhao, Rithesh Murthy, Roshan Ram, Akshara Prabhakar, Shelby Heinecke, Caiming Xiong, Silvio Savarese, Huan Wang

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer construir um assistente de voz empresarial (como um recepcionista de hospital ou um atendente de banco) que não apenas ouve e fala, mas também resolve problemas complexos (como agendar consultas ou consultar bancos de dados) em tempo real.

Este artigo é um "manual de instruções" de como fazer isso do zero. Os autores, do Salesforce AI Research, desmontaram a ideia de que "modelos de voz mágicos" são a solução e mostraram que o segredo está na engenharia de fluxo, não apenas na inteligência artificial.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Grande Equívoco: "O Modelo Mágico" vs. "A Linha de Montagem"

Muitas pessoas acham que a solução é um único modelo de IA gigante que ouve o som e devolve a voz instantaneamente (como um robô que pensa e fala ao mesmo tempo).

  • A Analogia: Imagine tentar cozinhar um jantar inteiro, comer e limpar a louça tudo ao mesmo tempo, com uma única pessoa. É caótico e lento.
  • O que o artigo descobriu: Os modelos "nativos" de voz (como o Qwen2.5-Omni) são como essa pessoa tentando fazer tudo de uma vez. Eles são lindos na teoria, mas na prática, demoram 13 segundos para dizer a primeira palavra. Isso é muito lento para uma conversa natural.
  • A Solução Real: Em vez de um "super-robô", eles construíram uma linha de montagem eficiente. O som entra, é processado por um especialista, depois por outro, e assim por diante, mas todos trabalhando ao mesmo tempo.

2. A Linha de Montagem (O Pipeline Cascata)

Para que o assistente pareça "em tempo real" (resposta quase instantânea), o sistema usa três especialistas diferentes que trabalham em paralelo:

  1. O Ouvido (STT - Speech-to-Text):
    • Analogia: É como um estenógrafo super rápido. Assim que você fala, ele começa a escrever o que você disse. Ele não espera você terminar a frase inteira para começar a trabalhar.
    • Tecnologia usada: Deepgram.
  2. O Cérebro (LLM - Large Language Model):
    • Analogia: É o gerente que lê o que o estenógrafo escreveu, pensa na resposta e decide se precisa ligar para alguém (fazer uma chamada de função) ou apenas responder.
    • O Pulo do Gato: Assim que o gerente pensa na primeira parte da resposta, ele já manda para o próximo passo. Ele não espera terminar o pensamento inteiro.
    • Tecnologia usada: vLLM (com capacidade de "chamar ferramentas" para resolver tarefas).
  3. A Voz (TTS - Text-to-Speech):
    • Analogia: É o locutor de rádio. Assim que recebe a primeira frase do gerente, ele começa a falar. Enquanto o locutor fala a primeira frase, o gerente já está pensando na segunda.
    • Tecnologia usada: ElevenLabs.

O Segredo do "Tempo Real":
A mágica não é que cada parte seja rápida isoladamente, mas que elas se sobrepõem.

  • Sistema antigo (Lento): Você fala -> Espera o estenógrafo terminar -> Espera o gerente pensar tudo -> Espera o locutor falar tudo. (Tempo total: ~1.6 segundos).
  • Sistema novo (Rápido): O estenógrafo escreve a primeira palavra -> O gerente já começa a pensar a resposta -> O locutor já começa a falar a primeira palavra. (Tempo total: menos de 1 segundo).

3. Por que os modelos "nativos" falharam?

Os autores testaram modelos que prometem fazer tudo de uma vez (voz para voz).

  • O Problema: Eles são como um cozinheiro que precisa assar o bolo inteiro antes de servir uma fatia. Eles demoram muito para gerar o primeiro som.
  • Outro Problema: Eles não sabem usar "ferramentas". Se você pedir para o assistente verificar a disponibilidade de um médico, um modelo nativo de voz muitas vezes apenas "alucina" uma resposta, enquanto o sistema de linha de montagem consegue conectar com o banco de dados real.

4. O Resultado Final

Com essa abordagem de "linha de montagem" (Streaming + Pipelining), eles conseguiram:

  • Tempo de resposta: O assistente começa a falar em 729 milissegundos (menos de 1 segundo). É tão rápido que parece que o robô está ouvindo você em tempo real.
  • Capacidade Empresarial: O assistente consegue realmente agendar reuniões, cancelar pedidos e consultar dados, algo que os modelos de voz "nativos" ainda não fazem bem.

Resumo em uma frase

Para criar um assistente de voz empresarial rápido e inteligente, não tente construir um único robô que faz tudo de uma vez; em vez disso, construa uma equipe de especialistas (ouvir, pensar, falar) que trabalham em uma esteira rolante, passando as tarefas uns para os outros antes mesmo de terminarem a tarefa anterior.

O artigo disponibiliza todo o código para que qualquer pessoa possa construir essa "esteira rolante" do zero.