Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

本文提供了一份从零构建企业级实时语音代理的技术教程,通过系统分析指出原生端到端语音模型延迟过高,而采用流式级联架构(Deepgram 语音识别 + vLLM 流式 LLM 推理 + ElevenLabs 流式语音合成)是实现低延迟(P50 约 947ms)的关键,并发布了包含完整可运行代码的开源项目。

Jielin Qiu, Zixiang Chen, Liangwei Yang, Ming Zhu, Zhiwei Liu, Juntao Tan, Wenting Zhao, Rithesh Murthy, Roshan Ram, Akshara Prabhakar, Shelby Heinecke, Caiming Xiong, Silvio Savarese, Huan Wang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在教我们如何从零开始搭建一个“像真人一样”的实时语音 AI 助手(比如能帮你挂号、查订单的 AI 客服)。

作者来自 Salesforce AI 研究团队,他们发现虽然市面上有很多现成的工具,但没人把“怎么把这些零件拼成一个能实时对话的系统”讲清楚。

为了让你轻松理解,我们可以把这个过程想象成经营一家“极速语音餐厅”

1. 核心挑战:为什么“现成的”不行?

在开始之前,作者先排除了一个看似很酷的方案:“端到端”的语音模型(比如 Qwen2.5-Omni)。

  • 比喻:这就像你点了一道“分子料理”,厨师(AI)必须先在脑子里把整道菜(整段话)完全想好,然后一次性把整盘菜端上来。
  • 问题:虽然这道菜很精致(音质好),但太慢了。等你听到第一句话,可能已经过了 13 秒。在餐厅里,如果客人点菜后等了 13 秒才听到第一句“欢迎光临”,客人早就饿晕了。
  • 结论:这种“想完再说”的模式,不适合需要实时对话的场景。

2. 解决方案:流水线作业(Cascaded Pipeline)

作者提出的方案是:流水线作业

  • 比喻:想象餐厅里有三个员工,他们不是等整道菜做完再端,而是边做边传

    1. 服务员(STT - 语音转文字):客人刚开口,服务员就立刻把听到的词记下来,一边记一边传给后厨。
    2. 主厨(LLM - 大语言模型):听到几个词,主厨就开始思考,并立刻把想好的第一句话写在纸条上,传给下一站。
    3. 传菜员(TTS - 文字转语音):纸条一到手,立刻把文字变成声音,先让客人听到第一句,同时主厨还在写后面的内容。
  • 效果:客人不需要等整道菜(整段回答)做完,只要第一句话准备好了,就能立刻听到。这就实现了“实时感”。

3. 这个系统的三个关键零件

作者用三个具体的工具搭建了这个流水线:

  1. Deepgram (超级速记员)
    • 负责听客人说话。它非常敏锐,能把客人的语音实时变成文字,而且能区分“客人还在说”和“客人说完了”。
  2. vLLM 服务的 LLM (超级大脑)
    • 这是 AI 的核心。它负责理解客人的意图(比如“我要挂号”),并调用工具(比如查医生排班)。
    • 关键点:它必须支持“流式输出”,就是像挤牙膏一样,挤出一个字就传一个字,而不是等挤完一整管牙膏再传。
  3. ElevenLabs (超级播音员)
    • 负责把主厨写好的纸条变成声音。它也是“边写边读”,不需要等整段话写完才开始发声。

4. 那个神奇的“句子缓冲区”

这是整个系统最巧妙的地方。

  • 比喻:主厨(LLM)写纸条的速度很快,但传菜员(TTS)一次只能读一句话。如果主厨写得太快,传菜员会手忙脚乱。
  • 解决方案:在中间加了一个**“句子缓冲区”**(Sentence Buffer)。
    • 它像一个智能分拣员:它会把主厨写出来的零碎单词先攒着,直到攒满了一个完整的句子(比如看到句号、感叹号),才把这一整句交给传菜员去读。
    • 这样既保证了语法的完整,又让传菜员能立刻开始工作,不会卡顿。

5. 最终成果:快到什么程度?

通过这种“流水线 + 实时传输”的方式,作者搭建的系统达到了惊人的速度:

  • 从客人开口到 AI 说出第一句话,平均只需要 0.75 秒(750 毫秒)。
  • 相比之下,如果用那种“想完再说”的旧模式,需要 13 秒 以上。
  • 功能强大:这个 AI 不仅能聊天,还能真正干活(比如查数据库、预约时间),因为它接入了“函数调用”功能。

6. 总结:这篇论文想告诉我们什么?

  1. 别迷信“全能模型”:目前最酷的“语音直接变语音”的模型,虽然听起来很未来,但太慢了,不适合做实时客服。
  2. 速度来自“配合”:真正的实时感,不是靠某一个超级快的零件,而是靠三个零件同时工作、互相接力
  3. 核心是“流”:就像水管一样,水(数据)要一直流动,不能堵在任何一个环节。
  4. 开源教程:作者不仅讲了理论,还把所有代码都公开了,就像把餐厅的装修图纸、员工手册、甚至后厨的配方都免费发给了大家,教你怎么一步步搭建这样一个系统。

一句话总结
这就好比作者告诉你,别指望一个超人能同时做完所有事(太慢),而是要组建一个配合默契的三人小组(听、想、说),让他们边做边传,这样就能让 AI 像真人一样,在你话音刚落时,立刻给出回应。