SyncSpeech: Efficient and Low-Latency Text-to-Speech based on Temporal Masked Transformer

本文提出了基于时序掩码 Transformer(TMT)范式的 SyncSpeech 模型,通过融合自回归模型的时序生成特性与非自回归模型的并行解码效率,在保持语音质量的同时显著降低了流式文本到语音转换的首包延迟并提升了实时性。

Zhengyan Sheng, Zhihao Du, Shiliang Zhang, Zhijie Yan, Liping Chen

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SyncSpeech 的新兴技术,它能让电脑“读”文字转成语音的速度和流畅度达到一个全新的境界。

为了让你更容易理解,我们可以把现在的语音合成(TTS)技术想象成两种不同的“讲故事”方式,而 SyncSpeech 则是把这两种方式的优点完美融合在了一起。

1. 现在的痛点:要么慢,要么等

目前的语音合成主要有两派,它们各有“性格缺陷”:

  • 第一派:按部就班的“老派说书人” (自回归模型 AR)

    • 怎么工作:就像一个人写文章,必须写完一个字,才能写下一个字。它生成语音也是“一个字、一个音”地慢慢吐出来。
    • 优点:因为是一步步来的,所以它很自然,可以一边听文字一边听声音(流式生成),延迟低。
    • 缺点太慢了! 因为语音的颗粒度非常细(比如一个汉字可能对应几十个声音片段),它要像蚂蚁搬家一样,一个片段一个片段地生成,导致整体效率极低。
  • 第二派:一次性打包的“快餐厨师” (非自回归模型 NAR)

    • 怎么工作:就像厨师先把整道菜的所有食材都切好、配好,然后一次性下锅炒熟。它利用并行计算,一次性预测出整句话的声音。
    • 优点快! 因为可以批量处理,生成速度极快。
    • 缺点必须等菜上齐了才能吃。 它必须等整段文字都输入完了,才能开始生成声音。如果你是在和 AI 实时对话,这就意味着你要等它把整句话读完,它才开始说话,这种“首字延迟”让人很抓狂。

2. SyncSpeech 的绝招:时间掩码 Transformer (TMT)

SyncSpeech 就像是一个既懂“按部就班”又懂“批量处理”的超级天才。它发明了一种叫“时间掩码 Transformer" (TMT) 的新机制。

核心比喻:乐高积木与“时间轴”的魔法

想象你在用乐高积木搭一座桥(语音):

  • 文字是设计图纸。
  • 声音是具体的积木块。

以前的模型要么是一块一块地搭(慢),要么是先把图纸看完再一次性把桥搭好(不能实时)。

SyncSpeech 的做法是这样的:

  1. 看一点,搭一块(流式输入)
    它不需要等整张图纸看完。只要图纸上出现了第二个字,它就开始动手了。
  2. 预测“时间跨度” (Duration)
    它先快速看一眼当前的字,预测这个字需要占用多少“时间积木”(比如“你好”这两个字,可能对应 10 个声音片段)。
  3. 批量填充 (并行生成)
    一旦知道了这个字需要 10 个声音片段,它就不再一个个去猜了,而是一次性把这 10 个声音片段全部“变”出来。
  4. 无缝衔接
    当它正在生成第一个字的声音时,新的文字已经进来了。它立刻开始预测第二个字需要多少时间,并一次性生成第二个字对应的声音块。

这就好比:
以前的模型是“写一个字,读一个字”;
SyncSpeech 是“看到两个字,立刻把第一个字对应的整段声音‘唰’地一下全变出来,同时准备第二个字”。

3. 它是怎么做到的?(三个关键魔法)

为了让这个“天才”不跑偏,论文里用了三个巧妙的技巧:

  • 魔法一:特殊的“遮罩”规则 (Temporal Masked Transformer)
    在训练时,它故意把一部分声音积木盖住(Mask),让模型去猜。但它不是乱盖,而是按照“时间顺序”来盖。这就像老师出题,只让你填“这一句话”的空白,而不是整篇文章,强迫模型学会如何根据当前的文字,精准地生成对应时长的声音。
  • 魔法二:高概率“蒙眼”预训练
    为了让模型学得更扎实,训练初期,它故意把大部分声音都遮住,只留很少的线索让模型去猜。这就像让一个学生先做“完形填空”的高难度练习,虽然难,但一旦学会了,它的理解能力(鲁棒性)就超强,生成的声音也更自然。
  • 魔法三:混合注意力机制 (Hybrid Attention)
    这是它的“眼睛”。普通的模型只能看前面的字(单向),或者看整段文字(双向)。SyncSpeech 的眼睛很特别:
    • 看文字时,它按顺序看(保证逻辑通顺)。
    • 看声音时,它允许同一句话里的声音片段互相“交流”(双向)。
    • 效果:这让模型知道,虽然“你好”是一个词,但“你”和“好”的声音是紧密相连的,从而让声音听起来更连贯、更自然。

4. 效果有多牛?

实验数据表明,SyncSpeech 实现了“鱼和熊掌兼得”:

  • 声音质量:和目前最顶尖的模型(如 CosyVoice)一样自然,听不出区别。
  • 速度提升
    • 生成效率:比传统模型快了 8.8 倍(中文)和 6.4 倍(英文)。
    • 首字延迟:以前可能要等 0.3 秒甚至更久才能听到第一个声音,现在只要 0.06 秒(英文)或 0.04 秒(中文)。
    • 比喻:以前你问 AI 一个问题,它得等你把问题说完,再思考,再慢慢开始回答。现在,你刚说完前两个字,它就已经开始流畅地回答你了,而且回答的速度极快。

总结

SyncSpeech 就像是给语音合成技术装上了“涡轮增压”和“智能导航”。它打破了“慢但自然”和“快但延迟高”之间的死结。

未来,这意味着我们可以和 AI 进行真正的实时对话,就像和真人聊天一样,没有那种尴尬的停顿和等待,让虚拟助手、视频配音、无障碍沟通变得更加真实和高效。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →