ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

本文提出了 ZeSTA 框架,通过引入轻量级域嵌入区分真实与合成语音并结合真实数据过采样,有效解决了在低资源个性化语音合成中直接混合合成数据导致说话人相似度下降的问题,从而在保持语音可懂度和感知质量的同时显著提升了说话人相似度。

Youngwon Choi, Jinwoo Oh, Hwayeon Kim, Hyeonyu Kim

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ZeSTA 的新方法,旨在解决一个非常实际的问题:如何用极少的录音,训练出一个声音像特定真人、且听起来很自然的 AI 语音系统。

为了让你更容易理解,我们可以把整个过程想象成**“培养一位模仿秀演员”**。

1. 遇到的难题:只有“几张照片”怎么练成大师?

想象一下,你想培养一个模仿秀演员(AI 模型),让他模仿某位明星(目标说话人)的声音。

  • 理想情况:你有这位明星几千小时的录音(数据充足),演员可以反复听,模仿得惟妙惟肖。
  • 现实情况:你只有这位明星的10 分钟录音(低资源场景)。这时候,演员根本学不像,声音要么很生硬,要么完全不像本人。

为了解决这个问题,以前的做法是找**“替身演员”**(零样本 TTS 模型,即 ZS-TTS)。

  • 替身演员:这些是已经训练好的 AI,只要给它一段明星的短录音,它就能生成大量模仿该明星声音的文本。
  • 问题出在哪? 如果你让模仿秀演员(我们的模型)主要听这些“替身演员”生成的录音(90% 的合成数据),只偶尔听一点明星本人的真录音(10% 的真实数据),结果会很糟糕:
    • 模仿秀演员会**“走火入魔”。他虽然说话很流利( intelligibility 高),但声音越来越像那个“替身演员”,而越来越不像真正的明星**(Speaker Similarity 下降)。
    • 这就好比一个学生只读参考书,不读原著,最后写出来的文章虽然通顺,但完全失去了原作者的风格。

2. ZeSTA 的解决方案:给数据贴标签 + 重点复习

ZeSTA 提出了两个简单的“独门秘籍”,在不改变模型核心架构的前提下,解决了上述问题。

秘籍一:给数据贴“身份标签”(Domain-Conditioned Training)

  • 比喻:想象你在教学生。以前你把“真书”和“参考书”混在一起让他读,他分不清哪句是作者原话,哪句是别人转述的,结果把风格搞乱了。
  • ZeSTA 的做法:给每一段录音都贴上一个小标签。
    • 如果是真人的录音,贴个“真”标签。
    • 如果是AI 合成的录音,贴个“假”标签。
  • 效果:模型在训练时,就像老师告诉学生:“读到‘真’标签时,你要模仿原声的音色;读到‘假’标签时,你主要学习怎么把句子说通顺。”
  • 结果:模型学会了**“见人说人话,见鬼说鬼话”**。它知道什么时候该保留真人的声音特征,什么时候该利用合成数据来丰富词汇和语感。这样既保留了真人的声音特色,又利用了合成数据让说话更流利。

秘籍二:给真数据“加餐”(Real-Data Oversampling)

  • 比喻:虽然贴了标签,但“真书”(真实录音)实在太少了,只有“参考书”(合成数据)的十分之一。学生还是容易忘。
  • ZeSTA 的做法:把那 10% 的真实录音,在训练时重复播放 3 次( Oversampling)。
  • 效果:这就像给那个模仿秀演员**“重点复习”**真人的声音。虽然合成数据很多,但通过反复听真人的声音,模型被强行拉回了“模仿真人”的轨道上,防止声音跑偏。

3. 实验结果:既像本人,又说得清楚

研究人员在两个数据集上测试了这种方法(LibriTTS 和自建的 YoBind 数据集),并对比了不同的 AI 生成源。

  • 如果不加 ZeSTA( naive mixing):声音很流利,但不像本人(相似度低)。
  • 如果只用 ZeSTA
    • 声音相似度(SECS):大幅提升,几乎回到了只用真人数据训练的水平。
    • 清晰度(CER/WER):依然保持了合成数据带来的高清晰度,没有因为强调真人声音而变笨。
    • 听感(MOS):人类听众觉得声音既自然,又很像目标人物。

4. 总结:核心思想

这篇论文的核心思想可以用一句话概括:
“在低资源环境下,利用 AI 生成的海量数据来‘练嘴皮子’(提升流利度),同时通过‘贴标签’和‘反复听真录音’来‘练音色’(保持像本人),两者互不干扰,完美融合。”

ZeSTA 就像一个聪明的教练,它知道什么时候该让学生听“标准答案”(合成数据)来学习语法,什么时候该让学生听“原声带”(真实数据)来模仿语气,最终培养出一个既口齿伶俐、又神似本人的 AI 语音助手。

这对于那些只有少量录音、但需要定制专属语音的普通用户或企业来说,是一个既省钱又高效的解决方案。