LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

该论文提出了首个基于 LibriTTS-R 的公开语音印象(VI)语料库 LibriTTS-VI,并设计了通过双 utterance 解耦训练及无参考音频控制的新方法,有效解决了语音印象控制中缺乏公开数据和印象泄露的问题,显著提升了数值化语音印象控制的精度。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个关于“让电脑说话”的有趣难题:如何精准地控制声音的“性格”和“感觉”,而不被其他因素干扰。

想象一下,你有一个超级厉害的AI 配音员。你希望它用“温柔、明亮、像小女孩”的声音读一段新闻。但现在的技术有两个大麻烦:

  1. 没有“教材”:以前这种专门教 AI 理解声音“性格”(比如是冷是暖、是亮是暗)的公开数据很少,大家没法一起研究。
  2. “性格泄露”:这是最头疼的。当你给 AI 一个参考音频(比如一段温柔的女声)并告诉它“我要这种温柔感”时,AI 往往太依赖那个参考音频本身,导致它读出来的声音既像参考音频,又像参考音频里原本的性格,而不是你真正想要的那个“目标性格”。这就好比你想让一个演员演“愤怒”,但你给他看了一段“悲伤”的参考视频,结果他演出来的既愤怒又悲伤,甚至有点像那个悲伤视频里的演员,而不是你真正想要的纯粹愤怒。

为了解决这两个问题,索尼的研究团队做了两件大事:

1. 开源了第一本“声音性格字典”:LibriTTS-VI

以前,研究声音性格控制就像在黑暗中摸索,因为缺乏公开的数据集。

  • 比喻:这就好比以前大家想学做“川菜”,但没有公开的菜谱,只能私下传阅。现在,作者们把成千上万条录音(来自 LibriTTS-R 数据集)拿出来,找了一群专家像给食物打分一样,给每条录音的11 种声音特质(比如:低沉 vs 高亢、男性化 vs 女性化、冷静 vs 焦躁、黑暗 vs 明亮等)进行了打分。
  • 成果:他们把这些打分整理成了LibriTTS-VI,这是世界上第一个公开的“声音性格”数据集。现在,全世界的研究者都可以拿着这本“字典”来训练 AI 了。

2. 发明了两种“防干扰”的新训练法

针对“性格泄露”的问题,作者发现是因为 AI 在训练时,把“谁在说话(身份)”和“声音是什么感觉(性格)”混在一起了。就像你让一个人同时模仿“张三的声音”和“李四的语气”,结果他学得不伦不类。

他们提出了两种聪明的解法:

  • 方法一:拆东墙补西墙(解耦训练,VIC-dis)

    • 比喻:以前训练时,AI 用同一段录音既学“是谁在说话”,又学“是什么语气”。现在,作者让 AI 用同一个人的两段不同录音:一段用来学“这是谁的声音(身份)”,另一段完全不同的录音用来学“我要什么语气(性格)”。
    • 效果:就像让演员分别练习“扮演角色”和“练习台词情绪”,互不干扰。这样 AI 就能更纯粹地控制声音的性格,而不会被参考音频自带的性格带偏。
  • 方法二:完全不要参考(无参考法,VIC-srf)

    • 比喻:既然参考音频容易“带偏”AI,那干脆不要参考音频了!作者让 AI 直接根据你给出的“性格数值”(比如:明亮度 3.5 分,冷静度 5 分)来凭空创造声音。
    • 效果:这就像让厨师完全凭你写的“菜谱”(数值)做菜,而不是看着隔壁桌的菜做。这样彻底切断了参考音频带来的干扰,让控制更精准。

实验结果怎么样?

  • 控制更准了:用新方法训练的 AI,在控制声音性格的准确度上,错误率从 0.61 降到了 0.41(客观数据),主观听感也明显更好。
  • 对比大模型:作者还测试了最新的基于大语言模型(LLM)的语音合成技术(比如 Qwen3-TTS)。发现虽然大模型很聪明,但如果你让它用文字描述(比如“请用一个稍微有点冷静的声音”)来控制声音,它往往控制得不够精确,而且容易把文字的意思(比如“生气”这个词)和声音的语气搞混。而作者的新方法能更精准地通过数字来控制声音。

总结

简单来说,这篇论文就像给 AI 配音员发了一本公开的“声音性格字典”,并教了它两种新的“防走火”训练法。现在,AI 能更听话、更精准地按照你的数字指令,变出你想要的声音性格,而不会被参考音频带跑偏,也不会被文字描述搞糊涂。这对于未来制作个性化的语音助手、有声书或游戏配音来说,是一个巨大的进步。