Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架,该框架通过分析 - 合成流水线提取语义、说话人和情感表征,在保留源语音内容与说话人身份的同时,成功将参考语音的情感风格迁移至目标语音,并在情感迁移效果及情感识别数据增强应用上优于现有方法。

Soumya Dutta, Avni Jain, Sriram Ganapathy

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 S2S-ZEST 的新技术,它的核心功能是:让一个人说话的声音,保留原本的内容和说话人的身份,但“穿上”另一个人的情绪外衣。

想象一下,你手里有一段朋友平静地读新闻的录音(源语音),还有一段陌生人愤怒地咆哮的录音(参考语音)。这项技术能把朋友的声音“变”成愤怒的语气,但朋友说的词还是那些词,听起来还是朋友的声音,只是情绪完全变了。

为了让你更直观地理解,我们可以把这项技术比作一个**“情绪魔法厨房”**。

1. 核心概念:什么是“零样本”情绪迁移?

以前的技术就像是在学做菜,必须有人手把手教(需要成对的平行数据:同一个人用不同情绪说同一句话)。但这很难,因为很难找到成千上万个人同时用各种情绪说同一句话。

这项新技术是**“零样本”(Zero-shot)**的,意思是它不需要这种“手把手”的教程。它只需要:

  • 源食材:一段普通说话的声音(比如你平静的声音)。
  • 参考食谱:一段带有特定情绪的声音(比如一段愤怒的咆哮)。
  • 魔法:系统自动分析,把“愤怒”的情绪提取出来,完美地“烹饪”到你的声音上。

2. 工作流程:情绪魔法厨房的三步走

这个系统由两个主要部分组成:分析模块(切菜工)合成模块(大厨)

第一步:拆解声音(分析模块)

系统把输入的声音像拆解乐高积木一样,拆分成四个核心部分:

  1. 语义积木(内容):你说了什么话?(比如“今天天气真好”)。
  2. 身份积木(说话人):是谁在说话?(比如“张三”)。
  3. 情绪积木(风格):说话时的情绪是什么?(比如“开心”或“愤怒”)。
  4. 节奏积木(音调和时长):声音的高低起伏和快慢。

比喻:就像把一杯混合果汁(原始录音)分离成:水果块(内容)、杯子(说话人身份)、糖度(情绪)和冰块(节奏)。

第二步:提取“情绪魔法”

系统特别擅长从参考语音(比如那段愤怒的录音)中提取“情绪积木”和“节奏积木”。它学会了愤怒时音调是如何升高的,语速是如何变快的。

第三步:重新组装(合成模块)

这是最精彩的部分。系统把源语音的“内容积木”和“身份积木”拿出来,然后强行塞入参考语音的“情绪积木”和“节奏积木”。

  • 它告诉合成器(大厨):用“张三”的声音,说“今天天气真好”,但是要用“愤怒”的语气和节奏来唱出来。
  • 最后,BigVGAN(一种先进的语音合成模型,相当于超级大厨)把这些积木重新拼成一段流畅、自然的语音。

3. 为什么这项技术很厉害?

  • 解耦能力(Disentanglement)
    以前的技术经常“串味”。比如你想把“愤怒”加到“张三”的声音上,结果系统误以为“愤怒”就是“张三”声音的一部分,导致换个人说话时,愤怒感就消失了。
    S2S-ZEST 就像是一个严格的分类员,它把“谁在说话”和“怎么说话(情绪)”彻底分开了。即使是一个从未见过的陌生人(新说话人),也能完美地表现出参考录音中的情绪。

  • 不需要文字(Textless)
    很多旧技术需要先识别出文字,再重新合成。但这就像做菜前非要先把食材名字写下来再切,既慢又容易出错。S2S-ZEST 直接处理声音信号,不需要知道说了什么字,效率更高,也能处理非人类语言或乱语。

  • 节奏感(Duration & Pitch)
    情绪不仅仅是音调高低,还有说话快慢。这项技术能精准预测:在愤怒时,某些词应该拖长,某些词应该急促。它像是一个懂表演的导演,指导合成器如何演绎。

4. 实验结果:它真的好用吗?

作者做了很多测试,结果令人印象深刻:

  • 像不像? 转换后的声音,听起来和参考录音的情绪非常像(相似度很高)。
  • 是不是本人? 转换后的声音,依然能听出是原说话人(张三还是张三),没有变成别人。
  • 听没听懂? 即使情绪变了,说的话依然清晰可辨,机器识别文字的错误率很低。
  • 没见过的情况? 即使让一个从未在训练中出现过的人,去模仿从未见过的愤怒情绪,效果依然很好。

5. 有什么用?

  • 娱乐与创作:让动画角色、游戏 NPC 拥有更丰富的情感表达,或者让有声书朗读者能瞬间切换多种情绪。
  • 辅助训练(数据增强):这是论文提到的一个有趣应用。如果你只有很少的“愤怒”语音数据来训练 AI 识别情绪,你可以用这项技术,把大量“平静”的语音瞬间变成“愤怒”的语音,用来扩充训练数据,让 AI 变得更聪明。

总结

简单来说,S2S-ZEST 就是一个**“情绪翻译器”。它不翻译语言(中文还是英文),而是翻译情感**。它能把任何人的声音,瞬间“附身”上任何你想要的强烈情绪,同时保持声音原本的辨识度和说话内容的完整性。这就像给声音穿上了一件随时可以更换的“情绪戏服”,而且穿脱自如,毫无违和感。