Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 Vevo2 的新技术,你可以把它想象成语音生成领域的“全能瑞士军刀”。
在以前,让电脑生成说话的声音(像新闻播报)和唱歌的声音(像流行歌手)通常是两门完全不同的手艺,需要两套不同的系统。而且,让电脑不仅唱得准,还能随意控制唱什么词、用什么感情、甚至模仿谁的声音,一直是个大难题。
Vevo2 的出现,就是为了解决这些麻烦,它把“说话”和“唱歌”统一到了一个框架里。为了让你更容易理解,我们可以用几个生动的比喻来拆解它的核心功能:
1. 核心难题:为什么以前很难?
想象一下,你要教一个机器人学说话和唱歌。
- 说话的数据像大海一样多,但唱歌的数据(特别是带有乐谱标注的)非常稀缺,就像大海里的一滴水。
- 以前的系统就像两个互不相通的房间:一个房间专门教说话,另一个专门教唱歌。它们之间没有交流,导致机器人学唱歌时,因为数据太少,经常跑调或者唱得像机器人。
2. Vevo2 的三大“超能力”
超能力一:万能翻译官(统一的分词器)
Vevo2 发明了两种特殊的“翻译官”,能把声音变成计算机能懂的“积木”(Token)。
超能力二:师徒互带(联合训练)
Vevo2 采用了一种聪明的训练方法:说话和唱歌一起学。
- 以前: 说话和唱歌分开练,互不干扰。
- Vevo2 的做法: 它让机器人同时学习海量的说话数据和唱歌数据。
- 说话帮唱歌: 因为说话数据多,机器人学会了更丰富的语言规律,唱歌时吐字更清晰。
- 唱歌帮说话: 唱歌对旋律和情感的要求更高,机器人学会了这种“高难度”的情感表达后,再说话时,语气也会更自然、更富有感情(比如把平淡的朗读变成有戏剧张力的表演)。
- 比喻: 就像让一个学生同时学“朗诵”和“歌剧”。学歌剧让他学会了如何控制气息和情感,学朗诵让他学会了如何清晰表达。最后,他既是个好演员,也是个优秀的歌手。
超能力三:精修教练(多目标后训练)
在机器人初步学会后,Vevo2 还请了一位“精修教练”来特训。
- 以前: 机器人可能唱得挺像,但歌词听不清,或者旋律跑偏。
- Vevo2 的做法: 教练给机器人两个任务:
- 听写测试: 确保歌词听得清清楚楚(可懂度)。
- 跟唱测试: 确保旋律完全贴合给定的调子(旋律相似度)。
- 比喻: 就像给机器人戴上了“纠错眼镜”。如果它唱错了词,眼镜会亮红灯;如果它跑调了,眼镜会亮黄灯。通过这种双重反馈,机器人学会了在“唱得准”和“听得清”之间找到完美的平衡。
3. Vevo2 能做什么?(应用场景)
有了这些能力,Vevo2 就像一个声音魔术师,可以玩出很多花样:
- 哼歌变真唱: 你随便哼一段调子,它就能用任何歌手的嗓音,配上你指定的歌词,唱出一首完整的歌。
- 乐器变歌声: 你放一段钢琴曲,它能自动把钢琴的旋律“翻译”成歌声,仿佛钢琴在唱歌。
- 歌词编辑: 就像在 Word 文档里改错别字一样,你可以修改歌词,但保留原来的旋律和唱腔。比如把“我爱你”改成“我恨你”,但声音的起伏和感情完全不变。
- 风格转换: 让一个严肃的新闻主播用“摇滚歌手”的风格说话,或者让一个歌手用“ whisper(耳语)”的方式唱歌。
- 时长控制: 你可以让生成的歌声变长或变短,就像拉伸橡皮筋一样,而不会破坏旋律。
总结
简单来说,Vevo2 就是一个打通了说话和唱歌任督二脉的 AI 系统。它不再把声音看作死板的波形,而是像人类一样,理解声音里的“内容”、“情感”、“旋律”和“音色”是可以灵活拆解和重组的。
它最大的突破在于:不需要昂贵的乐谱标注,也不需要把说话和唱歌分开训练,就能让 AI 既会说话又会唱歌,还能随心所欲地控制声音的每一个细节。这为未来的语音助手、虚拟歌手、甚至声音创作工具打开了全新的想象空间。
Each language version is independently generated for its own context, not a direct translation.
Vevo2 技术总结:统一可控的语音与歌声生成框架
1. 研究背景与问题 (Problem)
可控的人声生成是音频生成领域的重要研究方向。尽管在零样本文本转语音(TTS)方面取得了显著进展,但在**歌唱语音生成(Singing Voice Synthesis, SVS)**等更具表达性且受严格韵律(如旋律)约束的领域,实现高质量与高可控性的统一仍面临巨大挑战。现有研究主要存在以下痛点:
- 数据稀缺与标注依赖:歌唱语音数据集通常依赖专家标注的乐谱(歌词与音符的精确对齐),数据量小且组织形式与大规模语音语料库不一致,限制了模型的扩展性和统一训练。
- 统一框架的缺失:现有的统一模型(如 UniSyn, UniAudio)难以在单一框架内独立、灵活地控制文本(歌词)、韵律(旋律)、风格(口音、情感、演唱技巧)和音色(说话人身份)。
- 语音与歌声的割裂:语音和歌声的生成通常被分开处理,未能充分利用语音数据的丰富性来辅助歌声生成,也未利用歌声的表达性来提升语音生成的表现力。
2. 方法论 (Methodology)
Vevo2 是一个统一的、可控的语音与歌声生成框架,采用两阶段架构:自回归(AR)内容 - 风格建模阶段和流匹配(FM)声学建模阶段。其核心创新包括:
2.1 统一音频分词器 (Unified Audio Tokenizers)
为了解决数据异构和统一建模问题,Vevo2 提出了两种新型分词器:
- 统一无乐谱韵律分词器 (Unified Music-Notation-Free Prosody Tokenizer):
- 原理:基于色度图(Chromagram)特征训练的单码本 VQ-VAE。
- 优势:色度图移除了八度信息,消除了语音和歌声在音高分布上的差异;无需人工乐谱标注,可直接从音频提取,支持大规模数据训练;具有极强的泛化能力,能捕捉乐器等非人声的旋律。
- 参数:运行频率 6.25 Hz,码本大小 512。
- 统一解耦内容 - 风格分词器 (Unified Content-Style Tokenizer):
- 原理:同时重构色度图特征和 Whisper 隐藏层特征。
- 优势:有效编码语言内容、韵律和风格,同时实现音色解耦(Timbre Disentanglement)。
- 参数:运行频率 12.5 Hz,码本大小 16,384。
2.2 语音 - 歌声联合训练 (Speech-Singing Joint Training)
在内容 - 风格建模阶段,为了弥合语音(通常无显式韵律控制)和歌声(强依赖旋律控制)之间的差异,提出了两种策略并随机混合使用:
- 显式韵律学习 (Explicit Prosody Learning, EPL):输入文本 + 韵律 Token,模型预测内容 - 风格 Token。
- 隐式韵律学习 (Implicit Prosody Learning, IPL):仅输入文本,模型通过上下文学习隐式推断韵律。
这种混合训练使模型能够统一学习语音和歌声的韵律特征。
2.3 多目标后训练 (Multi-Objective Post-Training)
为了进一步提升模型对文本和韵律的遵循能力,并增强对分布外数据(如乐器声)的泛化性,引入了基于组相对策略优化 (GRPO) 的后训练任务:
- 可懂度奖励 (Intelligibility Reward):基于 Bradley-Terry 偏好对齐,优化文本识别率。
- 韵律相似度奖励 (Prosody Similarity Reward):通过计算生成内容与真实歌声色度图之间的余弦相似度,优化旋律跟随能力。
- 目标:联合优化这两个目标,防止模型在单一指标上过拟合,提升整体可控性。
2.4 推理时的灵活控制
Vevo2 支持通过灵活组合输入条件(文本、韵律源、风格参考、音色参考)来实现多种任务:
- 合成:TTS, SVS (零样本)。
- 转换:语音/歌声转换(风格保持或风格转换)。
- 编辑:语音/歌词编辑(保持原韵律)。
- 创新应用:哼唱转歌声 (Humming-to-Singing)、乐器转歌声 (Instrument-to-Singing)。
- 额外控制:利用分词器的固定帧率特性,通过线性缩放韵律源色度图实现时长控制;通过调整源音频音高实现音域控制。
3. 主要贡献 (Key Contributions)
- 提出了两种统一分词器:实现了无需乐谱的韵律/旋律编码,以及解耦音色的内容 - 风格编码,支持语音、歌声甚至乐器声的统一建模。
- 构建了 Vevo2 统一框架:通过语音 - 歌声联合训练策略(EPL/IPL),实现了跨模态的互益学习,支持从合成、转换到编辑的多种任务。
- 设计了多目标后训练机制:利用 GRPO 算法联合优化可懂度和韵律相似度,显著提升了模型在分布外数据上的泛化能力和控制精度。
- 实现了独特的应用功能:首次在一个框架内实现了从哼唱或乐器旋律直接生成歌声的能力,展示了强大的韵律建模能力。
4. 实验结果 (Results)
实验在零样本 TTS、SVS、语音/歌声转换、编辑及哼唱/乐器转歌声等任务上进行了广泛评估:
- 统一建模的互益性:联合使用语音和歌声数据预训练,显著提升了语音生成的自然度和相似度,同时也改善了歌声生成的可懂度(WER 从 25.38 降至 15.78)。
- 后训练效果:多目标后训练进一步提升了所有指标。在歌声合成任务中,Vevo2 在主观评价(N-CMOS, SS-CMOS)上大幅优于现有零样本 TTS 模型(差距>1.5)。
- 可控性:
- 韵律/旋律:在 SVS 和歌词编辑任务中,能精确保持原旋律轮廓(Melody-MOS > 2.0)。
- 时长与音域:实现了高精度的时长控制(DC > 97%)和音域调整,显著提升了转换任务中的说话人相似度(SIM)。
- 风格转换:在口音和情感转换任务中,保持了与基线相当的风格相似度,同时提升了可懂度。
- 泛化能力:在哼唱转歌声和乐器转歌声任务中,证明了模型能够理解非人声的旋律结构并生成对应歌声,且多目标奖励有效防止了单一奖励导致的性能下降。
5. 意义与影响 (Significance)
- 理论突破:验证了语音和歌声在统一框架下联合建模的可行性与互益性,打破了传统上两者分离处理的局限。
- 技术革新:提出的“无乐谱韵律分词器”解决了歌唱数据标注稀缺的瓶颈,为大规模音乐/歌声生成提供了可扩展的数据处理方案。
- 应用价值:Vevo2 不仅是一个高性能的生成模型,更是一个多功能的音频编辑与创作工具。其支持的“哼唱/乐器转歌声”功能为音乐创作、辅助作曲和个性化内容生成开辟了新的应用场景。
- 开源贡献:代码和模型将在 Amphion 开源,推动语音与音乐生成领域的进一步发展。
综上所述,Vevo2 通过创新的统一分词器、联合训练策略和多目标对齐机制,成功构建了一个兼具高质量、高可控性和强泛化能力的语音与歌声生成系统,为未来统一多模态音频生成奠定了重要基础。