Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

本文提出了 Vevo2,一个统一的语音与歌声生成框架,通过引入两种新型音频分词器及多阶段建模策略,有效解决了标注数据稀缺问题,实现了对文本、韵律、风格及音色的灵活可控生成,并在多种合成、转换与编辑任务中展现出卓越的泛化能力。

Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Vevo2 的新技术,你可以把它想象成语音生成领域的“全能瑞士军刀”。

在以前,让电脑生成说话的声音(像新闻播报)和唱歌的声音(像流行歌手)通常是两门完全不同的手艺,需要两套不同的系统。而且,让电脑不仅唱得准,还能随意控制唱什么词、用什么感情、甚至模仿谁的声音,一直是个大难题。

Vevo2 的出现,就是为了解决这些麻烦,它把“说话”和“唱歌”统一到了一个框架里。为了让你更容易理解,我们可以用几个生动的比喻来拆解它的核心功能:

1. 核心难题:为什么以前很难?

想象一下,你要教一个机器人学说话和唱歌。

  • 说话的数据像大海一样多,但唱歌的数据(特别是带有乐谱标注的)非常稀缺,就像大海里的一滴水。
  • 以前的系统就像两个互不相通的房间:一个房间专门教说话,另一个专门教唱歌。它们之间没有交流,导致机器人学唱歌时,因为数据太少,经常跑调或者唱得像机器人。

2. Vevo2 的三大“超能力”

超能力一:万能翻译官(统一的分词器)

Vevo2 发明了两种特殊的“翻译官”,能把声音变成计算机能懂的“积木”(Token)。

  • 旋律翻译官(Prosody Tokenizer):

    • 以前的做法: 就像要求机器人必须看懂五线谱(乐谱)才能唱歌。但很多声音(比如人哼歌、乐器声)没有乐谱,机器人就傻眼了。
    • Vevo2 的做法: 它发明了一种“听音辨位”的本领。不管你是说话、唱歌、哼歌,甚至是拉小提琴,它都能直接提取出声音里的旋律起伏节奏感,把它们变成通用的积木。
    • 比喻: 就像它不再需要看乐谱,而是直接听声音的“骨架”。哪怕你只是哼一段调子,或者让钢琴弹一段旋律,它都能立刻明白:“哦,这是要唱这个调子!”这让它能把乐器声直接“翻译”成歌声(Instrument-to-Singing)。
  • 内容与风格翻译官(Content-Style Tokenizer):

    • 这个翻译官负责把“唱什么词”(内容)和“怎么唱”(风格、情感)分开,同时把“是谁在唱”(音色)剥离出去。
    • 比喻: 就像把一首歌拆成:歌词本(内容)、导演剧本(风格/情感)和演员的脸(音色)。Vevo2 可以随意组合:用 A 演员的脸,唱 B 的歌词,配上 C 导演的剧本(比如用悲伤的语气唱欢快的歌)。

超能力二:师徒互带(联合训练)

Vevo2 采用了一种聪明的训练方法:说话和唱歌一起学

  • 以前: 说话和唱歌分开练,互不干扰。
  • Vevo2 的做法: 它让机器人同时学习海量的说话数据和唱歌数据。
    • 说话帮唱歌: 因为说话数据多,机器人学会了更丰富的语言规律,唱歌时吐字更清晰。
    • 唱歌帮说话: 唱歌对旋律和情感的要求更高,机器人学会了这种“高难度”的情感表达后,再说话时,语气也会更自然、更富有感情(比如把平淡的朗读变成有戏剧张力的表演)。
    • 比喻: 就像让一个学生同时学“朗诵”和“歌剧”。学歌剧让他学会了如何控制气息和情感,学朗诵让他学会了如何清晰表达。最后,他既是个好演员,也是个优秀的歌手。

超能力三:精修教练(多目标后训练)

在机器人初步学会后,Vevo2 还请了一位“精修教练”来特训。

  • 以前: 机器人可能唱得挺像,但歌词听不清,或者旋律跑偏。
  • Vevo2 的做法: 教练给机器人两个任务:
    1. 听写测试: 确保歌词听得清清楚楚(可懂度)。
    2. 跟唱测试: 确保旋律完全贴合给定的调子(旋律相似度)。
  • 比喻: 就像给机器人戴上了“纠错眼镜”。如果它唱错了词,眼镜会亮红灯;如果它跑调了,眼镜会亮黄灯。通过这种双重反馈,机器人学会了在“唱得准”和“听得清”之间找到完美的平衡。

3. Vevo2 能做什么?(应用场景)

有了这些能力,Vevo2 就像一个声音魔术师,可以玩出很多花样:

  • 哼歌变真唱: 你随便哼一段调子,它就能用任何歌手的嗓音,配上你指定的歌词,唱出一首完整的歌。
  • 乐器变歌声: 你放一段钢琴曲,它能自动把钢琴的旋律“翻译”成歌声,仿佛钢琴在唱歌。
  • 歌词编辑: 就像在 Word 文档里改错别字一样,你可以修改歌词,但保留原来的旋律和唱腔。比如把“我爱你”改成“我恨你”,但声音的起伏和感情完全不变。
  • 风格转换: 让一个严肃的新闻主播用“摇滚歌手”的风格说话,或者让一个歌手用“ whisper(耳语)”的方式唱歌。
  • 时长控制: 你可以让生成的歌声变长或变短,就像拉伸橡皮筋一样,而不会破坏旋律。

总结

简单来说,Vevo2 就是一个打通了说话和唱歌任督二脉的 AI 系统。它不再把声音看作死板的波形,而是像人类一样,理解声音里的“内容”、“情感”、“旋律”和“音色”是可以灵活拆解和重组的。

它最大的突破在于:不需要昂贵的乐谱标注,也不需要把说话和唱歌分开训练,就能让 AI 既会说话又会唱歌,还能随心所欲地控制声音的每一个细节。这为未来的语音助手、虚拟歌手、甚至声音创作工具打开了全新的想象空间。