Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

本文介绍了 CP-JKU 团队为 ICASSP 2025 音乐源恢复挑战赛提出的系统,该系统通过结合采用三阶段课程学习策略的 BandSplit-RoFormer 分离模型与从通用专家演化为八个乐器特定专家的 HiFi++ GAN 波形恢复器,实现了从混音母带中高质量恢复原始乐器分轨的目标。

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif, Gerhard Widmer

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为“音乐源恢复”(Music Source Restoration, MSR)的技术,简单来说,就是如何把一首已经混音、母带处理过,甚至带有各种录音瑕疵的“成品歌曲”,重新拆解并修复成原本干净、独立的乐器分轨

想象一下,你有一碗已经煮好、加满了各种调料、甚至有点煮糊了的“大杂烩”汤(成品歌曲),而这项技术的目标,就是要把汤里的牛肉、胡萝卜、土豆和粉丝,不仅完美地挑出来,还要把它们洗得干干净净,恢复成刚切好、还没下锅时的新鲜状态。

以下是这项技术的核心玩法,用大白话和比喻来解释:

1. 核心难题:为什么这很难?

通常的“分轨”技术(Source Separation)假设声音是简单的混合,就像把红墨水和蓝墨水倒在一起。但现实中的音乐制作要复杂得多:

  • 成品歌曲经过了大量的“后期加工”:加混响(让声音听起来像在音乐厅)、压缩动态(让声音更响亮)、加失真(让吉他更炸)、甚至录音时还有底噪。
  • 比喻:这不仅仅是把红蓝墨水混在一起,而是把红蓝墨水倒进了一杯加了糖浆、咖啡渣,并且被搅拌得晕头转向的饮料里。直接分离很难,因为声音已经“变形”了。

2. 他们的解决方案:两步走战略

CP-JKU 团队(来自奥地利林茨)设计了一个**“先分离,后修复”的两步走流程,就像是一个“分拣员”加上一群“精修工匠”**。

第一步:超级分拣员(BandSplit-RoFormer 分离器)

  • 任务:把混在一起的 8 种乐器(人声、吉他、键盘、合成器、贝斯、鼓、打击乐、管弦乐)和一个“其他杂音”通道,从大杂烩汤里初步挑出来。
  • 怎么练成的?(三阶段课程法)
    1. 热身阶段:先让模型在干净的 4 种乐器(人声、鼓、贝斯、其他)上练习,就像让实习生先学切简单的蔬菜。
    2. 进阶阶段:给模型看经过“烹饪”(加效果、混音)的 4 种乐器,让它学会在复杂的汤里找食材。
    3. 毕业阶段:把模型升级,从只能挑 4 种变成能挑 8 种。这时候,它之前学的“切菜”技巧(底层网络)保留,只训练新的“挑菜头”(新增加的头部),就像给老员工发新任务,只教他新菜名,不用重头学起。
  • 技术亮点:使用了 LoRA(一种高效微调技术),就像给模型戴了一副“智能眼镜”,让它能快速适应新任务,而不需要把整个大脑重装一遍。

第二步:精修工匠(HiFi++ GAN 修复专家)

  • 任务:第一步挑出来的乐器声音,虽然分开了,但可能还带着“汤味”(残留的混响、底噪、失真)。这一步要把它们彻底“清洗”干净。
  • 怎么练成的?(通才转专才)
    1. 通才训练:先训练一个“万能修复工”,什么脏东西都能修。
    2. 专才特训:然后把这个万能工拆分成 8 个专家,每个专家只负责一种乐器。
      • 人声专家:专门修人声的杂音。
      • 鼓组专家:专门修鼓的余音。
    • 关键技巧:这些专家是在“模拟真实错误”的环境下训练的。也就是说,训练时,他们面对的不是完美的干声,而是第一步那个“分拣员”挑出来的、带有瑕疵的声音。这样,当真正面对比赛题目时,他们就不会因为“没见过世面”而手忙脚乱。

3. 成果与局限

  • 成绩:在 2025 年的 MSR 挑战赛中,这套系统表现非常出色,能把混音歌曲还原出很高的清晰度(MMSNR 分数很高),听起来也很自然。
  • 局限性(哪里还不够完美?)
    • 怕“太脏”的汤:如果原始录音太吵(比如现场演出录音或老唱片),第一步的“分拣员”可能根本挑不出干净的食材,后面的“工匠”也就无从下手了。
    • 数据偏差:如果训练用的数据和实际比赛的数据风格不一样(比如训练数据里的吉他太“干”,而比赛里的吉他自带混响),修复出来的声音可能会不自然。
    • 模糊的目标:有时候很难定义什么是“完美干净”的声音。比如,原曲里可能本身就加了混响,模型是该把它去掉(变干),还是保留(变湿)?这就像问厨师:“这道菜是应该咸一点还是淡一点?”如果参考标准不明确,模型就会犹豫。

总结

这项研究就像是一个智能的“音乐时光机”。它先通过一个聪明的分拣系统把混在一起的乐器分开,再通过一群专业的修复工匠把每个乐器上的岁月痕迹(噪音、失真)擦掉,最终让我们听到仿佛刚刚录制的、原汁原味的音乐。

虽然它还不能完美处理所有极端情况(比如极度嘈杂的现场),但它通过分阶段训练针对性专家修复的策略,为未来恢复那些珍贵的、受损的历史录音提供了非常有力的工具。