Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

本論文は、ICASSP 2025 ミュージックソース復元(MSR)チャレンジに向けた CP-JKU チームのシステムを提案し、3 段階のカリキュラム学習を用いた BandSplit-RoFormer による 8 音源分離と、HiFi++ GAN による楽器固有の波形復元という多段階アプローチを特徴としています。

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif, Gerhard Widmer

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「古くて傷ついた音楽を、まるで新品のように蘇らせる技術」**について書かれたものです。

音楽業界では、録音された音源(ミックス)から、ボーカル、ギター、ドラムなど、それぞれの楽器の音を单独的に取り出す「ソース分離」という技術があります。しかし、プロの音楽は録音後にイコライザーやリバーブ(残響)などの加工が施され、さらに圧縮されたりノイズが混入したりしています。そのため、単純に「音を分ける」だけでは、元のきれいな楽器の音を取り出すことはできません。

この論文では、「分離」と「修復」を分けて行う、2 段階の魔法のようなシステムを提案しています。

🎵 システムの仕組み:2 段階の魔法

このシステムは、大きく分けて 2 つの工程で動きます。まるで料理を作る過程に似ています。

第 1 段階:「粗く切り分ける大工さん」

(バンドスプリット・ローフォーマー分離器)

まず、ごちゃごちゃに混ざり合った音楽(ミックス)を、8 つの楽器(ボーカル、ギター、ベースなど)と「その他」にざっくりと切り分けます。

  • 工夫点: 最初から 8 つの楽器を完璧に切り分けようとすると大変なので、**「段階的なトレーニング(カリキュラム)」**を使いました。
    • まず、4 つの主要な楽器(ボーカル、ドラム、ベース、その他)だけを切り分ける練習から始めます。
    • 次に、その技術を応用して、さらに 4 つの楽器(ギター、キーボードなど)を追加し、合計 8 つに拡張します。
    • これにより、少ない計算資源でも、効率的に「大工さん(AI)」を育てることができます。

第 2 段階:「丁寧に磨き上げる職人さん」

(HiFi++ GAN 修復エキスパート)

第 1 段階で切り分けられた音は、まだ「傷ついたまま」の音です。ここからが本番です。

  • 一般職人から「楽器別マイスター」へ:
    最初は「どんな楽器の音も直すことができる一般職人」を育てます。
    その後、**「ボーカル専門」「ギター専門」「ドラム専門」など、8 人の「楽器別マイスター」**に特化させます。
  • リアルな練習:
    マイスターたちは、単にきれいな音で練習するのではなく、**「第 1 段階の大工さんが切り分けた、少し汚れた音」**を練習材料に使います。これにより、本番(実際の音楽)で起こりうる「切り分けのミス」や「ノイズ」にも強く、より自然に音を修復できるようになります。

🧩 具体的なイメージ:レコード修理の例

このシステムを、**「傷ついた古いレコードを修理する」**ことに例えてみましょう。

  1. 問題: 傷だらけで、ボーカルとドラムの音が混ざり合い、さらにノイズが混じったレコードがあります。
  2. 第 1 段階(大工): まず、レコードを「ボーカル部分」「ドラム部分」などに物理的に切り分けます。ただし、この段階では切り分けが少しずれたり、ノイズが少し残ったりします。
  3. 第 2 段階(職人):
    • 「ボーカル職人」は、少しずれたボーカル部分を、まるで新品のようにきれいに磨き上げます。
    • 「ドラム職人」は、ノイズ混じりのドラム音を、リズムを乱さずにクリアにします。
    • 彼らは「切り分けが不完全な状態」を想定して訓練されているため、どんなにひどい状態の音でも、元の美しい音に近づけてくれます。

🏆 結果と今後の課題

このシステムは、2025 年の音楽ソース復元コンテストで非常に高い成績を収めました。特に、「ボーカル」の復元精度が非常に高く、聴く人が「きれいだ」と感じる評価(MOS)も高かったです。

ただし、まだ完璧ではありません。

  • 課題: 非常にノイズの多いライブ録音や、歴史のある古い録音だと、最初の「切り分け」がうまくいかず、その後の「修復」も限界に達することがあります。
  • 未来: 今後は、より多くの種類の「傷ついた音」のデータを集めて訓練し、どんな状況でも完璧に復元できるように、データの質を高めることに力を入れる予定です。

まとめ

この研究は、**「まずざっくり分けて、その後、それぞれの楽器に特化した職人が丁寧に磨き上げる」**という、人間の職人技を AI で再現した画期的なアプローチです。これにより、過去の音楽や劣化した音源を、まるで新しい録音のように蘇らせる可能性が大きく広がりました。