Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben eine alte, staubige Schallplatte oder eine Aufnahme aus einem lauten Konzert. Die Musik ist da, aber sie klingt nicht so, wie sie ursprünglich war. Sie ist überlagert von Hall, Verzerrungen, Rauschen und wurde für den Radio- oder Streaming-Einsatz „aufgepeppt" (komprimiert, laut gemacht).

Das Ziel dieses Forschungsprojekts ist es, diese „verschmutzte" Musik wieder in ihre ursprünglichen, sauberen Einzelteile zu zerlegen – als würden Sie einen fertigen Kuchen nehmen und die einzelnen Zutaten (Eier, Mehl, Zucker) wieder herausfiltern können.

Hier ist die Erklärung der Lösung des Teams aus Linz, einfach und mit ein paar bildhaften Vergleichen:

Das große Problem: Der „verzauberte" Mix

Normalerweise denken wir bei Musik: „Gesang + Gitarre + Schlagzeug = Das Lied". Aber in der echten Musikproduktion ist das viel komplizierter. Produzenten fügen Effekte hinzu, drücken den Lautstärkepegel, fügen Hall hinzu und komprimieren alles. Das macht die Musik zwar gut für die Ohren, aber für einen Computer ist es wie ein verschmierter Fingerabdruck. Die einzelnen Spuren sind nicht mehr klar getrennt, sondern ineinander verschmolzen und verändert.

Die Lösung: Ein zweistufiges Team aus Spezialisten

Das Team hat sich nicht auf einen einzigen „Super-Helden" verlassen, sondern ein zweistufiges System entwickelt. Man kann es sich wie eine Werkstatt vorstellen:

Stufe 1: Der grobe Zerleger (Der „Trenner")

Stellen Sie sich einen sehr geschickten Koch vor, der einen großen, gemischten Eintopf bekommt. Er muss herausfinden, was darin ist.

Die Technik: Sie nutzen ein KI-Modell namens BandSplit-RoFormer.
Der Trick (Das Curriculum): Das Modell wurde nicht einfach sofort mit der schweren Aufgabe konfrontiert. Man hat es wie ein Kind unterrichtet:
1. Lernphase 1: Zuerst hat es nur gelernt, vier große Zutaten zu trennen (Gesang, Schlagzeug, Bass, „Sonstiges") an einfachen, sauberen Rezepten.
2. Lernphase 2: Dann hat es gelernt, diese vier Zutaten auch in „verdorbenen" Suppen (mit Effekten und Rauschen) zu erkennen.
3. Lernphase 3: Erst am Ende hat man dem Modell „neue Arme" wachsen lassen, um es auf acht verschiedene Instrumente zu erweitern (z. B. Gitarre, Tasten, Orchester, Synthesizer).
Das Ergebnis: Der Zerleger gibt Ihnen acht grobe Spuren. Sie sind schon viel besser als das Original, aber noch nicht perfekt. Sie sind wie ein grob gehackter Salat – man sieht die Zutaten, aber sie sind noch nicht fein geschnitten.

Stufe 2: Der Restaurator (Die „Polierer")

Jetzt kommen die Spezialisten ins Spiel. Da jede Spur (Gesang, Schlagzeug etc.) unterschiedliche Fehler macht, braucht man für jede Spur einen eigenen Experten.

Die Technik: Ein System namens HiFi++ GAN.
Der Trick: Zuerst wurde ein „Allrounder" trainiert, der Musik allgemein reparieren kann. Dann wurde er in acht Instrumenten-Spezialisten verwandelt.
- Der „Gesang-Experte" weiß genau, wie man Störgeräusche aus einer Stimme entfernt, ohne die Stimme selbst zu verzerren.
- Der „Schlagzeug-Experte" weiß, wie man den Kick-Drum sauber macht, ohne den Rhythmus zu verlieren.
Der Clou: Diese Experten wurden nicht mit perfekten Daten trainiert, sondern mit den grob geschätzten Spuren aus der ersten Stufe. Das ist wie ein Maler, der lernt, ein Bild zu restaurieren, indem er direkt auf die groben Skizzen des Zerlegers malt. So lernt er, genau die Fehler zu korrigieren, die in der echten Welt passieren.

Warum ist das so gut?

Das System funktioniert wie eine Fertigungsstraße:

Der erste Roboter (Trenner) sortiert die Mülltonne grob nach Kategorien.
Der zweite Roboter (Restaurator) nimmt jede Kategorie und poliert sie bis zum Glanz.

Dadurch erreichen sie Ergebnisse, die klingen, als wären die Instrumente in einem perfekten Studio neu aufgenommen worden, obwohl sie nur aus einem alten, verrauschten Mix stammen.

Wo sind die Grenzen?

Auch die besten Werkzeuge stoßen an Grenzen:

Zu viel Chaos: Wenn die Originalaufnahme extrem verrauscht ist (z. B. eine alte Live-Aufnahme aus einem vollen Club), kann der erste Zerleger manchmal nicht genug unterscheiden. Wenn der erste Schritt scheitert, kann der zweite Polierer auch nichts mehr retten.
Versteckte Effekte: Manchmal ist der „Sauberkeitsstandard" unklar. Wenn im Original-Song ein Hall-Effekt war, der Teil der Musik war, weiß das System nicht immer, ob es diesen Hall entfernen soll (weil es „sauber" sein soll) oder behalten (weil er zur Musik gehört).

Fazit

Das Team aus Linz hat einen cleveren Weg gefunden, Musik wieder „sauber" zu machen, indem sie das Problem in zwei Schritte teilen: erst grob trennen, dann fein polieren. Es ist, als würde man einem alten, verstaubten Foto erst den Schmutz abwaschen und dann die Farben mit einem Profi-Filter korrigieren.

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Das große Problem: Der „verzauberte" Mix

Die Lösung: Ein zweistufiges Team aus Spezialisten

Stufe 1: Der grobe Zerleger (Der „Trenner")

Stufe 2: Der Restaurator (Die „Polierer")

Warum ist das so gut?

Wo sind die Grenzen?

Fazit

1. Problemstellung

2. Methodik: Zwei-Stufen-Pipeline

Stufe 1: Quellentrennung (Separation)

Stufe 2: Restaurierung (Restoration)

3. Wichtige Beiträge

4. Ergebnisse

5. Signifikanz und Limitationen

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Das große Problem: Der „verzauberte" Mix

Die Lösung: Ein zweistufiges Team aus Spezialisten

Stufe 1: Der grobe Zerleger (Der „Trenner")

Stufe 2: Der Restaurator (Die „Polierer")

Warum ist das so gut?

Wo sind die Grenzen?

Fazit

1. Problemstellung

2. Methodik: Zwei-Stufen-Pipeline

Stufe 1: Quellentrennung (Separation)

Stufe 2: Restaurierung (Restoration)

3. Wichtige Beiträge

4. Ergebnisse

5. Signifikanz und Limitationen

Mehr davon

BEFANA: A Tool for Biodiversity-Ecosystem Functioning Assessment by Network Analysis

Riemannian Laplace Approximation with the Fisher Metric

Fast Fishing: Approximating BAIT for Efficient and Scalable Deep Active Image Classification

Graph machine learning for flight delay prediction due to holding manouver

Deep Learning for Clouds and Cloud Shadow Segmentation in Methane Satellite and Airborne Imaging Spectroscopy