Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este informe técnico presenta el sistema del equipo CP-JKU para el Desafío MSR de ICASSP 2025, que aborda la restauración de fuentes musicales mediante un enfoque de dos etapas: primero, un separador BandSplit-RoFormer que predice ocho stems mediante un entrenamiento curricular en tres fases, y segundo, un restaurador de ondas HiFi++ GAN especializado en expertos específicos para cada instrumento.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif, Gerhard Widmer

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Imagina que tienes una canción antigua, grabada en un vinilo rayado, que ha sido masterizada con muchos efectos de estudio y mezclada con otros instrumentos. Tu objetivo es "deshacer" todo eso para recuperar la voz limpia del cantante, el bajo puro, la batería nítida, etc., tal como fueron grabados originalmente. Eso es lo que intenta hacer este equipo de la Universidad Johannes Kepler de Linz (Austria) en su proyecto para el Desafío de Restauración de Fuentes Musicales (MSR) 2025.

Aquí te explico cómo lo hicieron, usando una analogía sencilla: imagina que son dos chefs trabajando en una cocina de alta tecnología.

1. El Problema: La "Sopa" Musical

En la música moderna, no solo mezclan los ingredientes (los instrumentos), sino que también los cocinan con mucha especia (ecualización, compresión, reverberación) y a veces la comida llega un poco quemada o con polvo (artefactos de compresión, ruido).
Los métodos antiguos intentaban separar la sopa de sus ingredientes asumiendo que todo estaba crudo y mezclado simplemente. Pero como la música está "cocinada" y "estragada", esos métodos fallan.

2. La Solución: Dos Chefs, Dos Etapas

El equipo de CP-JKU no intentó hacer todo de una vez. Dividieron el trabajo en dos fases, como si tuvieran dos especialistas:

Chef 1: El Separador (BandSplit-RoFormer)

Su trabajo es separar la sopa en sus ingredientes básicos, aunque estos sigan teniendo un poco de sabor de la cocción.

  • La analogía: Imagina que tienes un plato de fideos con salsa, carne y verduras todo mezclado. Este chef usa un colador muy inteligente (llamado BandSplit-RoFormer) para separar los fideos, la carne y las verduras en cuencos distintos.
  • El truco especial (Curriculum Learning): No empezaron desde cero. Primero aprendieron a separar solo 4 ingredientes (voz, batería, bajo y "otro") con canciones limpias. Luego, les enseñaron a separar esas mismas 4 cosas, pero en platos "sucios" y masterizados. Finalmente, agregaron nuevos cuencos al colador para separar 8 ingredientes en total (añadiendo guitarra, teclado, sintetizador, etc.).
  • La técnica: Usaron una herramienta llamada LoRA, que es como ponerle "gafas de realidad aumentada" al colador para que aprenda rápido sin tener que cambiar todo su mecanismo interno.

Chef 2: El Restaurador (HiFi++ GAN)

Una vez que el Chef 1 separó los ingredientes, estos todavía tienen un poco de sabor de la cocción o están un poco sucios. El Chef 2 es el restaurador de alta fidelidad.

  • La analogía: Imagina que el Chef 1 te entregó un trozo de carne que sabe un poco a salsa. El Chef 2 tiene un equipo de limpieza láser y un laboratorio de sabores. Su trabajo es lavar la carne, quitarle el exceso de salsa y devolverle su sabor original y fresco.
  • La especialización: En lugar de tener un solo chef que intente limpiar todo, crearon 8 expertos diferentes. Uno es experto en limpiar voces, otro en limpiar guitarras, otro en limpiar baterías, etc.
  • El secreto: Para entrenar a estos expertos, no les dieron ingredientes perfectos. Les dieron ingredientes que el Chef 1 había separado (que tenían errores reales). Así, los expertos aprendieron a limpiar exactamente los tipos de "suciedad" que el separador suele dejar, mejorando la alineación entre lo que se entrena y lo que sucede en la realidad.

3. El Entrenamiento: De la Escuela a la Realidad

El proceso de entrenamiento fue como un plan de estudios escolar muy bien estructurado:

  1. Primero: Aprendieron lo básico con datos limpios.
  2. Segundo: Les pusieron "exámenes difíciles" con música masterizada y degradada.
  3. Tercero: Expandieron el modelo para manejar más instrumentos.
  4. Cuarto: Les enseñaron a limpiar ruidos específicos, como el crujido de un disco de vinilo antiguo (ruido de gramófono).
  5. Quinto: Cada experto se especializó en su instrumento específico usando los errores reales del separador.

4. Los Resultados y los Desafíos

El sistema funcionó muy bien, logrando puntuaciones competitivas en el desafío. Sin embargo, los autores son honestos sobre sus limitaciones:

  • El problema del ruido: Si la mezcla original es muy ruidosa (como una grabación en vivo antigua o muy dañada), el Chef 1 (Separador) a veces se confunde y no separa bien los ingredientes. Si el primer paso falla, el segundo (la limpieza) no puede arreglarlo.
  • La ambigüedad: A veces es difícil saber qué es "ruido" y qué es un efecto artístico (como un eco que el artista quería). El sistema a veces intenta limpiar cosas que no deberían ser limpiadas.

En Resumen

Este equipo creó un sistema de dos pasos: primero, un colador inteligente que separa los instrumentos de una mezcla compleja y degradada; y segundo, un equipo de expertos que limpia y restaura cada instrumento individualmente.
Es como tener un equipo de cirujanos que primero separan los órganos de un cuerpo mezclado y luego, uno por uno, los limpian y reparan para devolverles su estado original, todo aprendido mediante un entrenamiento progresivo y muy específico.