Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

이 논문은 ICASSP 2025 음악 소스 복원 (MSR) 챌린지를 위해 CP-JKU 팀이 제안한, 3 단계 커리큘럼 학습을 거친 BandSplit-RoFormer 분리 모델과 8 개 악기별 전문가로 특화된 HiFi++ GAN 복원 모델을 결합한 다단계 음악 소스 복원 시스템을 소개합니다.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif, Gerhard Widmer

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎵 1. 문제 상황: "완성된 스프"를 다시 분리해야 합니다

전문가들이 만든 음악은 단순히 악기 소리가 섞인 것이 아닙니다. 마치 요리사가 만든 완성된 스프와 같습니다.

  • 소금 (이퀄라이징), 후추 (압축), 향신료 (리버브), 그리고 요리 과정 중 생긴 기름기 (코덱 노이즈) 등이 모두 섞여 있습니다.
  • 기존 기술들은 "소금과 후추만 빼면 원래 재료가 나올 거야"라고 생각했지만, 실제로는 그 과정이 너무 복잡해서 실패했습니다.

이 논문은 **"완성된 스프 (음악) 에서 8 가지 재료 (보컬, 드럼, 베이스 등) 를 찾아내고, 동시에 그 재료가 원래 신선했던 상태로 되돌리는 작업"**을 목표로 합니다.

🛠️ 2. 해결책: "분리"와 "수리"라는 두 단계 작업

이 팀은 이 거대한 작업을 두 단계로 나누어 해결했습니다.

1 단계: 거대한 주방에서 재료를 분리하는 '분리사' (Separator)

  • 역할: 섞인 스프에서 각 재료를 대략적으로 건져내는 역할입니다.
  • 기술 (BS-RoFormer): 이 '분리사'는 처음에는 4 가지 재료 (보컬, 드럼, 베이스, 기타) 만 구분할 수 있는 초급 요리사였습니다.
  • 학습 과정 (커리큘럼):
    1. 초급: 깨끗한 재료만 섞인 스프로 4 가지 재료를 구분하는 법을 배웁니다.
    2. 중급: 실제 요리 과정 (마스터링) 을 거친 더러운 스프로 다시 훈련합니다.
    3. 고급: 이제 8 가지 재료까지 구분할 수 있도록 '머리 (Head)'를 확장합니다. 마치 초급 요리사가 새로운 칼을 추가해 더 많은 재료를 다룰 수 있게 되는 것과 같습니다.
    • 팁: 처음부터 8 가지를 다 가르치면 혼란스러우니, 4 가지를 먼저 익히고 8 가지로 확장하는 단계별 학습 (Curriculum) 방식을 썼습니다.

2 단계: 각 재료를 정성스럽게 다듬는 '수리공' (Restoration Experts)

  • 역할: 1 단계에서 분리된 재료들은 여전히 더럽거나 모양이 찌그러져 있을 수 있습니다. 이들을 각기 다른 전문가들이 맡아 깨끗하게 닦고 다듬습니다.
  • 기술 (HiFi++ GAN):
    • 먼저 **만능 수리공 (Generalist)**이 모든 재료를 고치는 법을 배웁니다.
    • 그다음, 보컬 전문가, 드럼 전문가, 기타 전문가 등 8 명의 **전담 수리공 (Experts)**으로 세분화합니다.
    • 중요한 점: 이 수리공들은 "완벽하게 분리된 소리"가 아니라, **1 단계 분리사가 실수하며 만들어낸 ' imperfect(불완전한) 소리'**를 보고 훈련했습니다. 마치 실제 현장에서 발생할 수 있는 실수를 미리 경험하고 대비하는 것과 같습니다.

🏆 3. 결과: 얼마나 잘했나요?

이 시스템은 2025 년 음악 복원 대회 (ICASSP Challenge) 에서 경쟁력 있는 점수를 받았습니다.

  • 성공: 보컬, 드럼, 기타 등 8 가지 악기를 분리하고, 노이즈를 제거하여 원래에 가까운 소리를 만들어냈습니다.
  • 한계: 아직 완벽하지는 않습니다.
    • 시끄러운 환경: 라이브 공연이나 아주 오래된 녹음처럼 소음이 너무 심하면 분리사가 재료를 제대로 건져내지 못해 수리공도 힘을 쓰지 못합니다.
    • 데이터의 불일치: 훈련용 데이터와 실제 데이터가 다르면 수리공이 헷갈릴 수 있습니다.
    • 효과음의 딜레마: 노래에 들어있는 '리버브 (잔향)' 같은 효과가 원래 의도였는지, 아니면 제거해야 할 노이즈인지 구분하기 어려운 경우가 있습니다.

💡 요약

이 논문은 **"음악을 분리하고 복원하는 작업"**을 다음과 같이 접근했습니다:

  1. 단계별 학습: 4 가지에서 8 가지로 점진적으로 늘려가며 분리 능력을 키웠다.
  2. 전담 전문가: 각 악기마다 특화된 수리공을 두어 더 정교하게 고쳤다.
  3. 현실 대비: 분리 과정에서 생길 수 있는 실수를 미리 경험하게 하여, 실제 상황에서도 잘 작동하도록 만들었다.

결국 이 기술은 **오래되거나 섞여버린 음악 기록을 되살려, 마치 처음 녹음되었을 때처럼 생생하게 만들어주는 '음악의 시간 여행'**과 같습니다.