Each language version is independently generated for its own context, not a direct translation.
🎵 1. 문제 상황: "완성된 스프"를 다시 분리해야 합니다
전문가들이 만든 음악은 단순히 악기 소리가 섞인 것이 아닙니다. 마치 요리사가 만든 완성된 스프와 같습니다.
- 소금 (이퀄라이징), 후추 (압축), 향신료 (리버브), 그리고 요리 과정 중 생긴 기름기 (코덱 노이즈) 등이 모두 섞여 있습니다.
- 기존 기술들은 "소금과 후추만 빼면 원래 재료가 나올 거야"라고 생각했지만, 실제로는 그 과정이 너무 복잡해서 실패했습니다.
이 논문은 **"완성된 스프 (음악) 에서 8 가지 재료 (보컬, 드럼, 베이스 등) 를 찾아내고, 동시에 그 재료가 원래 신선했던 상태로 되돌리는 작업"**을 목표로 합니다.
🛠️ 2. 해결책: "분리"와 "수리"라는 두 단계 작업
이 팀은 이 거대한 작업을 두 단계로 나누어 해결했습니다.
1 단계: 거대한 주방에서 재료를 분리하는 '분리사' (Separator)
- 역할: 섞인 스프에서 각 재료를 대략적으로 건져내는 역할입니다.
- 기술 (BS-RoFormer): 이 '분리사'는 처음에는 4 가지 재료 (보컬, 드럼, 베이스, 기타) 만 구분할 수 있는 초급 요리사였습니다.
- 학습 과정 (커리큘럼):
- 초급: 깨끗한 재료만 섞인 스프로 4 가지 재료를 구분하는 법을 배웁니다.
- 중급: 실제 요리 과정 (마스터링) 을 거친 더러운 스프로 다시 훈련합니다.
- 고급: 이제 8 가지 재료까지 구분할 수 있도록 '머리 (Head)'를 확장합니다. 마치 초급 요리사가 새로운 칼을 추가해 더 많은 재료를 다룰 수 있게 되는 것과 같습니다.
- 팁: 처음부터 8 가지를 다 가르치면 혼란스러우니, 4 가지를 먼저 익히고 8 가지로 확장하는 단계별 학습 (Curriculum) 방식을 썼습니다.
2 단계: 각 재료를 정성스럽게 다듬는 '수리공' (Restoration Experts)
- 역할: 1 단계에서 분리된 재료들은 여전히 더럽거나 모양이 찌그러져 있을 수 있습니다. 이들을 각기 다른 전문가들이 맡아 깨끗하게 닦고 다듬습니다.
- 기술 (HiFi++ GAN):
- 먼저 **만능 수리공 (Generalist)**이 모든 재료를 고치는 법을 배웁니다.
- 그다음, 보컬 전문가, 드럼 전문가, 기타 전문가 등 8 명의 **전담 수리공 (Experts)**으로 세분화합니다.
- 중요한 점: 이 수리공들은 "완벽하게 분리된 소리"가 아니라, **1 단계 분리사가 실수하며 만들어낸 ' imperfect(불완전한) 소리'**를 보고 훈련했습니다. 마치 실제 현장에서 발생할 수 있는 실수를 미리 경험하고 대비하는 것과 같습니다.
🏆 3. 결과: 얼마나 잘했나요?
이 시스템은 2025 년 음악 복원 대회 (ICASSP Challenge) 에서 경쟁력 있는 점수를 받았습니다.
- 성공: 보컬, 드럼, 기타 등 8 가지 악기를 분리하고, 노이즈를 제거하여 원래에 가까운 소리를 만들어냈습니다.
- 한계: 아직 완벽하지는 않습니다.
- 시끄러운 환경: 라이브 공연이나 아주 오래된 녹음처럼 소음이 너무 심하면 분리사가 재료를 제대로 건져내지 못해 수리공도 힘을 쓰지 못합니다.
- 데이터의 불일치: 훈련용 데이터와 실제 데이터가 다르면 수리공이 헷갈릴 수 있습니다.
- 효과음의 딜레마: 노래에 들어있는 '리버브 (잔향)' 같은 효과가 원래 의도였는지, 아니면 제거해야 할 노이즈인지 구분하기 어려운 경우가 있습니다.
💡 요약
이 논문은 **"음악을 분리하고 복원하는 작업"**을 다음과 같이 접근했습니다:
- 단계별 학습: 4 가지에서 8 가지로 점진적으로 늘려가며 분리 능력을 키웠다.
- 전담 전문가: 각 악기마다 특화된 수리공을 두어 더 정교하게 고쳤다.
- 현실 대비: 분리 과정에서 생길 수 있는 실수를 미리 경험하게 하여, 실제 상황에서도 잘 작동하도록 만들었다.
결국 이 기술은 **오래되거나 섞여버린 음악 기록을 되살려, 마치 처음 녹음되었을 때처럼 생생하게 만들어주는 '음악의 시간 여행'**과 같습니다.
Each language version is independently generated for its own context, not a direct translation.
논문 요약: 멀티 스테이지 음악 소스 복원 (MSR) 시스템
이 논문은 Johannes Kepler University Linz 의 CP-JKU 팀이 ICASSP 2025 음악 소스 복원 (MSR) 챌린지에 제출한 시스템을 소개합니다. 이 시스템은 믹싱 및 마스터링이 완료된 오디오에서 원본의 가공되지 않은 악기 스템 (stems) 을 복원하는 것을 목표로 합니다.
1. 문제 정의 (Problem)
- 기존 방법의 한계: 전통적인 음악 소스 분리 (Source Separation) 기법은 일반적으로 '선형 혼합 (linear-mixture)' 가정을 기반으로 합니다. 그러나 실제 프로페셔널 음악 제작 과정에서는 이퀄라이제이션 (EQ), 동적 범위 압축, 리버브, 포화 (saturation), 왜곡, 스테레오 와이드닝, 리미팅, 코덱 아티팩트 등 다양한 생산 효과와 배포 과정의 왜곡이 가해집니다.
- 복잡성: 이로 인해 목표 소스는 단순히 혼합된 것을 넘어 체계적으로 변형되어 있으며, 깨끗한 스템을 가정하는 직접적인 분리만으로는 원본을 복원하기에 부족합니다.
- 목표: 보컬, 기타, 키보드, 신디사이저, 베이스, 드럼, 퍼커션, 오케스트라 등 8 가지 악기 클래스에 대해, 이러한 변형이 포함된 혼합 오디오에서 원본의 가공되지 않은 (unprocessed) 소스를 복원하는 것입니다.
2. 방법론 (Methodology)
시스템은 분리 (Separation) 와 복원 (Restoration) 을 명시적으로 분리하는 모듈형 2 단계 파이프라인으로 구성됩니다.
1 단계: 소스 분리 (Source Separation)
- 모델: BandSplit-RoFormer (BS-RoFormer) 를 사용합니다. 이 모델은 주파수 대역을 분할하여 처리하고, RoFormer 블록을 통해 시간적 및 대역 간 의존성을 모델링합니다.
- 구조: 8 개의 악기 스템과 1 개의 보조 '기타 (other)' 스템을 예측하는 9 개의 마스크 추정 헤드를 가진 단일 모델입니다.
- 학습 커리큘럼 (3 단계):
- Stage 1 (4 스템, 청정 혼합): 공개된 4 스템 BS-RoFormer 체크포인트를 기반으로, 보컬, 드럼, 베이스, 기타를 분리하도록 청정 혼합 데이터로 파인튜닝 (LoRA 사용).
- Stage 2 (4 스템, 마스터링된 혼합): 온라인 분해 및 마스터링 파이프라인을 통해 생성된 왜곡된 혼합 데이터로 계속 파인튜닝. 목표는 왜곡된 스템입니다.
- Stage 3 (8 스템 확장): 모델을 8 스템으로 확장합니다. 기존 4 스템의 백본과 헤드는 Stage 2 에서 초기화하고, 새로운 헤드는 무작위 초기화 후 백본은 고정 (frozen) 한 채 새로운 마스크 헤드만 학습합니다.
2 단계: 소스 복원 (Restoration)
- 모델: HiFi++ GAN 기반의 복원기입니다. SpectralUNet 프론트엔드, 업샘플링 단계, WaveUNet 정제 네트워크, 잔여 스펙트럼 보정을 위한 SpectralMaskNet 으로 구성됩니다.
- 학습 전략 (5 단계):
- 일반화 (Generalist): SonicMasterDataset 등을 사용하여 원본 음악 콘텐츠를 복원하는 일반 모델을 학습 (GAN 학습 및 지각적 지표 도입 포함).
- 노이즈 억제: 그라모폰 노이즈 등을 포함한 추가 증강을 통해 노이즈 아티팩트 제거에 집중.
- 전문가화 (Specialization): 분리 모델이 생성한 입력 (실제 분리 오류를 반영) 을 사용하여 8 가지 악기별 전문 모델 (Expert) 로 파인튜닝. 이는 훈련 - 테스트 정렬 (train-test alignment) 을 개선합니다.
3. 주요 기여 (Key Contributions)
- 효율적인 커리큘럼 학습: LoRA(LoRA fine-tuning) 와 헤드 확장 (head expansion) 을 활용하여 4 스템 모델에서 8 스템 모델로 효율적으로 적응시키는 학습 커리큘럼을 제안했습니다.
- 실제 오류 기반의 전문가 모델: 분리 모델이 생성한 입력을 사용하여 악기별 복원 전문가 (Instrument-specific experts) 를 학습시킴으로써, 테스트 시 발생할 수 있는 분리 오류를 복원 단계에서 효과적으로 보정하도록 했습니다.
- 모듈형 아키텍처: 분리 문제와 디마스터링/아티팩트 제거 문제를 분리하여, 대규모 증강 데이터로 분리기를 훈련시키고, 실제 분리 오류 분포 하에서 복원기를 훈련시킬 수 있게 했습니다.
4. 실험 결과 (Results)
ICASSP 2025 MSR 챌린지 공식 테스트 세트 및 MSRBench 데이터셋에서의 결과는 다음과 같습니다.
- 공식 평가 (MSR Challenge 2025):
- 평균 Multi-Mel-SNR (MMSNR): 0.8329
- 평균 Zimtohrli (Zimt): 0.0189
- 평균 Frechet Audio Distance (FAD): 0.6223 (논문 표 1 의 평균값 기준, 본문 요약에서는 0.3814 로 언급된 부분과 표의 평균 0.6223 사이 차이가 있으나, 표 1 의 평균이 공식 결과로 간주됨)
- 시스템 수준 MOS (Mean Opinion Score): 3.5510
- MSRBench 결과: FAD 0.638, MMSNR 2.338 달성.
- 악기별 성능: 보컬 (FAD 0.3092), 드럼, 기타 등에서 상대적으로 좋은 성능을 보였으나, 오케스트라 요소나 퍼커션 등에서는 성능 편차가 존재함.
5. 한계점 및 향후 과제 (Limitations & Future Work)
- 노이즈 민감성: 라이브 녹음이나 역사적 녹음과 같이 노이즈가 심한 혼합 오디오의 경우, 분리기가 충실한 스템 추정을 하지 못해 하위 복원 단계의 성능이 제한됨.
- 데이터 불일치: RawStems 와 같은 대규모 데이터셋에서의 불일치와 오정렬이 복원 학습을 편향시키고 잔여 노이즈를 유발할 수 있음.
- 변화하는 효과의 모호성: 훈련 데이터의 정답 (Ground Truth) 에 리버브, 코러스, 딜레이 등 시간 가변적 효과가 포함되어 있을 경우, 모델이 이를 제거해야 할지 유지해야 할지 모호해짐 ("dry" target 의 정의 문제).
- 향후 계획: 데이터 큐레이션 강화, 정렬 검증, 효과 인식형 조건부 학습 (effect-aware conditioning) 에 중점을 둘 계획.
6. 의의 (Significance)
이 연구는 복잡한 프로페셔널 음악 믹스에서 원본 소스를 복원하는 데 있어, 분리와 복원 단계를 체계적으로 분리하고 단계적 학습 커리큘럼을 적용한 접근법의 유효성을 입증했습니다. 특히, 분리 모델의 오류를 복원 모델의 학습 데이터로 활용하여 실제 배포 환경에 더 부합하는 성능을 끌어올린 점은 음악 소스 복원 분야에서 중요한 기술적 진전으로 평가됩니다.