BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"BemaGANv2"**라는 새로운 인공지능 기술을 소개합니다. 이 기술은 텍스트를 듣고, 음악이나 소리를 만들어내는 '음성 합성기 (Vocoder)'의 일종입니다.

쉽게 말해, **"인공지능이 노래나 이야기를 만들 때, 소리가 얼마나 자연스럽고 길게 이어질 수 있게 해주는지"**에 대한 연구입니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "짧은 말은 잘하는데, 긴 노래는 망가진다"

기존의 AI 음성 합성 기술들은 짧은 문장 (예: "안녕하세요") 을 만들 때는 아주 훌륭했습니다. 하지만 10 분, 30 분 같은 긴 노래나 긴 이야기를 만들려고 하면 소리가 뭉개지거나, 리듬이 깨지거나, 심지어 소리가 두 배로 길어지는 이상한 현상이 발생했습니다.

마치 훌륭한 요리사가 햄버거는 잘 만들지만, 3 시간짜리 만찬을 차리려 하면 재료가 변질되거나 맛이 망가지는 상황과 비슷합니다.

2. 해결책: BemaGANv2 (베마GANv2)

이 논문은 이 문제를 해결하기 위해 두 가지 핵심 전략을 도입했습니다.

① 요리사 (생성기) 의 업그레이드: "리듬 감각을 가진 요리사"

기존의 요리사 (생성기) 는 재료를 섞는 방식이 조금 단순했습니다. BemaGANv2 는 **'AMP 블록'**이라는 새로운 도구를 도입했습니다.

비유: 기존 요리사가 단순히 재료를 섞는다면, BemaGANv2 의 요리사는 음악의 박자 (Periodicity) 를 몸으로 느끼는 ' Snake(뱀)'라는 특별한 감각을 갖게 되었습니다.
효과: 이 'Snake'라는 감각은 소리의 진동과 리듬을 자연스럽게 따라가게 해줍니다. 그래서 긴 노래를 만들 때도 박자가 흔들리지 않고, 악기 소리가 찢어지지 않게 됩니다.

② 미식가 (판별기) 의 팀워크: "소리를 듣는 두 명의 전문가"

AI 가 만든 소리가 진짜인지 가짜인지 판별하는 '미식가 (Discriminator)'들이 있습니다. 기존에는 미식가 한 명만 있었거나, 서로 다른 역할만 했다면, BemaGANv2 는 두 명의 전문 미식가를 팀으로 꾸렸습니다.

미식가 A (MED - 시간의 흐름을 보는 전문가):
- 역할: 소리의 에너지 흐름과 리듬을 봅니다.
- 비유: 마치 **음악의 박자나 가수의 숨결 (Prosody)**을 듣는 사람입니다. "이 소리가 너무 딱딱하지 않고, 자연스러운 호흡을 가지고 있는가?"를 체크합니다.
미식가 B (MRD - 소리의 질감을 보는 전문가):
- 역할: 소리의 주파수와 음색을 봅니다.
- 비유: 마치 악기의 음색이나 소리의 선명함을 분석하는 사람입니다. "이 소리가 맑고, 고음이 찢어지지 않는가?"를 체크합니다.

핵심 아이디어:
이 두 미식가 (MED 와 MRD) 가 함께 일할 때 가장 좋습니다. 한 명만 있으면 소리의 '리듬'은 잘 잡히는데 '음색'이 흐릿해지거나, 그 반대가 될 수 있습니다. 하지만 둘이 협력하면 리듬도 자연스럽고, 소리도 선명한 완벽한 음악을 만들어냅니다.

3. 실험 결과: "긴 노래도 완벽하게!"

연구팀은 이 기술을 다양한 음악과 소리 (자동차 엔진 소리, 드럼 소리, 긴 노래 등) 로 테스트했습니다.

결과: BemaGANv2 는 짧은 소리뿐만 아니라 90 분짜리 긴 음악을 만들 때도 다른 어떤 AI 보다 자연스럽고, 소리가 뭉개지지 않았습니다.
재미있는 발견: 기존에 유명했던 'HiFi-GAN'이라는 기술은 긴 소리를 만들 때 소리가 두 배로 늘어나는 버그가 있었습니다. 하지만 BemaGANv2 가 쓴 'Snake'라는 새로운 감각을 적용하자 이 버그가 사라지고 소리가 아주 안정적으로 만들어졌습니다.

4. 요약: 왜 이 기술이 중요한가요?

이 기술은 AI 가 음악을 작곡하거나, 긴 오디오북을 읽어주는 시스템에 매우 중요합니다.

기존: 짧은 문장은 잘 만들지만, 긴 노래를 만들면 소리가 깨짐.
BemaGANv2: **리듬을 느끼는 감각 (Snake)**과 소리의 질감과 흐름을 동시에 감시하는 두 명의 미식가 (MED+MRD) 덕분에, 긴 시간 동안에도 소리가 끊기지 않고 자연스럽습니다.

마치 한 명의 거장 요리사가 아니라, 리듬을 아는 요리사와 맛을 아는 미식가가 팀을 이루어 3 시간 만찬을 완벽하게 차려낸 것과 같습니다. 이제 AI 도 긴 노래를 만들 때 더 이상 망설일 필요가 없게 된 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 텍스트 - 음악 (TTM) 및 텍스트 - 오디오 (TTA) 시스템에서 고음질 (High-Fidelity) 의 장기간 오디오 생성이 필수적이지만, 긴 시간 동안 일관된 시간적 결속성 (Temporal Coherence), 운율 (Prosody), 그리고 조화 구조 (Harmonic Structure) 를 유지하는 것은 여전히 큰 과제입니다.
기존 모델의 한계:
- HiFi-GAN: 주기성 (Periodicity) 모델링을 위해 Multi-Period Discriminator (MPD) 를 도입했으나, 생성기 (Generator) 가 Leaky ReLU 활성화 함수와 기존 ResBlock 을 사용하여 복잡한 주기적 구조나 분포 밖 (OOD) 데이터에서 한계가 있었습니다. 특히 장기간 생성 시 파형 길이가 두 배로 늘어나는 등 불안정성이 관찰되었습니다.
- BigVGAN: 생성기에 Anti-aliased Multi-Periodicity (AMP) 블록과 Snake 활성화 함수를 도입하여 주기성을 개선했으나, 파라미터 수가 많고 훈련이 복잡하며, 단일 생성기 구조만으로는 시간적 에너지 포락선 (Temporal Envelope) 을 충분히 포착하지 못할 수 있습니다.
- BemaGAN (기존 저자 작업): Multi-Envelope Discriminator (MED) 를 제안하여 시간적 에너지 패턴을 포착했으나, 생성기 성능이 제한적이어서 전체 성능 향상에 한계가 있었습니다.
핵심 문제: 장기간 오디오 생성에서 생성기의 주기성 모델링 능력과 판별자의 시간적/주파수적 포괄적 감지 능력을 어떻게 최적화하여 조합할 것인가?

2. 제안 방법론 (Methodology)

논문은 BemaGANv2를 제안하며, 이는 생성기와 판별기 아키텍처의 혁신적 결합을 통해 설계되었습니다.

A. 생성기 (Generator) 개선

AMP (Anti-aliased Multi-Periodicity) 블록 도입: 기존 ResBlock 을 대체하여 BigVGAN 의 아키텍처를 차용했습니다.
Snake 활성화 함수: $f_\alpha(x) = x + \frac{1}{\alpha}\sin^2(\alpha x)$ 형태의 학습 가능한 주기적 활성화 함수를 사용하여, 네트워크가 음향 신호의 주기적 구조 (조화, 리듬) 를 더 정확하게 모델링하도록 유도합니다.
안티앨리어싱 (Anti-aliasing): 업샘플링 및 Snake 함수 적용 시 발생하는 고주파 아티팩트를 방지하기 위해 저역통과필터 (LPF) 를 적용합니다.

B. 판별기 (Discriminator) 전략: MED + MRD 조합

기존의 단일 판별기나 MPD/MSD 조합 대신, 서로 보완적인 두 가지 판별기를 결합했습니다.

Multi-Envelope Discriminator (MED, 제안된 아키텍처):
- 원본 파형이나 스펙트로그램이 아닌, **시간 영역의 포락선 (Envelope)**을 분석합니다.
- 힐버트 변환 (Hilbert Transform) 을 기반으로 한 상/하 포락선과, 300Hz/500Hz 로 필터링된 포락선 등 다중 스케일 ( $F = \{-1, 0, 1, 300, 500\}$ ) 의 포락선을 추출하여 운율 (Prosody), 구절 (Phrasing), 진폭 변조 (Amplitude Modulation) 같은 시간적 에너지 패턴을 감지합니다.
Multi-Resolution Discriminator (MRD):
- 다양한 STFT 설정 (FFT 크기, 홉 길이) 을 가진 스펙트로그램을 분석하여 주파수 영역의 일관성을 보장합니다.
- 저주파 피치 정확도와 고주파 음색 (Timbre) 디테일을 동시에 포착합니다.
결합 전략: MED 는 시간적/에너지적 특성을, MRD 는 주파수적/스펙트럼적 특성을 담당하여 상호 보완적인 감시 (Supervision) 를 제공합니다.

C. 훈련 목표 (Loss)

HiFi-GAN 의 Least Squares GAN (LSGAN) 전략을 따르며, 대적 손실 (Adversarial Loss), 특징 매칭 손실 (Feature Matching Loss), 멜-스펙트로그램 손실 (Mel-Spectrogram Loss) 을 조합하여 훈련합니다.

3. 주요 기여 (Key Contributions)

BemaGANv2 아키텍처 제안: AMP 블록 (Snake 활성화) 기반 생성기와 MED+MRD 판별기 조합을 통합하여 장기간 오디오 생성에 최적화된 모델 개발.
판별기 조합 전략의 체계적 평가: 다양한 판별기 조합 (MSD+MED, MPD+MRD, MED+MRD 등) 을 동일한 생성기 조건에서 비교 분석하여, **상호 보완적인 판별기 조합 (MED+MRD)**이 단일 판별기 교체보다 더 균형 잡힌 성능을 낸다는 것을 입증.
장기간 생성 안정성 발견: HiFi-GAN 에서 관찰되던 장기간 오디오 생성 시 파형 길이 이상 (이중화) 현상이 생성기의 활성화 함수 (Leaky ReLU vs Snake) 및 안티앨리어싱 메커니즘과 관련 있음을 규명. Snake 기반 생성기가 장기적 외삽 (Extrapolation) 에 훨씬 안정적임을 증명.
재현성 확보: 상세한 아키텍처 설명, 훈련 설정, 코드 및 사전 훈련 모델 공개 (GitHub).

4. 실험 결과 (Results)

데이터셋: 훈련은 LJSpeech(단일 화자), 평가는 Freesound.org(다양한 환경음, 음악, OOD 데이터) 사용.
객관적 평가 (Objective Metrics):
- 단기 및 장기 오디오 모두에서 BemaGANv2 (MED+MRD) 가 최상의 성능을 기록했습니다.
- 주요 지표 (FAD, SSIM, PCC, MCD, M-STFT, Periodicity) 에서 HiFi-GAN, BigVGAN, 기존 BemaGAN 등을 상회했습니다.
- 특히 장기 오디오에서 HiFi-GAN 은 성능이 급격히 저하되었으나, BemaGANv2 는 일관된 고성능을 유지했습니다.
- MED-only 실험은 시간적 포락선 모델링에 강점이 있음을 보였으나, MRD 와 결합했을 때 스펙트럼 일관성이 추가로 향상되어 전체 성능이 극대화됨을 확인.
주관적 평가 (Subjective Metrics):
- MOS (평균 의견 점수) 및 **SMOS (유사도 점수)**에서 BemaGANv2 가 모든 모델 중 가장 높은 점수를 받았습니다.
- **MED+MPD+MRD (판별기 3 개 조합)**는 객관적 지표는 좋았으나 주관적 점수가 낮았는데, 이는 과도한 판별기로 인한 모드 붕괴 (Mode Collapse) 현상 때문으로 분석되었습니다. 이는 "판별기의 양"보다 "상호 보완적인 조합"이 중요함을 시사합니다.
추론 속도: 실시간 (Real-time) 보다 약 103 배 빠른 속도를 달성하여 실시간 스트리밍에 적합함.

5. 의의 및 결론 (Significance)

장기간 오디오 생성의 새로운 표준: 텍스트 - 음악/오디오 생성 시스템에서 장기간 생성 시 발생하는 시간적 불일치와 음질 저하 문제를 해결하는 효과적인 GAN 기반 보코더를 제시했습니다.
설계 철학의 전환: 단순히 판별기를 늘리는 것이 아니라, **시간적 포락선 (MED)**과 **주파수 스펙트럼 (MRD)**을 각각 전문적으로 감시하는 상호 보완적 판별기 조합의 중요성을 강조했습니다.
활성화 함수의 중요성: Snake 활성화 함수와 안티앨리어싱 기법이 장기간 오디오 생성의 안정성과 주기성 모델링에 결정적인 역할을 함을 입증했습니다.
실용성: 단일 GPU 로 훈련 가능하고 추론 속도가 매우 빨라, 실제 TTM/TTA 시스템 및 실시간 스트리밍 애플리케이션에 바로 적용 가능한 경량화된 고성능 모델입니다.

이 논문은 GAN 기반 보코더의 발전 방향을 제시하며, 특히 장기간 오디오 생성 분야에서 생성기와 판별기의 최적 조합 전략에 대한 중요한 통찰을 제공합니다.