TCG CREST System Description for the DISPLACE-M Challenge

Each language version is independently generated for its own context, not a direct translation.

🎙️ 1. 문제 상황: 시끄러운 시장 같은 진료실

상상해 보세요. 시골 보건소에서 간호사와 환자가 대화를 나누고 있습니다. 하지만 주변은 시끄럽고, 두 사람이 동시에 말을 하거나 (겹쳐서 말하기), 사투리를 쓰거나, 배경 소음이 섞여 있습니다.

이때 녹음된 파일을 들어보면, "누가 언제 말했는지"를 구분하기 정말 어렵습니다. 마치 시끄러운 파티에서 여러 사람의 목소리를 섞어서 구분하는 것과 비슷하죠. 연구팀은 이 '혼란스러운 목소리'를 정리해 주는 시스템을 만들려고 했습니다.

🛠️ 2. 두 가지 해결책 (시스템)

연구팀은 이 문제를 풀기 위해 두 가지 다른 방식의 '정리 도구'를 비교해 보았습니다.

① 첫 번째 도구: 레고 조립식 (SpeechBrain 시스템)

이 방식은 레고 블록을 하나씩 조립하는 방식입니다.

VAD (음성 활동 감지): 먼저 "여기서 사람이 말하고 있나?"를 감지하는 센서를 달았습니다. (실제 정답을 알려주는 '오라클'을 쓰면 아주 잘하지만, 기계가 스스로 감지하면 실수가 많습니다.)
클러스터링 (그룹화): 감지된 목소리 조각들을 "이건 A 씨 목소리, 저건 B 씨 목소리"라고 분류하는 작업을 합니다.
결과: 레고 방식은 정밀한 부품 (고퀄리티 음성 감지) 을 쓸 때는 잘 작동하지만, 소음이 심하거나 감지기가 실수하면 전체가 망가집니다.

② 두 번째 도구: 똑똑한 AI 비서 (Diarizen 시스템)

이 방식은 미리 훈련된 천재 비서가 전체 상황을 한눈에 파악하는 방식입니다.

엔드 - 투 - 엔드 (End-to-End): 이 비서는 녹음된 소리를 잘게 쪼개서 (80 초~16 초 단위) 분석합니다. 겹쳐서 말하는 상황에서도 누가 말했는지 스스로 추론할 수 있습니다.
후처리 (다듬기): 비서가 분류한 결과를 바탕으로, "아, 이 부분은 잠시 멈췄다가 다시 말했구나"라고 연결해 주는 중간 필터링 (Median Filtering) 과정을 거칩니다.
결과: 이 방식이 훨씬 강력했습니다. 특히 29 개의 시간 구간 (창문) 을 넓게 보고 결정을 내리게 했을 때, 실수가 가장 적었습니다.

📊 3. 실험 결과: 누가 이겼나?

연구팀은 개발 데이터 (Dev) 와 평가 데이터 (Eval) 로 실험을 했습니다.

승자: Diarizen 시스템이 압도적으로 이겼습니다.
성적표:
- 기존 레고 방식 (SpeechBrain): 실수율 (DER) 약 17%
- 천재 비서 방식 (Diarizen): 실수율 약 9~10%
- 결과: Diarizen 은 기존 방식보다 약 39% 더 정확하게 목소리를 구분했습니다.
최종 순위: 11 개 팀 중 5 위를 차지했습니다.

💡 4. 핵심 비유: "창문"을 넓히다

가장 중요한 발견은 '중간 필터링 (Median Filtering)' 부분입니다.

기존 방식: 창문 (시간 창) 을 11 칸 정도로 좁게 보고 결정을 내렸습니다. "지금 말하고 있나? 아니야?"를 빠르게 판단했지만, 소음 때문에 자꾸 흔들렸습니다.
개선된 방식: 창문을 29 칸으로 넓혔습니다. "이전 14 초와 다음 14 초까지 다 보고, 전체 흐름을 보자"라고 생각하니, 짧은 소음에 흔들리지 않고 "아, 이건 계속 말하고 있는 거구나" 라고 안정적으로 판단할 수 있게 되었습니다.

🔍 5. 왜 어떤 파일은 실패했을까?

모든 파일에서 Diarizen 이 이긴 것은 아닙니다. 몇몇 파일에서는 오히려 레고 방식이 더 나았습니다.

이유: 어떤 녹음 파일은 너무 소음이 심하거나, 녹음 자체의 문제 (예: 두 사람이 동시에 너무 많이 겹쳐서 말함) 가 있어 어떤 시스템도 해결하기 어려웠습니다.
교훈: "완벽한 한 가지 도구"는 없습니다. 서로 다른 도구의 장점을 섞어서 (퓨전) 쓰면 더 나을 수 있다는 것을 깨달았습니다.

🚀 6. 결론 및 미래

이 연구는 "시끄러운 시골 진료실에서도 AI 가 누가 말했는지 잘 구분할 수 있다" 는 것을 증명했습니다. 특히, Diarizen이라는 최신 AI 시스템이 기존 방식보다 훨씬 뛰어나다는 것을 확인했습니다.

미래의 과제는?

더 똑똑한 감지기: 소음을 잘 구분하는 '귀' (VAD) 를 더 발전시키기.
학습 과정에 적용: 지금처럼 시험 (추론) 때만 창문을 넓히는 게 아니라, 학습할 때부터 넓은 창문을 보고 훈련시키기.
두 시스템의 결혼: 레고 방식과 AI 비서 방식의 장점을 합쳐서, 어떤 상황에서도 실패하지 않는 '슈퍼 시스템' 만들기.

한 줄 요약:

"시끄러운 의료 현장 녹음에서 누가 말했는지 구분하는 데, 기존의 조립식 방법보다 '천재 비서' 같은 최신 AI 가 훨씬 잘하며, 시간 창을 넓게 잡으면 더 정확해진다는 것을 증명했습니다."

Each language version is independently generated for its own context, not a direct translation.

제공된 논문 "TCG CREST System Description for the DISPLACE-M Challenge"에 대한 상세한 기술 요약입니다.

1. 문제 정의 (Problem)

이 논문은 **DISPLACE-M 챌린지 (Track 1: 화자 분리, Speaker Diarization)**에 참여하여, 시골 의료 환경에서 발생하는 자연스러운 의료 대화 데이터를 대상으로 한 화자 분리 시스템의 성능을 평가하고 개선하는 것을 목표로 합니다.

데이터 특징: 커뮤니티 보건 요원과 지역 주민 간의 대화로, 배경 소음, 방언 차이, 자발적 대화, 그리고 특히 **화자 간 중첩 (Overlap)**과 같은 복잡한 음향적 환경이 주요 도전 과제입니다.
평가 지표: 화자 분리 오류율 (DER, Diarization Error Rate) 을 사용하여 시스템 성능을 측정했습니다.
데이터셋: 개발 세트 (Dev, 78 개 녹음) 와 평가 세트 (Eval, 71 개 녹음) 로 구성되었으며, Phase I 에 집중했습니다. 분석 결과 평균 음성 비율 (SP) 은 88.14%, 중첩 비율 (OVP) 은 4.08%, 신호 대 잡음비 (SNR) 는 32.43dB 로 비교적 깨끗한 환경이었으나, 녹음마다 중첩 정도와 스펙트럼 차이가 다양하게 나타났습니다.

2. 방법론 및 실험 설정 (Methodology)

저자들은 화자 분리를 위해 두 가지 주요 프레임워크를 비교 및 분석했습니다.

A. SpeechBrain 모듈형 파이프라인

구조: 음성 활동 감지 (VAD) $\rightarrow$ 세그먼트화 $\rightarrow$ 클러스터링의 모듈식 접근 방식.
VAD: Silero 및 Pyannote VAD 를 실험적으로 적용.
임베딩: VoxCeleb2 데이터셋으로 학습된 ECAPA-TDNN을 사용하여 화자 임베딩을 추출.
클러스터링: 코사인 유사도로 계산된 친화도 행렬 (Affinity Matrix) 에 다양한 스펙트럴 클러스터링 (Spectral Clustering) 변형 (SC-fixed, SC-adapt, SC-pNA, SC-MK) 을 적용.

B. Diarizen 하이브리드 엔드 - 투 - 엔드 시스템 (SOTA)

구조: 마이크로 레벨 (로컬) 과 매크로 레벨 (글로벌) 로 구성된 하이브리드 파이프라인.
- 마이크로 레벨: 사전 학습된 WavLM 기반의 특징 추출기, Conformer 블록, 선형 분류기를 사용하여 80~16 초의 짧은 오버랩 청크에서 프레임 단위 음성 확률과 화자 임베딩을 생성 (중첩 화자 처리 가능).
- 매크로 레벨: 생성된 임베딩을 Pyannote 백엔드로 전달하여 AHC (Agglomerative Hierarchical Clustering) 또는 VBx(Bayesian HMM) 를 통해 전역 화자 클러스터링 수행.
후처리: 세그먼트 경계를 부드럽게 하고 단발성 오작동을 억제하기 위해 중앙값 필터링 (Median Filtering) 적용. 기본 윈도우 크기 (11 프레임) 와 더 큰 컨텍스트 윈도우 (29 프레임) 를 비교 실험.
클러스터링 변형 실험: Diarizen 기본 설정인 AHC 외에 VBx, k-means, 그리고 저자들이 제안한 스펙트럴 클러스터링 변형들 (SC-adapt, SC-pNA, SC-MK 등) 을 광범위하게 평가.

3. 주요 기여 및 결과 (Key Contributions & Results)

주요 기여

VAD 방법론의 영향 분석: 모듈형 시스템에서 VAD 의 정확도가 전체 DER 에 결정적인 영향을 미친다는 것을 입증.
클러스터링 알고리즘 비교: Diarizen 프레임워크 내에서 다양한 클러스터링 기법 (AHC, VBx, k-means, 여러 스펙트럴 클러스터링 변형) 의 성능을 체계적으로 비교.
최적화 전략 발견: 클러스터링 알고리즘 변경보다는 **후처리 단계의 중앙값 필터링 윈도우 크기 증가 (11 $\rightarrow$ 29 프레임)**가 성능 향상에 더 효과적임을 발견.

실험 결과 (Phase I)

SpeechBrain vs. Diarizen:
- SpeechBrain (Silero VAD 사용) 의 개발 세트 DER: 17.37%
- Diarizen (기본 AHC) 의 개발 세트 DER: 10.54%
- 결과: Diarizen 시스템은 SpeechBrain 대비 약 39% 의 상대적 DER 개선을 보임. 이는 VAD 품질뿐만 아니라 Diarizen 의 강력한 임베딩 추출 및 클러스터링 능력을 시사.
최종 제출 시스템 (Best System):
- 구성: Diarizen 백본 + AHC 클러스터링 + 윈도우 크기 29 의 중앙값 필터링.
- 성능:
  - 개발 세트 (Dev): 10.37% DER
  - 평가 세트 (Eval): 9.21% DER
- 순위: 11 개 참여 팀 중 5 위 달성.
클러스터링 변형 분석: SC-adapt, SC-MK 등 다양한 스펙트럴 클러스터링 변형을 시도했으나, Diarizen 파이프라인 내에서는 기본 AHC 가 가장 안정적이고 우수한 성능을 보임.

4. 의의 및 결론 (Significance & Conclusion)

시스템 비교의 중요성: 고전적인 모듈형 시스템 (SpeechBrain) 은 고품질 VAD 가 제공될 때 경쟁력 있는 성능을 내지만, 복잡한 환경에서는 엔드 - 투 - 엔드 기반의 하이브리드 시스템 (Diarizen) 이 훨씬 우월함을 입증했습니다.
후처리의 효과: 복잡한 알고리즘 변경보다는 세그먼트의 시간적 일관성을 높이는 단순한 후처리 (필터링 윈도우 확대) 가 실제 성능 향상에 큰 기여를 할 수 있음을 보였습니다.
한계 및 향후 과제:
- 현재 연구는 비지도 학습 (Unsupervised) 설정에 국한되어 있으며, 개발 세트를 이용한 미세 조정 (Fine-tuning) 이나 지도 적응 (Supervised Adaptation) 을 통해 성능을 더 높일 수 있을 것으로 기대됩니다.
- 일부 파일에서는 SpeechBrain 이 더 좋은 성능을 보이는 경우가 있어, 두 시스템의 강점을 결합한 퓨전 (Fusion) 전략이나 스코어 레벨 결합이 향후 연구 방향이 될 수 있습니다.
- 녹음 환경의 통계적 특성 (중첩, SNR, 턴 테이킹 등) 이 성능 변동에 미치는 영향을 분석하는 구조화된 모델링이 필요함을 제안했습니다.

이 논문은 시골 의료 환경과 같은 실제 자연주의적 데이터에서 화자 분리를 수행할 때, 강력한 임베딩 추출 모델과 적절한 후처리 전략의 조합이 핵심임을 보여주었습니다.