WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

이 논문은 긴 형식의 벵골어 음성 인식과 화자 분리 과제를 해결하기 위해 WhisperX 기반의 단어 경계 인식 청크 전략과 도메인 특화 파인튜닝이 적용된 Pyannote 분할 모델을 통합한 'WhisperAlign' 솔루션을 제안합니다.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎙️ 프로젝트의 목표: "혼란스러운 벵골어 파티의 기록 정리하기"

상상해 보세요. 방글라데시에서 1 시간 동안 이어진 대규모 파티가 있었습니다. 여러 사람이 동시에 말하고, 목소리가 겹치고, 배경 소음도 많습니다. 이 녹음 파일을 들어보면서 누가 언제 무엇을 말했는지를 완벽하게 기록해야 하는 과제를 받았다고 가정해 봅시다.

이 팀은 이 과제를 두 단계로 나누어 해결했습니다.

  1. 작업 1 (ASR): "무슨 말이 들리는지" 텍스트로 바꾸기 (음성 인식)
  2. 작업 2 (Diarization): "누가 그 말을 했는지" 구분하기 (화자 분리)

1 단계: "잘게 썰어 다시 조립하는" 음성 인식 (WhisperAlign)

기존의 AI 는 긴 녹음 파일을 한 번에 들으려다 보면, 중간에 말을 끊어버리거나 (단어 잘림), 없는 말을 만들어 내는 (환각 현상) 실수를 자주 했습니다. 마치 긴 책을 한 번에 다 읽으려다 지쳐서 내용을 헷갈리는 것과 비슷합니다.

이 팀이 개발한 WhisperAlign의 핵심 전략은 다음과 같습니다.

  • 🍞 "완전한 식빵 조각"만 잘라내기 (단어 경계 인식):
    일반적인 방법은 시간을 기준으로 30 초마다 강제로 자르지만, 이때 "안녕하"라고 잘라 "세"가 다음 조각으로 넘어가는 실수가 생깁니다. 이 팀은 AI 가 각 단어의 시작과 끝을 정확히 알아내는 능력을 이용했습니다. 마치 식빵을 자를 때 "안녕하세요"라는 단어의 끝까지 포함되도록 정확히 자르는 것처럼, 단어가 끊기지 않는 구간만 잘게 잘라냈습니다.
  • 🧩 "맞춤형 퍼즐"로 학습:
    이렇게 잘게 잘린 조각들 (20~28 초 분량) 에만 집중해서 AI 를 다시 훈련시켰습니다. 짧은 조각은 정보가 부족하고, 너무 길면 AI 가 혼란을 겪기 때문에, 가장 적절한 길이의 조각들만 모아 새로운 '전문가'를 만든 것입니다.
  • 🚫 "침묵 구간은 버리기":
    사람들이 말하지 않는 침묵 구간은 AI 가 헛소리를 만들어내기 쉽습니다. 그래서 말소리만 있는 부분만 골라내어 AI 에게 주었습니다.

결과: 이 방법을 통해 AI 가 말을 잘못 들거나 (환각), 단어를 잘못 쓰는 실수가 크게 줄어들었습니다.


2 단계: "누가 언제 말했는지" 구분하기 (WhisperX-Anchored Pyannote)

두 번째 문제는 "A 와 B 가 동시에 말했을 때, 누가 무슨 말을 했는지"를 구분하는 것입니다. 특히 벵골어는 화법 특성이 서양 언어와 달라서 기존 AI 들이 헷갈려 했습니다.

이 팀의 Diarization 전략은 다음과 같습니다.

  • 🎓 "벵골어 특화 교육" (파인튜닝):
    기존에 서양 언어로만 훈련된 AI 에게 벵골어 대화의 뉘앙스 (누가 언제 말을 끊고, 누가 먼저 시작하는지 등) 를 다시 가르쳤습니다. 전체 AI 를 새로 만드는 게 아니라, 가장 중요한 '구분하는 능력'을 담당하는 부분만 집중적으로 훈련시켜 비용과 시간을 아꼈습니다.
  • 🚦 "경쟁 규칙 준수" (중복 제거):
    대회 규칙상 "동시에 두 사람이 말하는 구간"은 허용되지 않았습니다. 보통은 이 부분을 잘라내거나 삭제했는데, 이 팀은 AI 가 자연스럽게 "누가 더 지배적인 목소리인지" 판단하게 하여 겹치는 부분을 깔끔하게 정리했습니다.
  • 🔗 "두 개의 감시카메라 교차 검증" (VAD 교차):
    여기서 가장 중요한 아이디어입니다.
    1. WhisperX라는 AI 가 "여기서부터 말소리가 시작된다"고 판단합니다.
    2. Pyannote라는 다른 AI 가 "여기서부터 화자가 바뀐다"고 판단합니다.
      보통 이 두 AI 의 판단이 서로 달라서 (시간이 어긋나서) 문제가 생깁니다. 이 팀은 두 AI 의 판단이 겹치는 부분 (AND) 만 최종 결과로 채택했습니다. 마치 두 명의 감시카메라가 동시에 찍은 영상만 신뢰하는 것처럼, 오류가 날 수 있는 경계선을 완전히 없앤 것입니다.

결과: 화자가 바뀌는 순간이 매우 정확해졌고, 배경 소음이나 헛소리가 섞인 구간이 사라졌습니다.


🏆 최종 성과: 왜 이 방법이 특별한가?

이 팀은 **"작게 잘라내어 정확히 맞추기 (ASR)"**와 **"두 가지 감시카메라로 교차 검증하기 (Diarization)"**라는 두 가지 아이디어를 결합했습니다.

  • 기존 방식: 긴 파일을 무작위로 자르고, 서양식 AI 를 그대로 써서 큰 실수를 범함. (오류율 67% 이상)
  • 이 팀의 방식: 단어가 끊기지 않게 정교하게 자르고, 벵골어 특성에 맞춰 훈련시킨 뒤, 두 AI 의 판단을 겹쳐서 오류를 잡음. (오류율 25% 이하로 대폭 감소)

💡 한 줄 요약

"긴 벵골어 녹음 파일을 '단어가 끊기지 않는 조각'으로 잘게 썰어 AI 에게 다시 가르치고, 두 가지 다른 AI 가 서로의 실수를 잡아주게 하여 완벽한 대화 기록을 만들어냈다."

이 기술은 자원이 부족한 언어 (벵골어 등) 에서도 고도의 음성 인식을 가능하게 하여, 향후 더 많은 언어와 상황에 적용될 수 있는 귀중한 청사진을 제시했습니다.