LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

이 논문은 수치적 음성 인상 (VI) 제어의 한계를 해결하기 위해 최초의 공개 VI 코퍼스인 'LibriTTS-VI'를 구축하고, 화자 정체성과 VI 의 분리를 통해 인상 누수를 방지하는 새로운 방법을 제안하여 객관적 및 주관적 제어 성능을 크게 향상시켰습니다.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"말하는 인공지능 (TTS) 이 원하는 목소리 톤을 정확히 조절하는 방법"**에 대한 연구입니다. 마치 목소리 조종사가 되어 "조금 더 밝게", "조금 더 차분하게"라고 지시하면 AI 가 그대로 따라 하는 기술을 개발한 것이죠.

이 연구는 크게 두 가지 문제를 해결했습니다.

1. 문제 상황: "비밀 레시피"와 "목소리 섞임" 현상

과거의 기술은 두 가지 큰 걸림돌이 있었습니다.

  • 비밀 레시피 (공개 데이터 부재): 목소리 톤을 조절하는 데 필요한 '데이터 레시피'가 공개되지 않아서, 누구나 연구하거나 따라 할 수 없었습니다. 마치 맛있는 소스 레시피가 비밀로만 남아 있는 것과 같습니다.
  • 목소리 섞임 (Impression Leakage): 우리가 원하는 목소리 톤 (예: "밝게") 을 지시할 때, AI 가 참고로 들은 원본 목소리의 특징까지 그대로 가져와서 섞어버리는 현상이었습니다.
    • 비유: "이 노래를 밝은 목소리로 불러줘"라고 지시했는데, AI 가 참고한 원본 가수가 "우울한" 목소리를 가지고 있다면, AI 는 그 우울함까지 그대로 가져와서 "밝지만 어딘가 우울한" 이상한 목소리를 만들어내는 것입니다.

2. 해결책: 새로운 도서관과 분리된 조리법

연구팀은 이 두 문제를 해결하기 위해 다음과 같은 방법을 고안했습니다.

A. 새로운 공개 도서관: "LibriTTS-VI"

연구팀은 전 세계 누구나 사용할 수 있는 새로운 데이터 모음집인 LibriTTS-VI를 만들었습니다.

  • 비유: 마치 전 세계 모든 사람이 무료로 접근할 수 있는 '목소리 톤 레시피 도서관'을 새로 지은 것과 같습니다. 이제 누구나 이 도서관의 자료를 바탕으로 더 좋은 목소리 AI 를 연구할 수 있게 되었습니다.

B. 목소리 섞임 방지 기술 1: "분리된 조리법" (Disentanglement)

기존에는 한 번의 녹음 (참고용) 으로 목소리 특징과 톤을 동시에 조절하려다 보니 섞이는 문제가 생겼습니다. 연구팀은 이를 두 개의 다른 녹음으로 분리했습니다.

  • 비유: 요리할 때 "재료 (목소리 특징)"와 "양념 (목소리 톤)"을 한 그릇에 다 넣지 않고, 재료는 A 그릇에서, 양념은 B 그릇에서 따로 준비해서 섞는 것입니다.
    • 방법: 같은 사람이 한 말 중, '목소리 특징'을 알려주는 녹음과 '원하는 톤'을 알려주는 녹음을 따로 떼어내어 AI 에게 학습시킵니다. 이렇게 하면 AI 는 원본의 '우울함' 같은 불필요한 특징을 섞지 않고, 우리가 지시한 '밝음'만 정확히 구현할 수 있게 됩니다.

C. 목소리 섞임 방지 기술 2: "참고 없는 조리법" (Reference-free)

더 나아가, 아예 참고할 녹음 파일 없이 숫자 지시만으로 목소리를 만드는 방법을 개발했습니다.

  • 비유: 요리사가 레시피 (참고 녹음) 를 보지 않고, 오직 "소금 3g, 설탕 2g" (숫자 지시) 만 보고도 완벽한 요리를 해내는 마법 같은 기술입니다.
    • 방법: AI 가 참고할 원본 파일 없이, 오직 우리가 입력한 "밝음 5 점, 차분함 3 점" 같은 숫자 값만으로 목소리를 생성합니다. 그래서 원본 파일의 특징이 섞일 여지가 아예 사라집니다.

3. 결과: 얼마나 잘되었나요?

연구팀은 이 방법들이 얼마나 효과적인지 실험해 보았습니다.

  • 정확도 향상: 우리가 원하는 목소리 톤과 AI 가 만들어낸 목소리의 차이가 크게 줄었습니다. (오차율이 0.61 에서 0.41 로 감소)
  • LLM(거대 언어 모델) 과의 비교: 최근 인기 있는 '텍스트로 지시하는' AI 와 비교했을 때, 우리 방법이 훨씬 더 정밀한 숫자 조절이 가능했고, 텍스트의 의미 (예: "화난 말투") 와 목소리 톤이 엉키는 현상도 막아냈습니다.
  • 음질 유지: 목소리 톤을 조절하더라도 원래 목소리의 자연스러움은 그대로 유지되었습니다.

요약

이 논문은 **"목소리를 원하는 대로 정밀하게 조절하고 싶다면, 원본 녹음 파일에 의존하지 말고, 목소리 특징과 톤을 분리해서 학습시키거나 아예 숫자 지시만으로 만들어라"**는 결론을 내렸습니다.

마치 목소리 조종사가 되어, "조금 더 밝게, 조금 더 젊게"라고 숫자로 지시하면 AI 가 그 지시대로 정확히 목소리를 변신시켜주는, 더 자유롭고 정교한 기술의 길을 연 것입니다.