TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

이 논문은 기존 평가 지표들의 한계를 극복하고 인간 수준의 텍스트 음성 변환 (TTS) 시스템을 평가하기 위해 TTSDS2 지표를 제안하고, 11,000 개 이상의 주관적 평가 데이터와 다국어 벤치마크 등 관련 리소스를 공개합니다.

Christoph Minixhofer, Ondrej Klejch, Peter Bell

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "인공지능이 만든 목소리가 진짜 사람의 목소리와 얼마나 닮았는지, 그리고 그 품질을 어떻게 정확하게 측정할 수 있는지" 에 대한 연구입니다.

기존의 방식은 사람이 귀를 기울여 "이 목소리가 얼마나 자연스러울까?"라고 점수를 매기는 방식 (MOS) 이었는데, 이는 비용도 많이 들고 사람마다 기준이 달라서 비교하기 어렵다는 문제가 있었습니다. 이 논문은 그 문제를 해결하기 위해 새로운 측정 도구 (TTSDS2) 를 개발하고, 14 개 언어에 걸친 대규모 평가 기준을 제시했습니다.

이 내용을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 문제 상황: "맛있는 음식"을 평가하는 두 가지 방법

과거에는 AI 가 만든 목소리 (음성 합성) 의 품질을 평가할 때, 전문 미식가 (사람 평가자) 를 불러와서 직접 맛을 보고 점수를 매기게 했습니다.

  • 단점: 미식가를 구하기 어렵고, 비용이 비싸며, 미식가마다 "맛있다"는 기준이 달라서 A 가 10 점, B 가 8 점이라고 해도 그 점수가 절대적이지 않습니다.
  • 새로운 시도: 최근에는 "이 음식의 조리법이나 재료 배합을 분석해서 점수를 내는 자동 측정기 (객관적 지표)"를 쓰려고 했습니다. 하지만 기존 측정기들은 AI 가 만든 목소리가 진짜와 너무 비슷해지자, "이게 진짜인지 가짜인지" 구분을 못 하거나, 사람과 전혀 다른 점수를 매기는 경우가 많았습니다.

2. 해결책: TTSDS2 (새로운 '정밀 체질 분석기')

저자들은 이 문제를 해결하기 위해 TTSDS2라는 새로운 측정기를 만들었습니다. 이 장치는 단순히 한 번의 소리를 듣는 게 아니라, **수천 개의 목소리 데이터 전체의 '분포 (패턴)'**를 비교합니다.

이를 비유하자면 다음과 같습니다:

  • 기존 측정기: "이 한 그릇의 국물이 짜지?"라고 물어보는 것.
  • TTSDS2: "이 식당에서 나오는 모든 국물의 맛, 향, 온도, 식감의 전체적인 패턴이 진짜 인간이 만든 식당의 패턴과 얼마나 일치하는지"를 통계적으로 분석하는 것입니다.

TTSDS2 의 특징 (4 가지 체크리스트):
이 장치는 목소리를 4 가지 측면에서 분석합니다.

  1. 일반적인 느낌 (Generic): 전체적인 소리의 질감.
  2. 화자 정체성 (Speaker): "이 목소리가 진짜 그 사람의 목소리일까?" (얼굴 인식이 아니라 목소리 지문).
  3. 리듬과 억양 (Prosody): 말의 빠르기, 높낮이, 멈춤의 자연스러움.
  4. 이해 가능성 (Intelligibility): 말소리가 얼마나 또렷하게 들리는지.

이 4 가지를 종합해서 0~100 점으로 매기는데, 16 가지 다른 측정기 중 유일하게 모든 상황 (책 읽는 소리, 시끄러운 거리 소리, 아이들의 목소리 등) 에서 사람의 평가와 가장 높은 일치율을 보였습니다.

3. 실험실: "14 개 언어의 거대한 목소리 도서관"

이 연구의 가장 큰 성과는 단순히 측정기를 만든 것을 넘어, 전 세계 14 개 언어에 대한 평가 기준을 세웠다는 점입니다.

  • 자동화된 도서관: 연구팀은 유튜브에서 매일 새로운 영상 (인터뷰, 뉴스, 팟캐스트 등) 을 자동으로 수집해서 "실제 사람의 목소리 데이터"를 만듭니다.
  • 왜 필요한가? AI 모델이 훈련할 때 사용한 데이터와 평가할 때 쓰는 데이터가 겹치면 (데이터 유출), AI 가 시험 문제를 미리 보고 답을 외운 것처럼 점수가 잘못 나옵니다. 그래서 매번 새로운 데이터를 자동으로 만들어내는 파이프라인을 구축했습니다.
  • 결과: 이 파이프라인을 통해 20 개의 최신 AI 음성 모델들을 14 개 언어로 평가했고, 어떤 모델이 진짜 사람 목소리에 가장 가까운지 순위표를 만들었습니다.

4. 결론: 왜 이 연구가 중요한가?

이 연구는 "AI 목소리가 얼마나 발전했는지" 를 객관적으로 증명하는 나침반이 되었습니다.

  • 긍정적 측면: 목소리를 잃은 환자를 위해 더 자연스러운 보조 기기를 만들거나, 장애가 있는 사람들을 돕는 기술 개발에 정확한 기준을 제공합니다.
  • 부정적 측면 (위험): AI 가 만든 가짜 목소리 (딥페이크) 가 너무 잘 만들어져서 사기나 신원 도용에 쓰일 수 있다는 위험도 있습니다. 하지만 이 연구는 "어떤 AI 가 얼마나 현실적인 목소리를 낼 수 있는지" 를 정확히 측정함으로써, 그 위험을 감지하고 대비하는 데 도움을 줍니다.

한 줄 요약:

"이 논문은 AI 가 만든 목소리가 진짜인지 가짜인지, 그리고 얼마나 훌륭한지 **사람이 직접 귀를 기울이지 않아도 정확하게 측정할 수 있는 새로운 '스마트 체질 분석기 (TTSDS2)'**를 개발하고, 전 세계 14 개 언어로 그 성능을 검증한 획기적인 연구입니다."