AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"애니메이션 캐릭터처럼 들리는 목소리 (애니메 스타일)"를 어떻게 자동으로 평가하고 만들어낼 수 있을까?**라는 질문에 답하는 연구입니다.

기존에는 이걸 평가하려면 전문가들이 귀를 기울여 "음, 이 목소리가 더 애니 같네"라고 점수를 매겨야 했는데, 이 방법은 비용도 많이 들고 사람마다 기준이 달라서 일관성이 없었습니다. 이 연구팀은 이를 해결하기 위해 **새로운 도구 (AnimeScore)**와 데이터를 만들었습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "애니메 목소리"는 점수 매기기 어렵다

비유: "맛있는 음식"을 점수로 매기는 것
만약 "이 음식이 얼마나 맛있는가?"를 물어보면, 사람마다 "매운 게 좋다", "단 게 좋다" 기준이 달라서 10 점 만점에 7 점인지 8 점인지 정하기 어렵습니다. 특히 "애니메 같은 목소리"는 자연스러움 (자연스러운 말투) 과는 다릅니다. 자연스러움은 "인간처럼 들리는가?"라는 절대적인 기준이 있지만, "애니메 같음"은 어떤 특정한 분위기나 스타일이기 때문에 "10 점 만점에 몇 점?"이라고 절대적인 숫자로 매기기 매우 어렵습니다.

2. 해결책: "A 와 B 중 누가 더 애니메 같니?" (선택 게임)

연구팀은 절대 점수 대신 비교 게임을 도입했습니다.

기존 방식: "이 목소리에 7 점 주세요." (사람마다 7 점의 기준이 다름)
새로운 방식 (AnimeScore): "A 목소리와 B 목소리 중, 어느 쪽이 더 애니메이션 캐릭터처럼 들리나요?"라고 물어봅니다.

사람들은 절대적인 점수는 매기기 힘들어도, 두 가지 중 어떤 게 더 마음에 드는지는 훨씬 쉽게 판단할 수 있습니다. 연구팀은 187 명의 평가자에게 15,000 번의 이런 '비교 게임'을 시켰습니다.

3. 발견: "애니메 목소리"의 비밀은 '높은 목소리'가 아니다

많은 사람이 "애니메 목소리는 목소리가 높고 (High Pitch), 귀엽다"라고 생각합니다. 하지만 연구팀은 15,000 번의 비교 데이터를 분석해보니 그건 오해였다는 것을 발견했습니다.

비유: "요리사의 숨은 기술"
애니메 목소리가 단순히 '소리를 높게 지르는 것'이 아니라, 마치 요리사가 재료를 다듬고 양념을 조절하듯 목소리를 정교하게 다듬는다는 것입니다.

공명 (Resonance): 목소리의 울림을 특정하게 조절해서 더 풍부하게 만듭니다.
리듬 (Prosody): 말의 흐름을 끊기지 않고 매끄럽게 이어갑니다.
발음 (Articulation): 각 단어를 의도적으로 또박또박 발음하되, 흐름은 빠릅니다.

즉, "목소리를 높게만 내면 된다"는 단순한 공식은 통하지 않고, 복잡한 감정 표현과 정교한 발음 조절이 핵심이라는 것을 발견한 것입니다.

4. 결과: 컴퓨터가 인간보다 잘 구분한다

연구팀은 이 데이터를 바탕으로 두 가지 모델을 만들었습니다.

수동 규칙 모델 (손으로 만든 규칙):
- "목소리 높음, 발음 속도" 같은 수학적 지표를 직접 계산해서 판단하게 했습니다.
- 성적: 69.3% 정도만 맞추었습니다. (인간의 직감을 완벽하게 따라잡지 못함)
- 비유: "요리사가 재료를 저울로 재서 맛을 판단하려다 보니, 정작 중요한 '감칠맛'을 놓친 상태"입니다.
AI 학습 모델 (SSL 기반):
- 컴퓨터에게 15,000 번의 비교 데이터를 보여주고 스스로 배우게 했습니다.
- 성적: **90.8%**까지 맞추었습니다.
- 비유: "수천 번의 요리 시연을 본 '요리 천재 AI'가, 인간의 직관과 거의 똑같은 수준으로 '어느 요리가 더 맛있을지'를 맞춘 상태"입니다.

5. 왜 이 연구가 중요한가요?

이제 개발자들은 비싼 비용으로 사람을 모아서 목소리를 평가할 필요가 없습니다.

빠른 테스트: 새로 만든 AI 목소리가 "애니메 스타일"인지 아닌지, 이 점수 (AnimeScore) 로 바로 확인할 수 있습니다.
자동 학습: AI 가 스스로 "이 목소리가 더 애니메 같아!"라고 학습하며 더 좋은 목소리를 만들어낼 수 있는 나침반 (보상 신호) 역할을 합니다.

요약

이 논문은 **"애니메 같은 목소리"를 점수로 매기는 게 아니라, "어느 게 더 나은지 비교하는 게임"**으로 바꾸어 문제를 해결했습니다. 그리고 그 데이터를 통해 **"애니메 목소리는 단순히 목소리가 높은 게 아니라, 정교한 감정과 발음의 조화"**임을 발견했고, 이를 AI 가 90% 이상 정확하게 구분할 수 있게 만들었습니다. 이제부터는 AI 가 스스로 더 귀엽고 매력적인 목소리를 찾아낼 수 있는 길이 열린 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

현재의 한계: 애니메이션 스타일의 음성 (Anime-like voice) 을 평가하는 작업은 현재 비용이 많이 드는 주관적 평가 (Listening Test) 에 의존하고 있으며, 이를 객관적으로 측정할 수 있는 표준화된 지수 (Metric) 가 부재합니다.
근본적인 어려움: '자연스러움 (Naturalness)'이나 '가청성 (Intelligibility)'과 달리, '애니메이션 스타일'이라는 개념은 절대적인 수치 척도 (Absolute Scale) 를 공유하기 어렵습니다. 이는 기존의 평균 의견 점수 (MOS) 프로토콜이 신뢰할 수 없게 만드는 주된 원인입니다.
개발 병목: 스피치 생성 시스템 개발자들은 원하는 스타일을 달성했는지 확인하기 위해 반복적이고 비용이 큰 청취 테스트를 수행해야 하므로, 개발 속도가 저해됩니다.

2. 제안 방법론 (Methodology)

저자들은 이러한 격차를 해소하기 위해 AnimeScore라는 선호도 기반 (Preference-based) 프레임워크를 제안했습니다. 이 프레임워크는 대규모 데이터 구축과 자동 스타일 예측을 쌍대 순위 (Pairwise Ranking) 를 통해 통합적으로 다룹니다.

2.1. 데이터 수집 및 전처리

데이터 소스: 애니메이션 음성 (Anim-400k), 일반 TV 프로그램/일상 대화 (ReazonSpeech), 유튜브 다양한 화법 (Coco-Nut) 등 여러 공개 코퍼스를 활용했습니다.
편향 제거 (Bias Mitigation):
- 언어적 편향 제거: 텍스트가 애니메이션 대본인지 여부를 Qwen3-30B-Instruct 모델로 평가하여, 평가자가 음성이 아닌 텍스트 내용만으로 판단하는 것을 방지했습니다.
- 품질 필터링: 음성 향상 모델 (Sidon), ASR 오류율 (CER), 지속 시간 (2~10 초), UTMOS 점수 등을 기준으로 저품질 샘플을 제거했습니다.
- 화자 매칭: ECAPA-TDNN 임베딩을 사용하여 화자 특성의 분포를 균일하게 맞추고, 특정 화자 군집이 평가 세트를 지배하지 않도록 샘플링했습니다.
쌍대 비교 (A/B Pairing): 텍스트 유사도와 화자 유사도를 기반으로 후보를 선별하여, 교차 코퍼스 (Cross-corpus) 대비를 강조하는 15,000 개의 쌍대 비교 데이터를 구성했습니다.

2.2. 주관적 평가 및 라벨링

평가 프로토콜: 187 명의 평가자가 15,000 개의 A/B 쌍에 대해 "어떤 음성이 더 애니메이션 스타일인가?"를 선택하도록 했습니다. 절대 점수 대신 상대적 선호도를 수집하여 일관성을 확보했습니다.
자유형 피드백: 평가자는 선택 이유에 대한 자유형 설명을 작성했으며, 이를 LLM(Gemini 3 Pro) 을 통해 감정적 명시성, 음색 차이, 운율적 중요도, 발음 명확성, 시간적 제어 등 5 가지 주요 차원으로 분류했습니다.

2.3. 모델 아키텍처

SSL 기반 순위 모델: 입력 오디오를 고정된 (Frozen) 자기지도학습 (SSL) 인코더 (HuBERT, WavLM 등) 를 통과시켜 프레임 단위 특징을 추출합니다.
처리 파이프라인: 추출된 특징은 BiLSTM 을 거쳐 평균 풀링 (Mean Pooling) 되고, MLP 를 통해 단일 스코어로 매핑됩니다.
학습 목표: 쌍대 순위 손실 (Pairwise Logistic Loss, $-\log \sigma(s_a - s_b)$ ) 을 최소화하여 인간 평가자의 비교 판단을 모방하도록 학습합니다.

3. 주요 기여 및 발견 (Key Contributions & Findings)

3.1. 애니메이션 스타일의 음향적 특성 규명

전통적인 "높은 피치 (High Pitch)"라는 편견과 달리, 분석 결과 애니메이션 스타일은 다음과 같은 복합적 요소에 의해 결정됨이 밝혀졌습니다:

제어된 공명 형성 (Controlled Resonance Shaping): 선호되는 음성은 오히려 낮은 포먼트 (Formant) 주파수 분포를 보이며, 단순한 고음역대 상승이 아닌 더 풍부한 음색을 위한 공명 조절이 중요합니다.
운율적 연속성 (Prosodic Continuity): 평균 피치 (Mean F0) 보다는 **음성화 비율 (Voicing Ratio)**과 **스펙트럼 플럭스 (Spectral Flux)**가 높을수록 선호됩니다. 즉, 끊김 없는 에너지 흐름이 중요합니다.
의도적인 발음 (Deliberate Articulation): 음절 속도 (Syllable Rate) 는 빠르지만, 발음 시간당 음절 수 (Articulation Rate) 는 낮아, 빠른 흐름 속에서도 개별 음절의 의도적인 발음이 이루어지는 역설적 전략을 보입니다.

3.2. 성능 한계 및 모델 비교

수동 음향 특징 (Handcrafted Features): 11 가지 음향 특징을 조합한 로지스틱 회귀 모델은 **AUC 69.3%**의 성능 한계 (Ceiling) 를 보였습니다. 이는 수동 특징만으로는 애니메이션 스타일의 복잡성을 포착하기 어렵다는 것을 의미합니다.
SSL 기반 모델: 자기지도학습 (SSL) 표현을 활용한 순위 모델은 훨씬 뛰어난 성능을 보였습니다.
- HuBERT: AUC 90.8% 달성 (최고 성능).
- WavLM: AUC 89.4%.
- wav2vec 2.0: AUC 82.5%.
- 결론: 마스킹 예측 (Masked Prediction) 기반 모델 (HuBERT, WavLM) 이 운율, 비언어적 정보, 화자 특성을 더 잘 인코딩하여 애니메이션 스타일 평가에 유리함이 입증되었습니다.

4. 결과 및 의의 (Results & Significance)

실용적 평가 지표: AnimeScore 는 인간 평가자 없이도 생성된 스피치 모델의 애니메이션 스타일 적합성을 신속하게 스크리닝할 수 있는 객관적 지표를 제공합니다.
RLHF 를 위한 보상 신호: 이 모델의 예측 점수는 강화학습 (RLHF) 의 보상 신호 (Reward Signal) 로 활용되어, 생성형 스피치 모델을 특정 애니메이션 스타일로 최적화하는 데 직접적으로 사용될 수 있습니다.
데이터 및 코드 공개: 수집된 15,000 개의 쌍대 선호도 데이터, 메타데이터, 그리고 모델 구현 코드가 공개되어 향후 연구의 기반을 마련했습니다.

5. 결론

이 논문은 애니메이션 스타일 음성 평가의 객관적 기준 부재를 해결하기 위해, 대규모 선호도 데이터셋과 SSL 기반 예측 모델을 제안했습니다. 연구는 애니메이션 스타일이 단순한 피치 높이가 아니라 공명, 운율, 발음의 정교한 조합임을 증명했으며, 수동 특징 기반 접근법의 한계를 넘어 SSL 표현 학습이 이 영역에서 필수적임을 보여주었습니다. 이는 향후 고품질 애니메이션 음성 생성 시스템 개발의 핵심 인프라로 작용할 것으로 기대됩니다.