StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"StyleBench"**라는 새로운 도구를 소개하며, 인공지능 (AI) 이 말을 할 때 얼마나 다양한 '분위기'와 '스타일'을 잘 조절할 수 있는지 테스트하는 방법을 제안합니다.

기존의 AI 는 주로 '글'을 잘 쓰거나 '의미'를 잘 이해하는 데 집중했다면, 최근의 AI 는 목소리까지 내면서 사람처럼 대화할 수 있게 되었습니다. 하지만 **"이 AI 가 화난 척을 얼마나 잘 할까?", "속도를 얼마나 잘 조절할까?"**를 측정할 수 있는 공정한 시험지가 없었습니다. 이 논문은 바로 그 공백을 메우기 위해 만들어졌습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "목소리는 있는데, 감정이 없는 로봇"

지금까지의 AI 음성 모델들은 사람과 대화할 때 **말의 내용 (의미)**만 잘 전달하면 됐습니다. 하지만 우리는 AI 에게 "기분 좋게 말해줘", "화난 척해줘", "속도를 빠르게 해줘"라고 요청할 때, 그 **분위기 (스타일)**까지 완벽하게 따라주길 원합니다.

그런데 현재 AI 들은 이 '분위기 조절'을 얼마나 잘하는지 알 수 있는 공식 시험지가 없었습니다. 마치 "연극 배우가 감정을 얼마나 잘 표현하는지"를 평가할 수 있는 기준이 없는 것과 같습니다.

2. 해결책: 'StyleBench'라는 새로운 시험지

저자들은 **'StyleBench'**라는 새로운 평가 시스템을 만들었습니다. 이 시스템은 AI 를 다음과 같은 4 가지 영역에서 시험합니다.

감정 (Emotion): 화남, 슬픔, 기쁨 등 감정을 얼마나 잘 표현하는가?
속도 (Speed): 말을 얼마나 빠르게 또는 느리게 하는가?
크기 (Volume): 목소리를 얼마나 크게 또는 작게 하는가?
높이 (Pitch): 목소리의 톤을 얼마나 높게 또는 낮게 하는가?

비유하자면:
이전까지 AI 는 '글쓰기 대회'만 치렀다면, StyleBench는 AI 를 **'목소리 연기 오디션'**에 참가시킵니다. AI 는 같은 대본을 가지고도 "화난 버전", "기쁜 버전", "속도 빠른 버전"으로 연기해야 합니다.

3. 시험 방법: 3 단계 대화 시나리오

이 시험은 단순히 한 번 말하고 끝나는 게 아닙니다. 3 단계에 걸친 대화로 진행됩니다.

1 단계 (중립): AI 가 평범하게 대답합니다. (예: "네, 알겠습니다.")
2 단계 (요청): 사용자가 "조금 더 기쁜 톤으로 말해줘"라고 요청합니다. AI 가 기쁜 톤으로 대답합니다.
3 단계 (강화): 사용자가 "아니, 더 더 기쁘게, 정말 행복하게 말해줘"라고 요청합니다. AI 가 그 기쁨의 강도를 더 높여야 합니다.

이 과정을 통해 AI 가 요청을 얼마나 잘 이해하고, 그 강도를 얼마나 잘 조절하는지를 측정합니다.

4. 시험 결과: 누가 이겼을까?

이 시험지를 가지고 10 개의 주요 AI 모델들을 테스트한 결과는 놀라웠습니다.

성공한 모델 (GLM-4-Voice, Kimi-Audio 등):
이 모델들은 사용자의 요청을 잘 듣고, 목소리의 감정과 강도를 정확하게 조절했습니다. 마치 실력 있는 연극 배우처럼 "화난 척"을 할 때는 진짜 화난 것처럼 보이고, "기쁜 척"을 할 때는 정말 행복해 보였습니다. 특히 'Kimi-Audio'는 거의 모든 감정에서 가장 좋은 성적을 냈습니다.
실패한 모델:
반면, 일부 모델들은 사용자의 요청을 무시하거나, 강도를 barely (아주 조금) 만 바꿨습니다. 마치 대본만 외운 로봇처럼, "기쁘게 말해"라고 해도 표정이 변하지 않고 똑같은 톤으로 말해버렸습니다.

5. 왜 이런 차이가 났을까? (원인 분석)

연구자들은 왜 어떤 AI 는 잘하고 어떤 AI 는 못 하는지 그 이유를 찾아냈습니다.

훈련 데이터의 차이:
잘하는 AI 들은 자연스러운 대화 데이터나 목소리 연기 데이터를 많이 학습했습니다. 반면, 못 하는 AI 들은 주로 '글을 읽거나' '질문에 답하는' 데이터만 학습해서, 목소리의 '감정'을 배우지 못했습니다.
- 비유: 연기를 배우지 않은 사람이 연극 무대에 올라간 것과 같습니다.
목소리 변환 기술 (Speech Tokenizers) 의 차이:
AI 가 소리를 만들어내는 방식도 중요했습니다. 잘하는 AI 들은 소리의 미세한 뉘앙스 (감정, 톤) 를 잘 기억하고 재현할 수 있는 '디지털 코드'를 사용했습니다. 못 하는 AI 들은 이 코드가 너무 단순해서 감정을 담을 공간이 부족했습니다.

6. 결론: 앞으로의 방향

이 논문의 핵심 메시지는 **"AI 가 사람처럼 대화하려면, 단순히 말을 잘하는 것을 넘어 목소리의 '스타일'과 '감정'을 조절하는 능력을 키워야 한다"**는 것입니다.

StyleBench는 앞으로 AI 개발자들이 자신의 모델이 얼마나 '감성적인 목소리'를 낼 수 있는지 객관적으로 확인하고, 더 발전시킬 수 있는 나침반이 될 것입니다.

한 줄 요약:

"이제 AI 도 연기를 해야 합니다! 'StyleBench'는 AI 가 목소리로 감정을 얼마나 잘 표현하는지 평가하는 새로운 '목소리 연기 오디션'입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 음성 언어 모델 (SLMs) 은 텍스트 기반 대형 언어 모델 (LLMs) 에 비음성 정보 (paralinguistic information) 를 추가하여 대화 능력을 확장했습니다. 현재 SLM 들은 사용자 프롬프트를 통해 대화 중 화법 스타일 (감정, 속도, 음량, 피치 등) 의 강도를 제어할 수 있습니다.
그러나 대화 상황에서 스타일 강도 (style intensity) 를 얼마나 정밀하게 제어하고 일관되게 유지하는지 평가할 수 있는 체계적인 벤치마크가 부재하다는 것이 핵심 문제입니다. 기존 연구들은 주로 단회 (single-turn) 대화나 감정 분류에 집중했으며, 다중 턴 (multi-turn) 대화에서 스타일 강도의 변화 (증가/감소) 를 정량적으로 측정하는 도구가 없었습니다.

2. 방법론 (Methodology)

A. StyleBench 데이터셋 구축

이 논문은 대화형 화법 스타일 제어 능력을 평가하기 위해 StyleBench라는 새로운 벤치마크를 제안했습니다.

구조: 3 턴 (3-turn) 다중 턴 QA(질문 - 답변) 대화로 구성됩니다.
- 1 턴: 중립적인 기준 (Neutral baseline) 답변.
- 2 턴 및 3 턴: 동일한 텍스트 내용을 유지하되, 사용자의 프롬프트에 따라 스타일 강도가 점진적으로 강화되거나 약화되는 방향으로 재합성됩니다.
평가 차원: 4 가지 주요 차원을 다룹니다.
1. 감정 (Emotion): 분노, 혐오, 두려움, 행복, 슬픔, 놀람.
2. 속도 (Speed)
3. 음량 (Volume)
4. 피치 (Pitch)
데이터 생성:
- 텍스트 콘텐츠는 자연스러운 대화 시나리오를 기반으로 생성되며, 감정 데이터의 경우 명시적인 감정 단어를 배제하여 자연스러움을 유지합니다.
- 음성 합성: CosyVoice2 를 사용하여 기본 음성을 생성합니다.
  - 감정: RAVDESS 데이터셋의 참조 오디오를 사용하여 다양한 감정 강도를 구현.
  - 속도/음량/피치: FFmpeg 를 사용하여 중립 음성에 후처리 (Post-processing) 를 적용하여 강도 변화를 구현.
- 데이터 규모: 총 14,400 개의 다중 턴 대화 (14.4K multi-turn QA dialogues) 로 구성되며, 영어와 중국어 (각각 4 명씩 총 8 명의 화자) 를 지원합니다.

B. 평가 지표 및 전략

SLM 의 성능을 평가하기 위해 3 단계 전략과 정량/정성 지표를 결합했습니다.

3 단계 평가 전략:
- 1 단계: 단회 대화에서의 지시 따르기 능력.
- 2 단계: 다중 턴 대화에서의 일관성 유지 능력.
- 3 단계: 화법 스타일 제어 능력 (본 논문의 핵심).
주요 평가 지표:
- 유효 샘플 비율 (VSP, Valid Sample Percentage): 프롬프트에 따라 모델이 의도된 스타일 변화를 명확하게 구현한 샘플의 비율.
- 스타일 변화도 (SVD, Style Variation Degree): 연속된 턴 간 스타일 점수 (속도, 음량, 피치) 의 절대적 백분율 차이 ( $\Delta$ ) 를 계산하여 강도 변화의 크기를 정량화.
- 의미적 관련성 (SRD/MRD): 질문과 답변의 의미적 일관성을 측정 (Qwen3-4B-Instruct 활용).
- 감정 평가: 자동 분류 모델의 신뢰도 한계로 인해, 인간 평가 (Human Evaluation) 를 통해 감정 강도 변화를 검증.

3. 주요 기여 (Key Contributions)

StyleBench 제안: 감정, 속도, 음량, 피치 4 차원에 걸친 14,400 개의 다중 턴 대화로 구성된 포괄적인 벤치마크를 최초로 제시.
전용 평가 툴킷 개발: 대화 턴 간 스타일 제어 능력과 변화 정도를 정량화하는 차원별 평가 도구 (VSP, SVD 등) 개발.
성능 격차 분석 및 통찰: 10 개의 오픈소스 SLM 과 OLM(omni-language models) 을 평가하여 성능 격차를 발견하고, 그 원인 (학습 데이터, 음성 토크나이저) 을 규명함.

4. 실험 결과 (Results)

10 개의 주요 SLM (Mini-omni, GLM-4-Voice, Kimi-Audio 등) 을 평가한 결과는 다음과 같습니다.

다중 턴 일관성 (MRD): 대부분의 대형 모델은 단회 대화 (SRD) 에서 높은 점수를 보였으나, 다중 턴 일관성 (MRD) 은 모델에 따라 크게 달랐습니다. (Qwen2.5-omni, GLM-4-Voice, Kimi-Audio 만 60% 이상 기록).
감정 제어 능력:
- Kimi-Audio가 모든 감정 카테고리에서 가장 높은 유효 샘플 비율 (VSP) 을 보였으나, 3 턴으로 갈수록 GLM-4-Voice 에게 밀리는 경향을 보임.
- LLaMA-omni2와 Baichuan-omni-1.5는 감정 조절 지시에 거의 반응하지 않음.
속도/음량/피치 제어:
- Kimi-Audio와 GLM-4-Voice가 타 모델 대비 월등히 높은 VSP 와 SVD 를 기록하여, 프롬프트에 따른 명확한 스타일 변화 구현 능력이 뛰어남을 입증.
- 다른 모델들은 유효한 응답을 생성하지 못하거나 스타일 변화가 미미함.

5. 성능 격차의 원인 분석 (Discussions)

성능 차이가 발생하는 주요 원인으로 두 가지 요인을 규명했습니다.

학습 데이터의 영향:
- 성능이 낮은 모델들은 주로 ASR(음성인식) 과 구두 질문 답변 (Spoken QA) 과 같은 전통적인 태스크에 최적화된 데이터로 학습됨.
- 반면, GLM-4-Voice는 비지도 음성 데이터를 결합하여 자연 대화에서 스타일 패턴을 학습했고, Kimi-Audio는 화법 스타일 제어를 강화하기 위해 특별히 설계된 데이터셋을 사용함.
음성 토크나이저 (Speech Tokenizer) 의 영향:
- 모델이 음향 정보를 표현하는 방식이 중요합니다.
- GLM-4-Voice는 자체적으로 학습된 토크나이저를 사용하여, 기존 토크나이저 (SpeechTokenizer, Whisper-large-v3 등) 보다 의미 정보와 음향 정보 (스타일 정보) 를 모두 더 잘 보존하는 것으로 확인됨. 이는 토크나이저가 스타일 변이를 포착하고 재생성하는 데 결정적인 역할을 함을 시사합니다.

6. 의의 및 결론 (Significance)

이 논문은 대화형 AI 의 자연스러운 상호작용을 위해 필수적인 '화법 스타일 제어' 능력을 체계적으로 평가할 수 있는 기준을 마련했습니다. StyleBench 를 통해 현재 최첨단 모델들 간의 성능 격차를 확인하고, 고품질 학습 데이터와 효율적인 음성 토크나이저가 스타일 제어 성능 향상의 핵심 요소임을 입증했습니다. 이는 향후 더 정교하고 인간과 유사한 대화형 음성 AI 를 개발하기 위한 중요한 방향성을 제시합니다.