Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"목소리의 특징은 그대로 유지하면서, 억양 (Accent) 만은 없애주는 새로운 기술"**에 대한 연구입니다.

기존의 '제로샷 (Zero-shot) TTS' 기술은 녹음된 목소리를 듣고 그 사람의 목소리 톤과 억양을 그대로 따라 하는 데는 탁월했습니다. 하지만 문제는 **"목소리는 그 사람의 것인데, 왜 외국어 억양까지 따라 하는가?"**였습니다. 예를 들어, 한국인이 영어를 할 때의 독특한 억양을 가진 목소리를 녹음해서 TTS 에 넣으면,生成的된 목소리는 그 사람의 고유한 목소리 톤은 유지하되, 한국인 특유의 억양까지 그대로 가져옵니다.

이 연구는 **"목소리는 그대로 두고, 억양만 '중립 (Neutral)'으로 바꾸는 마법"**을 개발했습니다.

🎨 핵심 비유: "목소리 페인트와 억양 필터"

이 기술의 원리를 쉽게 이해하기 위해 두 가지 비유를 들어보겠습니다.

1. 그림을 그리는 화가 (TTS 모델)

기존의 TTS 모델은 그림을 그릴 때, 참고 사진 (녹음된 목소리) 을 보면 **색상 (목소리 톤)**과 **화풍 (억양)**을 동시에 따라 그리는 화가였습니다.

참고 사진이 "한국인 화가"라면, 그림은 한국인 특유의 화풍 (억양) 을 그대로 가져옵니다.

2. 새로운 도구: "억양 지우개 (Activation Steering)"

이 논문에서 개발한 기술은 화가에게 **"색상은 그대로 두되, 화풍만 중립적인 서양식 화풍으로 바꿔줘"**라고 지시하는 **특별한 지우개 (Steering Vector)**를 주는 것과 같습니다.

어떻게 작동할까요?
- 연구진은 먼저 AI 가 "한국인 억양으로 말하는 상태"와 "미국식 중립 억양으로 말하는 상태"에서 뇌 (내부 신경망) 가 어떻게 다른지 관찰했습니다.
- 두 상태의 차이점을 수학적으로 계산해서 **"억양 벡터 (Steering Vector)"**라는 지도를 만들었습니다. 이 지도는 "여기서 이 방향으로 가면 억양이 사라진다"는 것을 알려줍니다.
- 실제 목소리를 만들 때, AI 가 그림을 그리는 중간 과정에 이 지도를 살짝 적용하면, AI 는 "아, 이쪽으로 살짝만 기울이면 억양이 사라지겠구나"라고 생각하며 중립적인 억양으로 목소리를 만들어냅니다.

🚀 이 기술이 왜 특별한가요?

재교육 불필요 (Training-Free):
기존에는 억양을 없애려면 AI 모델을 처음부터 다시 가르치거나 (학습), 복잡한 추가 장치를 달아야 했습니다. 하지만 이 방법은 이미 만들어진 AI 모델의 내부 작동 방식을 살짝만 조정하는 것이기 때문에, 별도의 학습 없이 바로 적용할 수 있습니다. 마치 스마트폰에 새로운 필터를 바로 적용하는 것과 비슷합니다.
목소리는 그대로 (Timbre-Preserving):
억양만 지우려고 목소리 톤까지 망가뜨리지 않습니다. 마치 소금기만 제거한 국물처럼, 그 사람의 고유한 목소리 맛 (톤) 은 그대로 유지하면서, 불필요한 억양이라는 '소금기'만 덜어냅니다.
누구나 적용 가능 (Generalizability):
이 기술은 특정 사람만 대상으로 한 것이 아닙니다. 연구진이 보지 못한 새로운 외국인의 목소리에도 적용했을 때, 억양을 잘 없애주었습니다. 이는 이 기술이 특정 사람의 목소리가 아니라, '억양'이라는 개념 자체를 이해하고 지우기 때문입니다.

📊 실험 결과 (간단 요약)

연구진은 최신 AI 모델 (Qwen3-TTS) 을 이용해 실험했습니다.

결과: 한국인 억양 (EN CN) 을 가진 목소리를 입력했을 때, 이 기술을 적용하면 미국식 중립 억양 (EN US) 으로 바뀐 것으로 판별되었습니다.
목소리 유사도: 억양이 바뀌어도 목소리 주인이 누구인지는 80% 이상 유지되었습니다.
자연스러움: 억양이 사라지면서 오히려 발음이 더 명확해져서, AI 가 만든 소리가 더 자연스럽게 들리기도 했습니다.

💡 결론

이 논문은 "목소리의 정체성은 유지하되, 언어적 장벽인 억양만 허물어뜨리는" 혁신적인 방법을 제시했습니다.

미래에는 외국어 학습자가 자신의 목소리로 중립적인 억양의 영어를 연습하거나, 애니메이션 캐릭터에게 특정 지역의 억양 없이 순수한 목소리 톤만 부여하는 등 다양한 분야에서 활용될 수 있을 것입니다. 마치 목소리라는 옷은 그대로 입고, 억양이라는 모자만 바꿔 쓰는 것과 같은 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

제로샷 TTS 의 한계: 최근 제로샷 텍스트 - 음성 합성 (TTS) 모델은 참조 화자의 음색 (timbre) 과 억양 (accent) 을 모두 포착하여 음성을 생성할 수 있습니다. 그러나 음색과 억양을 분리하여 제어하는 것은 여전히 어려운 과제입니다.
구체적 문제: 참조 음성이 특정 억양 (예: 중국어 억양이 섞인 영어) 을 가지고 있을 경우, 생성된 음성도 해당 억양을 그대로 물려받는 경향이 있습니다.
목표: 화자의 고유한 음색은 유지하되, 억양은 중립화 (Neutralization) 하여 억양이 없는 (Accent-free) 음성을 생성하는 것입니다. 이는 억양 변환 (Accent Conversion) 모델 학습, 제 2 언어 학습자를 위한 발음 교정 피드백 등 다양한 응용 분야에서 실용적입니다.

2. 제안 방법론 (Methodology)

저자들은 학습이 필요 없는 (Training-free) 사후 (Post-hoc) 활성화 조종 (Activation Steering) 기법을 제안합니다.

가. 핵심 아이디어

신경망의 내부 활성화 (Internal Activations) 를 수정하여 특정 모델 행동 (이 경우 억양) 을 제어합니다.
TTS 모델의 활성화 공간에서 '강조된 (Accented)' 표현과 '중립적인 (Neutral)' 표현 사이의 선형 방향을 찾아내어, 이를 역으로 적용함으로써 억양을 제거합니다.

나. 스티어링 벡터 추출 (Steering Vector Extraction)

데이터 구성: ARCTIC(미국 원어민) 과 L2-ARCTIC(중국어 화자의 영어) 데이터를 사용하여 대조적인 억양 조건을 만듭니다.
벡터 계산:
- 동일한 텍스트를 대상으로 '강조된' 참조 음성 (L2 화자) 과 '중립적인' 참조 음성 (원어민) 을 모델에 입력합니다.
- 생성된 토큰에 대한 각 Transformer 레이어의 평균 활성화 값을 계산합니다.
- 스티어링 벡터 ( $v_l$ ) 는 두 조건의 평균 활성화 차이로 정의됩니다:
  $v_l = \text{Mean}(a_{\text{accented}}) - \text{Mean}(a_{\text{neutral}})$
- 이 벡터는 중립 표현을 강조 표현으로 이동시키는 방향을 나타냅니다.
데이터 증강 (Data Augmentation): 억양과 화자 정체성이 얽혀있는 (Entangled) 문제를 해결하기 위해, 참조 음성 파형에 포먼트 주파수, 기본 주파수 (F0), 주파수 셰이핑 이퀄라이저 등을 무작위로 변형하는 증강 기법을 적용합니다. 이를 통해 스티어링 벡터가 억양 정보에 더 집중하도록 유도합니다.

다. 추론 시 적용 (Inference-Time Steering)

생성 단계에서 모델의 특정 레이어 활성화 ( $a_l^t$ ) 에 스티어링 벡터를 적용하여 억양을 중립화합니다.
수식: $a_l^t \leftarrow (a_l^t - \alpha \cdot v_l) \cdot \frac{\|a_l^t\|_2}{\|a_l^t - \alpha \cdot v_l\|_2}$ $a_{l}^{t} \leftarrow (a_{l}^{t} - α \cdot v_{l}) \cdot \frac{∥ a _{l}^{t} ∥ _{2}}{∥ a _{l}^{t} - α \cdot v _{l} ∥ _{2}}$
- $\alpha$ : 조종 강도 (Steering strength) 하이퍼파라미터.
- 정규화: 원래 활성화의 노름 (Norm) 을 유지하여 화자 음색이 과도하게 변하는 것을 방지합니다.
단일 레이어 조종: 모든 레이어가 아닌, 특정 레이어 (예: 15 층) 만을 대상으로 조종을 수행하여 효율성을 높입니다.

3. 주요 실험 및 결과 (Results)

모델: 최신 LLM 기반 제로샷 TTS 모델인 Qwen3-TTS (0.6B, 1.7B 파라미터) 를 사용하여 실험했습니다.
평가 데이터셋: L2-ARCTIC (학습 데이터와 유사한 도메인) 과 speechocean762 (분포 외 데이터, OOD).
주요 성과:
1. 억양 중화 효과: 스티어링을 적용한 모델은 참조 음성의 억양 (예: 중국어 억양) 을 크게 줄이고 중립적인 억양 (미국 영어) 으로 변환하는 데 성공했습니다. (AMR-CN 감소, AMR-US 증가)
2. 화자 유사도 유지: 억양이 제거되더라도 화자 음색 (Spk Sim) 은 상당 부분 유지되었습니다. 다만, 억양 제거와 음색 유지 사이에는 약간의 트레이드오프가 존재합니다.
3. 일반화 능력: 학습에 사용되지 않은 새로운 화자 (speechocean762) 에 대해서도 스티어링 벡터가 효과적으로 작동하여 억양을 중화시켰습니다. 이는 벡터가 모델 활성화 공간 내의 '보편적인 억양 중화 방향'을 포착했음을 의미합니다.
4. 가독성 및 자연스러움: 억양이 제거되면서 발음 오류가 줄어들어 WER(단어 오류율) 가 크게 개선되었습니다. UTMOS(자연스러움 점수) 는 유지되거나 오히려 향상되었습니다.
5. 레이어별 분석: 중간 레이어 (15 층, 20 층 등) 를 조종하는 것이 억양 중화와 음색 유지 사이의 가장 균형을 잘 잡은 결과를 보여주었습니다. 초기나 최상위 레이어를 조종하면 자연스러움이 떨어지거나 추론 실패 (ISR 감소) 가 발생할 수 있습니다.

4. 주요 기여 (Key Contributions)

새로운 접근법: 제로샷 TTS 에서 억양을 중립화하면서 음색을 보존하기 위한 학습이 필요 없는 (Training-free) 사후 처리 기법을 최초로 제안했습니다.
효율성: 외부 분류기나 추가적인 학습 없이, 추론 단계에서 한 번의 디코딩 패스만으로 스티어링 벡터를 적용하여 실시간 응용에 적합합니다.
데이터 증강 전략: 억양과 화자 정체성의 얽힘을 해결하기 위한 파형 변형 기반의 데이터 증강 기법을 도입하여 스티어링 벡터의 순도를 높였습니다.
실용적 검증: 다양한 모델 크기와 도메인 (L2 화자, 다양한 영어 실력) 에서의 실험을 통해 방법론의 유효성과 일반화 능력을 입증했습니다.

5. 의의 및 결론 (Significance)

이 연구는 생성형 AI 모델의 내부 표현을 제어하여 특정 속성 (억양) 만을 정밀하게 조작할 수 있음을 보여주었습니다. 특히, 음색은 유지하되 억양만 제거하는 기술은 제 2 언어 학습자의 발음 교정, 다국어 지원 TTS 시스템, 그리고 다양한 억양을 가진 화자들을 위한 보편적인 음성 인터페이스 구축에 중요한 기여를 할 것으로 기대됩니다. 또한, 복잡한 모델 재학습 없이 기존 모델을 즉시 개선할 수 있는 경량화된 솔루션을 제공한다는 점에서 실용적 가치가 매우 높습니다.