Each language version is independently generated for its own context, not a direct translation.

🎙️ WAND: "창문"을 열어 TTS 의 무거운 짐을 가볍게 만든 기술

이 논문은 **"WAND"**라는 새로운 기술을 소개합니다. WAND 는 **Windowed Attention(창문형 주의)**과 **Knowledge Distillation(지식 증류)**의 약자입니다.

쉽게 말해, **"기존의 TTS(텍스트를 음성으로 바꾸는 AI) 는 너무 무겁고 느려서 긴 글을 읽을 때 메모리가 터지거나 속도가 느려지는데, WAND 는 이 문제를 해결해서 가볍고 빠르게, 그리고 긴 글도 끊김 없이 읽을 수 있게 만든 방법"**입니다.

이 복잡한 기술을 일상적인 비유로 설명해 드릴게요.

1. 문제점: "모든 것을 기억하려는 AI 의 버릇"

기존의 최신 TTS AI 들은 글을 읽을 때, 지금까지 읽은 모든 단어와 들은 모든 소리를 한 번에 기억하며 다음 말을 만들어냅니다.

비유: Imagine(상상해 보세요) 100 페이지짜리 책을 읽는 학생이 있다고 가정해 봅시다.
- 이 학생은 1 페이지를 읽을 때, 1 페이지만 기억하면 됩니다.
- 하지만 100 페이지를 읽을 때는 1 페이지부터 99 페이지까지의 내용을 모두 책상 위에 펼쳐놓고 ("메모리 사용"), 그걸 다 비교하며 100 페이지를 읽어야 합니다.
- 책이 길어질수록 책상 (메모리) 은 점점 더 커져야 하고, 모든 페이지를 다시 확인하는 데 시간이 걸려서 (지연 시간) 읽는 속도가 매우 느려집니다.

이게 바로 기존 TTS 모델의 문제입니다. 글이 길어질수록 메모리 사용량과 계산량이 기하급수적으로 늘어납니다.

2. 해결책: WAND 의 두 가지 전략

WAND 는 이 문제를 해결하기 위해 두 가지 똑똑한 방법을 썼습니다.

① 창문형 주의 (Windowed Attention): "과거는 잊고, 현재에 집중하자"

WAND 는 AI 가 기억해야 할 것을 두 가지로 나눕니다.

영구적인 기억 (글로벌 주의): "누구의 목소리로", "무슨 감정으로", "무슨 내용을" 말하는지 같은 핵심 정보는 계속 기억합니다. (책상 위에 놓인 책의 제목과 목차만 남김)
창문형 기억 (로컬 슬라이딩 윈도우): 실제 말하는 소리의 흐름은 아주 최근의 몇 초 (예: 32 개의 토큰) 만 기억합니다. (책상 위에는 지금 읽고 있는 3~4 페이지만 펼쳐놓고, 그 이전 페이지는 치워버림)

비유: 창문을 생각하세요.
- 우리는 창문 밖의 풍경 (과거의 모든 소리) 을 다 볼 필요는 없습니다.
- 지금 내 바로 앞 (최근 3 초) 에 있는 풍경만 보면 소리의 흐름을 자연스럽게 이어갈 수 있습니다.
- 창문 크기 (W) 를 고정해 두면, 글을 아무리 길게 읽어도 책상 (메모리) 의 크기는 변하지 않습니다.

② 지식 증류 (Knowledge Distillation): "스승의 노하우를 배우는 학생"

그런데 갑자기 "과거를 다 기억하지 마!"라고 하면 AI 는 당황해서 실수를 할 수 있습니다. (소리가 뚝 끊기거나 이상해짐)

그래서 WAND 는 **완벽하게 기억하는 '스승 모델' (기존 무거운 AI)**을 두고, **'학생 모델' (가벼운 WAND)**을 가르칩니다.

비유: 요리 실습을 생각하세요.
- 스승: 모든 재료를 다 보고 완벽한 요리를 만듭니다.
- 학생: 재료를 일부만 보고 요리해야 하지만, 스승이 만든 요리의 맛과 향을 기억하도록 훈련받습니다.
- 이 과정에서 학생은 "아, 과거의 모든 재료를 다 볼 필요는 없구나, 이 정도만 봐도 스승의 맛을 낼 수 있구나"를 배웁니다.

이렇게 하면 적은 데이터로도 스승과 거의 똑같은 품질을 내면서도, 메모리는 훨씬 적게 쓰게 됩니다.

3. 결과: 얼마나 좋아졌나요?

이 기술을 적용한 결과 놀라운 변화가 있었습니다.

메모리 폭탄 해결: 긴 글을 읽을 때 필요한 메모리가 최대 66.2% 줄었습니다. (예: 38MB 가 13MB 로 줄어든 것)
속도 향상: 글이 길어질수록 느려지던 속도가 일정하게 유지됩니다. 긴 소설을 읽어도 마지막 페이지에서 속도가 떨어지지 않습니다.
품질 유지: 소리의 자연스러움은 그대로 유지되면서, 오히려 과거의 소음 (오류) 이 쌓여 발생하는 문제를 막아 더 깨끗한 소리를 내기도 합니다.
언어 확장: 영어로만 훈련했는데도, 중국어를 읽을 때도 거의 실수 없이 잘 읽었습니다. (창문 원리는 언어에 상관없이 통하는 보편적인 법칙이기 때문입니다.)

4. 요약: 왜 이것이 중요한가요?

지금까지 AI 가 긴 이야기를 읽어주려면 고가의 서버나 많은 메모리가 필요했습니다. 하지만 WAND는 "창문"을 열어 과거의 불필요한 기억을 버리고, 핵심만 기억하게 함으로써 다음과 같은 미래를 가능하게 합니다.

무한한 길이: 책 한 권, 영화 대본, 긴 강의록을 끊김 없이 읽어줄 수 있습니다.
가벼운 실행: 스마트폰이나 개인용 컴퓨터에서도 고화질 TTS 를 실시간으로 구동할 수 있습니다.
지속 가능한 발전: 하드웨어의 한계 없이 계속 발전할 수 있는 길을 열었습니다.

한 줄 요약:

"WAND 는 AI 가 긴 글을 읽을 때 '과거의 모든 것을 기억'하는 버릇을 고쳐, '최근 몇 초만 기억'하는 창문 방식을 도입함으로써, 메모리 폭탄을 해결하고 끊김 없는 자연스러운 음성 합성을 가능하게 한 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 Transformer 기반의 대규모 언어 모델 (LLM) 을 백본으로 사용하는 자동회귀형 텍스트 - 음성 변환 (AR-TTS) 모델은 높은 충실도의 음성을 생성하지만, 다음과 같은 심각한 확장성 한계를 가지고 있습니다.

이차적 복잡도 (Quadratic Complexity): 전체 시퀀스 길이에 비례하여 메모리 사용량과 계산 비용이 이차적으로 증가합니다. 이는 완전한 자기 주의 (Full Self-Attention) 메커니즘 때문입니다.
KV 캐시 메모리 병목: 추론 시 생성된 토큰마다 키 - 값 (KV) 캐시가 누적되어 메모리 사용량이 선형적으로 증가합니다. 이로 인해 긴 문장의 음성 생성이 어렵고, 실시간 응용 프로그램 배포에 제약이 발생합니다.
기존 해결책의 한계:
- 모델 깊이 축소 (Pruning): 여전히 남은 레이어에서 이차적 계산 비용이 발생합니다.
- 선형 주의 메커니즘 (Linear Attention/Mamba): 처음부터 학습해야 하며, 기존 AR-TTS 모델에 비해 음성 품질과 억양 자연스러움이 떨어집니다.
- 추측적 디코딩 (Speculative Decoding): 속도는 개선되지만 근본적인 메모리 확장 문제는 해결하지 못합니다.

2. 제안 방법론 (Methodology: WAND)

저자들은 AR-TTS 모델이 전체 시퀀스 주의를 필요로 하지 않으며, 조건부 토큰 (Conditioning Tokens) 과 생성된 음성 토큰 (Generated Tokens) 에 대해 서로 다른 주의 메커니즘이 필요하다고 가정합니다. 이를 기반으로 WAND (Windowed Attention and Knowledge Distillation) 프레임워크를 제안했습니다.

A. 이중 주의 메커니즘 (Dual Attention Mechanism)

주의 메커니즘을 두 가지로 분할하여 상수 시간/메모리 복잡도 ( $O(1)$ ) 를 달성합니다.

글로벌 주의 (Global Attention): 시스템 프롬프트, 대상 텍스트, 참조 오디오 등 조건부 토큰에 대해 영구적 (Persistent) 으로 접근합니다. 이는 화자 정체성과 전반적인 컨텍스트를 유지합니다.
로컬 슬라이딩 윈도우 주의 (Local Sliding-Window Attention): 생성된 음성 토큰에 대해서는 고정된 크기 ( $W$ ) 의 윈도우 내에서만 최근 토큰들을 참조합니다. 음성 신호는 국소적으로 일관성이 있으므로 먼 과거 토큰의 영향은 제한적입니다.

B. 지식 증류 (Knowledge Distillation)

전체 주의 (Full-Attention) 로 학습된 'Teacher' 모델에서 'Student' 모델 (윈도우 제한 모델) 로 지식을 전달하여 성능 저하를 보완합니다.

교차 엔트로피 손실 ( $L_{CE}$ ): 정답 음성 토큰에 대한 기본 정렬을 보장합니다.
왜곡된 KL 발산 손실 ( $L_{KL}$ ): Teacher 모델의 토큰 확률 분포를 Student 모델이 모방하도록 하여, 긴 범위의 컨텍스트가 제거된 상황에서도 일관성을 유지합니다.

C. 커리큘럼 학습 전략 (Curriculum Scheduling)

학습 안정화를 위해 윈도우 크기를 점진적으로 축소합니다.

초기에는 큰 윈도우에서 시작하여 학습 중 점진적으로 타겟 윈도우 크기로 줄입니다.
온도 제어 소프트 마스크: 초기에는 마스크된 위치에 대한 약간의 주의를 허용하여 그래디언트 흐름을 유지하다가, 학습이 진행됨에 따라 점진적으로 엄격한 윈도우 제한을 적용합니다.

3. 주요 기여 (Key Contributions)

아키텍처 수정 없는 상수 복잡도 달성: LLM 기반 TTS 에 대해 메모리 및 계산 오버헤드를 선형에서 상수 ( $O(1)$ ) 로 변환하는 주의 제한 방법을 제안했습니다.
데이터 효율적인 적응 전략: 지식 증류를 통해 100 시간의 음성 데이터 (영어) 만으로 1 에포크 학습을 통해 고품질 합성을 복원하며, 언어 간 일반화 (한국어/중국어 등) 를 가능하게 했습니다.
범용성 검증: CosyVoice 2, IndexTTS 1.5, SparkTTS 등 아키텍처와 코덱 (FSQ, VQ, BiCodec) 이 다른 세 가지 모델에서 유효성을 입증했습니다.

4. 실험 결과 (Results)

CosyVoice 2, IndexTTS 1.5, SparkTTS 모델에 대한 평가 결과:

메모리 효율성:
- 10 초 음성 생성 시 KV 캐시 메모리 사용량이 최대 66.2% 감소 (예: IndexTTS 1.5 는 38.44MB → 13.01MB).
- 전체 GFLOPs 는 최대 46.9% 감소했습니다.
추론 속도 및 지연 시간:
- 시퀀스 길이에 관계없이 상수 수준의 지연 시간 (Constant Latency) 을 유지합니다. (전체 주의는 시퀀스 길이에 따라 지연 시간이 선형 증가).
- 속도 향상 (Speedup): 1.51 배 ~ 1.89 배.
음성 품질:
- 음성 인식 오차 (WER/CER): 기존 모델 대비 오차가 거의 없거나 (0.1% 이내), 오히려 개선된 경우 (CosyVoice 2 WER 1.94% → 1.72%) 가 있었습니다. 이는 슬라이딩 윈도우가 먼 과거의 샘플링 아티팩트 전파를 막아주기 때문입니다.
- 자연스러움 (NMOS) 및 화자 유사도 (SSIM): 원본 모델과 유의미한 차이 없이 유지되었습니다.
데이터 효율성 및 교차 언어 일반화:
- 영어 데이터 100 시간으로만 파인튜닝했으나, 학습 데이터가 없는 중국어 (Mandarin) 에서도 CER 감소가 0.1% 이내로 유지되어 뛰어난 교차 언어 일반화 능력을 보였습니다.

5. 의의 및 결론 (Significance)

WAND 는 Transformer 기반 AR-TTS 모델의 근본적인 병목 현상인 메모리 확장성 한계를 해결했습니다.

무한한 길이의 음성 생성 가능: 메모리 사용량이 고정되어 있어 하드웨어 제약 없이 매우 긴 문장의 음성 생성이 가능해졌습니다.
실시간 응용 가능성: 상수 시간 지연은 실시간 대화형 AI 및 스트리밍 서비스 배포에 필수적입니다.
범용 최적화: 모델 아키텍처나 코덱 종류에 구애받지 않는 보편적인 최적화 기법으로, 기존 고품질 TTS 모델을 효율적으로 변환할 수 있는 새로운 패러다임을 제시합니다.

결론적으로, WAND 는 고품질 음성 합성의 품질을 유지하면서 계산 및 메모리 비용을 획기적으로 낮춤으로써, 차세대 실시간 및 장문 TTS 시스템의 실용화를 앞당기는 중요한 기술적 진보입니다.

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models