WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

이 논문은 전역 어텐션과 슬라이딩 윈도우 어텐션을 결합하고 커리큘럼 학습과 지식 증류 기법을 활용하여, 기존 오토레거시 TTS 모델의 이차적 복잡도 문제를 해결하면서도 고품질 음성 합성 품질을 유지하는 효율적인 프레임워크 'WAND'를 제안합니다.

Hanna Lee, Tan Dat Nguyen, Jaehoon Kang, Kyuhong Shim

게시일 2026-04-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎙️ WAND: "창문"을 열어 TTS 의 무거운 짐을 가볍게 만든 기술

이 논문은 **"WAND"**라는 새로운 기술을 소개합니다. WAND 는 **Windowed Attention(창문형 주의)**과 **Knowledge Distillation(지식 증류)**의 약자입니다.

쉽게 말해, **"기존의 TTS(텍스트를 음성으로 바꾸는 AI) 는 너무 무겁고 느려서 긴 글을 읽을 때 메모리가 터지거나 속도가 느려지는데, WAND 는 이 문제를 해결해서 가볍고 빠르게, 그리고 긴 글도 끊김 없이 읽을 수 있게 만든 방법"**입니다.

이 복잡한 기술을 일상적인 비유로 설명해 드릴게요.


1. 문제점: "모든 것을 기억하려는 AI 의 버릇"

기존의 최신 TTS AI 들은 글을 읽을 때, 지금까지 읽은 모든 단어와 들은 모든 소리를 한 번에 기억하며 다음 말을 만들어냅니다.

  • 비유: Imagine(상상해 보세요) 100 페이지짜리 책을 읽는 학생이 있다고 가정해 봅시다.
    • 이 학생은 1 페이지를 읽을 때, 1 페이지만 기억하면 됩니다.
    • 하지만 100 페이지를 읽을 때는 1 페이지부터 99 페이지까지의 내용을 모두 책상 위에 펼쳐놓고 ("메모리 사용"), 그걸 다 비교하며 100 페이지를 읽어야 합니다.
    • 책이 길어질수록 책상 (메모리) 은 점점 더 커져야 하고, 모든 페이지를 다시 확인하는 데 시간이 걸려서 (지연 시간) 읽는 속도가 매우 느려집니다.

이게 바로 기존 TTS 모델의 문제입니다. 글이 길어질수록 메모리 사용량과 계산량이 기하급수적으로 늘어납니다.

2. 해결책: WAND 의 두 가지 전략

WAND 는 이 문제를 해결하기 위해 두 가지 똑똑한 방법을 썼습니다.

① 창문형 주의 (Windowed Attention): "과거는 잊고, 현재에 집중하자"

WAND 는 AI 가 기억해야 할 것을 두 가지로 나눕니다.

  1. 영구적인 기억 (글로벌 주의): "누구의 목소리로", "무슨 감정으로", "무슨 내용을" 말하는지 같은 핵심 정보는 계속 기억합니다. (책상 위에 놓인 책의 제목과 목차만 남김)
  2. 창문형 기억 (로컬 슬라이딩 윈도우): 실제 말하는 소리의 흐름은 아주 최근의 몇 초 (예: 32 개의 토큰) 만 기억합니다. (책상 위에는 지금 읽고 있는 3~4 페이지만 펼쳐놓고, 그 이전 페이지는 치워버림)
  • 비유: 창문을 생각하세요.
    • 우리는 창문 밖의 풍경 (과거의 모든 소리) 을 다 볼 필요는 없습니다.
    • 지금 내 바로 앞 (최근 3 초) 에 있는 풍경만 보면 소리의 흐름을 자연스럽게 이어갈 수 있습니다.
    • 창문 크기 (W) 를 고정해 두면, 글을 아무리 길게 읽어도 책상 (메모리) 의 크기는 변하지 않습니다.

② 지식 증류 (Knowledge Distillation): "스승의 노하우를 배우는 학생"

그런데 갑자기 "과거를 다 기억하지 마!"라고 하면 AI 는 당황해서 실수를 할 수 있습니다. (소리가 뚝 끊기거나 이상해짐)

그래서 WAND 는 **완벽하게 기억하는 '스승 모델' (기존 무거운 AI)**을 두고, **'학생 모델' (가벼운 WAND)**을 가르칩니다.

  • 비유: 요리 실습을 생각하세요.
    • 스승: 모든 재료를 다 보고 완벽한 요리를 만듭니다.
    • 학생: 재료를 일부만 보고 요리해야 하지만, 스승이 만든 요리의 맛과 향을 기억하도록 훈련받습니다.
    • 이 과정에서 학생은 "아, 과거의 모든 재료를 다 볼 필요는 없구나, 이 정도만 봐도 스승의 맛을 낼 수 있구나"를 배웁니다.

이렇게 하면 적은 데이터로도 스승과 거의 똑같은 품질을 내면서도, 메모리는 훨씬 적게 쓰게 됩니다.

3. 결과: 얼마나 좋아졌나요?

이 기술을 적용한 결과 놀라운 변화가 있었습니다.

  • 메모리 폭탄 해결: 긴 글을 읽을 때 필요한 메모리가 최대 66.2% 줄었습니다. (예: 38MB 가 13MB 로 줄어든 것)
  • 속도 향상: 글이 길어질수록 느려지던 속도가 일정하게 유지됩니다. 긴 소설을 읽어도 마지막 페이지에서 속도가 떨어지지 않습니다.
  • 품질 유지: 소리의 자연스러움은 그대로 유지되면서, 오히려 과거의 소음 (오류) 이 쌓여 발생하는 문제를 막아 더 깨끗한 소리를 내기도 합니다.
  • 언어 확장: 영어로만 훈련했는데도, 중국어를 읽을 때도 거의 실수 없이 잘 읽었습니다. (창문 원리는 언어에 상관없이 통하는 보편적인 법칙이기 때문입니다.)

4. 요약: 왜 이것이 중요한가요?

지금까지 AI 가 긴 이야기를 읽어주려면 고가의 서버나 많은 메모리가 필요했습니다. 하지만 WAND"창문"을 열어 과거의 불필요한 기억을 버리고, 핵심만 기억하게 함으로써 다음과 같은 미래를 가능하게 합니다.

  • 무한한 길이: 책 한 권, 영화 대본, 긴 강의록을 끊김 없이 읽어줄 수 있습니다.
  • 가벼운 실행: 스마트폰이나 개인용 컴퓨터에서도 고화질 TTS 를 실시간으로 구동할 수 있습니다.
  • 지속 가능한 발전: 하드웨어의 한계 없이 계속 발전할 수 있는 길을 열었습니다.

한 줄 요약:

"WAND 는 AI 가 긴 글을 읽을 때 '과거의 모든 것을 기억'하는 버릇을 고쳐, '최근 몇 초만 기억'하는 창문 방식을 도입함으로써, 메모리 폭탄을 해결하고 끊김 없는 자연스러운 음성 합성을 가능하게 한 기술입니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →