Each language version is independently generated for its own context, not a direct translation.

🎙️ SyncSpeech: "말하기"와 "듣기"가 동시에 일어나는 마법 같은 TTS

이 논문은 SyncSpeech라는 새로운 인공지능 음성 합성 기술을 소개합니다. 기존 방식들의 단점을 모두 해결하고, 훨씬 빠르고 자연스러운 목소리를 만들어내는 혁신적인 방법입니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 음식 배달과 레고 조립에 비유해서 설명해 드릴게요.

1. 왜 새로운 기술이 필요했을까요? (기존의 문제점)

기존의 인공지능 음성 기술은 크게 두 가지 부류로 나뉘었는데, 둘 다 치명적인 약점이 있었습니다.

A 형 ( autoregressive, AR): "한 글자씩 천천히 읽는 학생"
- 방식: "안녕하세요"라고 말할 때, '안'을 만들고, 그다음 '녕'을 만들고, 그다음 '하'를 만드는 식으로 한 번에 한 글자씩 순서대로 만들어갑니다.
- 장점: 문맥을 잘 이해해서 매우 자연스럽습니다.
- 단점: 너무 느립니다. 글자가 많으면 목소리가 나올 때까지 기다려야 하죠. 마치 배달이 오기까지 1시간씩 걸리는 것처럼요.
B 형 (non-autoregressive, NAR): "한 번에 모든 재료를 섞는 요리사"
- 방식: 문장 전체를 미리 보고, "안녕하세요"라는 말에 필요한 모든 소리를 한 번에 뿅! 하고 만들어냅니다.
- 장점: 매우 빠릅니다.
- 단점: 시작이 늦습니다. 모든 재료를 다 준비해야만 요리를 시작할 수 있으므로, 첫 번째 말소리 (음성 패킷) 가 나오기까지 시간이 걸립니다. 마치 주문하고 나서 10 분 동안 아무것도 안 하고 기다리는 것과 같습니다.

결론: 우리는 "자연스러움 (A 형)"과 "빠른 시작 (B 형)"을 모두 원했지만, 기존 기술은 둘 중 하나만 선택해야 했습니다.

2. SyncSpeech 의 해결책: "Temporal Masked Transformer (TMT)"

SyncSpeech 는 이 두 세계의 장점을 합친 하이브리드 방식을 사용합니다. 이를 위해 **'시간적 마스크 (Temporal Mask)'**라는 특별한 규칙을 만들었습니다.

🧩 비유: "레고 조립의 새로운 방식"

기존 방식들은 레고를 조립할 때:

A 형: 1 번 블록 → 2 번 블록 → 3 번 블록 순서대로 하나씩 조립. (시간이 오래 걸림)
B 형: 1 번부터 100 번까지 다 준비해놓고, "자, 이제 다 조립해!"라고 함. (시작이 늦음)

SyncSpeech 의 방식 (TMT):

동시 작업: "안녕하세요"라는 문장을 들었을 때, '안'에 해당하는 레고 블록 3 개와 '녕'에 해당하는 블록 5 개를 한 번에 동시에 조립합니다.
마스크의 역할: 아직 조립할 블록은 '가림막 (마스크)'으로 덮어두지만, 이미 들어온 텍스트에 해당하는 블록들은 한 번에 다 만들어냅니다.
스트리밍 (Streaming): 텍스트가 하나 들어올 때마다, 그 텍스트에 해당하는 모든 소리 블록을 즉시 만들어냅니다.

이 방식 덕분에 텍스트가 들어오는 속도와 목소리가 나오는 속도가 완벽하게 동기화됩니다.

3. SyncSpeech 가 얼마나 대단한가요? (성능)

이 기술은 놀라운 결과를 보여줍니다.

🚀 속도의 기적 (지연 시간 감소):
- 기존 방식이 목소리를 내기까지 0.22 초 정도 기다렸다면, SyncSpeech 는 0.06 초 만에 첫 소리를 냅니다.
- 비유: 기존에는 주문하고 10 분 기다렸다면, SyncSpeech 는 주문하자마자 1 초 만에 음식이 테이블에 나옵니다. (약 5.8 배 더 빠름)
⚡ 효율성 (실시간 인자):
- 같은 양의 목소리를 만드는 데 걸리는 시간이 기존보다 6~8 배 더 짧습니다. 컴퓨터가 덜 일해도 더 빠르게 처리하는 셈이죠.
🎤 품질 (음성 자연스러움):
- 속도가 빨라졌다고 해서 목소리가 기계음처럼 변한 건 아닙니다. 기존 최고 수준의 모델과 동일한 수준의 자연스러운 목소리를 냅니다.

4. 핵심 기술 요약 (쉽게 풀어서)

하이브리드 어텐션 (Hybrid Attention Mask):
- AI 가 앞뒤 문맥을 모두 보면서도, 순서대로 만들어야 하는 규칙도 지키게 해주는 '지능형 안경'입니다. 덕분에 소리가 끊기지 않고 자연스럽게 이어집니다.
높은 확률의 마스킹 (High-Probability Masking):
- 훈련할 때 AI 가 실수할 확률이 높은 부분 (마스크) 을 집중적으로 연습하게 해서, 실제 사용할 때 더 똑똑하고 튼튼하게 만듭니다.
스트리밍 처리:
- 텍스트가 하나씩 들어올 때마다, 그 텍스트에 해당하는 모든 소리를 한 번에 뿅! 하고 만들어냅니다. 그래서 문장이 길어지더라도 속도가 느려지지 않습니다.

🌟 결론: 왜 이것이 중요한가요?

SyncSpeech 는 AI 와 사람이 대화할 때의 '대기 시간'을 거의 없애버린 기술입니다.

현재: AI 에게 질문하면 "생각 중..."이라고 표시가 뜨고 몇 초 기다려야 목소리가 나옵니다.
미래 (SyncSpeech): 질문을 끝내는 순간, AI 가 바로 대답을 시작합니다. 마치 옆에 있는 사람과 대화하듯 자연스럽고 즉각적인 대화가 가능해집니다.

이 기술은 가상 비서, 실시간 통역, 영상 더빙 등 속도가 생명인 모든 분야에서 혁신을 일으킬 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

현재 텍스트 음성 변환 (TTS) 기술은 두 가지 주요 패러다임으로 나뉘며, 각각 고유한 한계를 가지고 있습니다.

자기회귀 (AR, Autoregressive) 모델: 텍스트를 왼쪽에서 오른쪽으로 순차적으로 처리하여 음성을 생성합니다. 스트리밍 생성에 적합하지만, 프레임 단위 생성 속도가 느려 **생성 효율성 (Efficiency)**이 낮습니다.
비자기회귀 (NAR, Non-Autoregressive) 모델: 병렬 예측을 통해 높은 생성 효율을 달성하지만, 문장 전체의 맥락을 먼저 파악해야 하므로 **초기 지연 (First-packet Latency)**이 높습니다. 또한, 스트리밍 입력에 대한 점진적 생성이 어렵습니다.

기존의 개선 시도 (그룹 모델링, 추측적 디코딩 등) 는 효율성을 일부 개선했으나 근본적인 한계를 극복하지 못했습니다. 따라서 AR 의 순차적 생성 강점과 NAR 의 병렬 처리 효율성을 모두 결합하여, 스트리밍 텍스트 입력에 대해 **저지연 (Low-latency)**이면서 **고효율 (High-efficiency)**인 TTS 모델을 개발할 필요가 있었습니다.

2. 제안 방법론 (Methodology)

저자들은 SyncSpeech를 제안하며, 이는 새로운 Temporal Masked Transformer (TMT) 패러다임을 기반으로 합니다.

2.1. 핵심 아키텍처: Temporal Masked Transformer (TMT)

TMT 는 텍스트 토큰과 음성 토큰을 통합적으로 처리하여, 새로운 텍스트 토큰이 도착할 때마다 해당 텍스트에 대응하는 모든 음성 토큰을 한 번의 디코딩 단계에서 생성합니다.

시퀀스 설계 (Sequence Design):
- 스트리밍 입력을 시뮬레이션하기 위해, 무작위로 선택된 $n$ 번째 BPE 토큰까지의 텍스트와 해당 텍스트에 대응하는 음성 토큰을 학습합니다.
- 자연스러운 멈춤을 피하기 위해 $q$ 개의 텍스트 토큰을 미리 보전 (Look-ahead) 합니다.
- 현재 처리할 텍스트 토큰에 대응하는 음성 토큰들은 <MASK> 토큰으로 가리고, 나머지 토큰들은 유지하는 방식을 사용합니다.
하이브리드 어텐션 마스크 (Hybrid Attention Mask):
- 인과적 (Causal) 어텐션: 입력 텍스트 토큰과 특수 토큰에 적용하여 과거 정보만 참조하게 합니다.
- 양방향 (Bidirectional) 어텐션: 가려진 음성 토큰과 해당 텍스트 토큰에 대응하는 음성 토큰들 간에 적용합니다. 이를 통해 음성 토큰이 해당 텍스트 토큰의 전체 지속 시간 (Duration) 을 인지하여 자연스러운 발화를 가능하게 합니다.
학습 목표:
- 지속 시간 예측 (Duration Prediction): 다음 텍스트 토큰이 얼마나 많은 음성 토큰을 생성할지 예측합니다.
- 마스크 예측 (Mask Prediction): 가려진 음성 토큰을 복원합니다.
- 이 두 가지 작업을 단일 디코딩 단계에서 통합하여 수행합니다.

2.2. 고확률 마스크 사전 학습 (High-Probability Masked Pre-training)

학습 효율성을 높이고 모델 성능을 개선하기 위해 도입된 전략입니다.

학습 단계에서 텍스트 토큰의 일부 (Bernoulli 분포 기반) 를 마스크로 설정하고, 이를 음성 토큰 마스크로 변환하여 대량의 데이터를 빠르게 학습시킵니다.
이는 텍스트와 음성 토큰 간의 정렬 (Alignment) 을 용이하게 하여 수렴 속도를 높이고, 추론 시의 강건성을 향상시킵니다.

2.3. 추론 과정 (Inference)

스트리밍 텍스트가 입력되면, 미리 정해진 Look-ahead ( $q$ ) 토큰 수를 채우자마자 즉시 추론을 시작합니다.
각 단계에서 새로운 텍스트 토큰에 대응하는 모든 음성 토큰과 다음 텍스트 토큰의 지속 시간을 한 번에 예측합니다.
생성된 음성 토큰이 청크 (Chunk) 크기에 도달하면 즉시 파형으로 변환되어 출력됩니다.

3. 주요 기여 (Key Contributions)

TMT 패러다임 제안: AR 의 순차적 생성과 NAR 의 병렬 처리를 통합하여, 텍스트 길이 ( $L$ ) 에 비례하는 시간 복잡도 ( $O(L)$ ) 를 달성했습니다. (기존 AR 모델은 음성 길이 $T$ 에 비례하는 $O(T)$ )
스트리밍 최적화: 두 번째 텍스트 토큰만 도착해도 음성을 생성하기 시작하여 초기 지연을 극도로 줄였습니다.
고효율 학습 전략: 고확률 마스크 사전 학습을 통해 학습 효율을 높이고 모델 성능을 개선했습니다.
하이브리드 어텐션 메커니즘: 텍스트 토큰 내의 음성 토큰들이 서로 정보를 공유할 수 있게 하여 발화의 자연스러움과 강건성을 확보했습니다.

4. 실험 결과 (Results)

LibriSpeech (영어) 와 SeedTTS (중국어) 벤치마크에서 CosyVoice(AR 기반) 및 CosyVoice2 와 비교 평가되었습니다.

음질 (Speech Quality):
- WER(단어 오류율), SS(화자 유사도), MOS(주관적 자연도) 측면에서 기존 최첨단 AR 모델 (CosyVoice2) 과 비교 가능한 수준의 음질을 유지했습니다.
- 특히, 하이브리드 어텐션 마스크와 사전 학습이 제거될 경우 음질이 크게 저하됨을 확인하여 그 중요성을 입증했습니다.
지연 (Latency):
- 초기 패킷 지연 (FPL): CosyVoice2 대비 5.8 배 (중국어 기준) 감소했습니다.
- 스트리밍 시작: CosyVoice2 가 5 개의 텍스트 토큰을 필요로 하는 반면, SyncSpeech 는 2 개만으로도 생성을 시작합니다.
효율성 (Efficiency):
- 실시간 인자 (RTF): CosyVoice2 대비 6.4 배 (영어) 및 8.8 배 (중국어) 빠른 생성 속도를 기록했습니다.
- 이는 텍스트 길이에만 의존하는 시간 복잡도 개선에서 기인합니다.

5. 의의 및 결론 (Significance)

SyncSpeech 는 TTS 분야에서 지연과 효율성 간의 트레이드오프를 근본적으로 해결한 모델입니다.

LLM 통합: 대규모 언어 모델 (LLM) 과의 연동 시, 텍스트가 생성되는 즉시 음성을 출력할 수 있어 대화형 AI 에 최적화되어 있습니다.
실시간 응용: 낮은 지연 시간과 높은 처리 속도로 인해 실시간 번역, 가상 비서, 자동 자막 생성 등 지연에 민감한 시나리오에 혁신적인 솔루션을 제공합니다.
미래 방향: 다국어 MFA 도구 통합 및 TMT 패러다임을 LLM 에 직접 통합하여 엔드투엔드 대규모 음성 언어 모델을 개발하는 방향으로 연구가 확장될 예정입니다.

요약하자면, SyncSpeech 는 Temporal Masked Transformer를 통해 기존 TTS 모델의 한계를 극복하고, **동시성 (Synchronous)**과 **병렬성 (Parallelism)**을 동시에 달성한 차세대 TTS 모델입니다.

SyncSpeech: Efficient and Low-Latency Text-to-Speech based on Temporal Masked Transformer