Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"실시간으로 글이 들어오면서 동시에 목소리도 만들어내는 AI"**를 더 자연스럽게, 그리고 긴 글에서도 망가지지 않게 만드는 방법에 대한 연구입니다.

기존의 AI 목소리 생성 기술은 글을 다 받아야 목소리를 만들거나, 긴 글을 읽을 때 앞뒤 문맥을 잃어버려서 말이 꼬이거나 목소리가 변하는 문제가 있었습니다. 이 논문은 그 문제를 해결하기 위해 **"조용한 신호"**와 **"작은 창문"**이라는 두 가지 아이디어를 사용했습니다.

이해하기 쉽게 한 편의 연극에 비유해서 설명해 드릴게요.

🎭 비유: "실시간 연극 배우와 무대 지시자"

상상해 보세요. 한 명의 배우 (AI) 가 무대 위에서 대본 (텍스트) 을 읽으며 즉석에서 연기를 (목소리) 하고 있습니다.

1. 기존 방식의 문제점 (왜 망가졌을까요?)

문제 A: "앞을 못 보는 맹목적인 연기"
- 배우가 대본을 한 글자씩만 보고 연기를 하려고 합니다. "오늘은..."이라고 말하려는데, 뒤에 "날씨가..."가 올지 "비가..."가 올지 모릅니다.
- 그래서 "오늘은..."이라고 말했을 때, 뒤에 "날씨가 좋다"가 오면 밝게 말해야 하는데, "비가 온다"가 올 수도 있으니 어색하게 중얼거립니다.
- 결과: 억양 (Prosody) 이 자연스럽지 않고, 감정이 실리지 않습니다.
문제 B: "기억이 너무 많아 망가진 연기"
- 배우가 긴 연극을 할 때, 처음부터 지금까지 모든 대본을 머릿속에 다 기억하려고 합니다.
- 연극이 길어질수록 기억해야 할 게 너무 많아져서, 배우는 "내가 지금 뭐라고 했지?", "이 대본의 앞부분이 뭐였지?" 하며 혼란에 빠집니다.
- 결과: 긴 글을 읽다 보면 말이 꼬이거나 (Word Error Rate 급증), 목소리 톤이 변하거나 (화자 일관성 저하), 아예 연극이 멈추는 현상이 발생합니다.

2. 이 논문이 제안한 해결책 (새로운 전략)

이 연구팀은 배우에게 두 가지 새로운 규칙을 가르쳤습니다.

🌟 전략 1: "조용한 신호 (Prosodic Boundary Marker)"

비유: 대본에 특별한 점 (.) 을 찍어줍니다.
원리: 배우는 대본을 읽다가 이 점 (marker) 을 만나면, "아, 여기서 잠시 멈추고 앞뒤를 살짝 훑어보고 연기를 해야겠다"라고 생각합니다.
효과: 점 뒤에 있는 몇 단어를 미리 살짝 보고 (Lookahead), "오늘은..."이라고 말할 때 뒤에 "날씨가 좋다"가 온다는 걸 미리 알 수 있게 됩니다. 그래서 억양을 자연스럽게 조절할 수 있습니다.

🌟 전략 2: "작은 창문 (Sliding Window)"

비유: 배우의 머릿속을 작은 창문으로 바꿉니다.
원리: 배우는 과거의 모든 대본을 다 기억할 필요 없이, **지금 읽고 있는 문장 (창문)**과 **그다음에 올 문장 (앞창문)**만 기억하면 됩니다. 한 문장을 끝내면, 그 문장은 창문 밖으로 사라지고 새로운 문장이 들어옵니다.
효과: 기억해야 할 양이 일정하게 유지되므로, 연극이 아무리 길어도 배우가 혼란에 빠지지 않습니다. 목소리 톤도 처음과 끝까지 일정하게 유지됩니다.

📊 실제 성과: "기존 방식 vs 새로운 방식"

연구팀은 이 방법을 테스트해 보았는데, 결과는 놀라웠습니다.

긴 글 읽기 (Long-form):
- 기존 방식: 긴 글을 읽다 보면 말이 완전히 꼬여서 (오류율 71% → 99% 가 틀림) 들을 수 없게 되었습니다. 마치 기억력 감퇴로 인해 중얼거리는 노인처럼요.
- 새로운 방식: 긴 글을 읽어도 오류가 거의 없었습니다 (오류율 4.8%). 마치 원작자를 그대로 따라 읽는 것처럼 정확했습니다.
목소리와 감정:
- 기존 방식: 글이 길어질수록 목소리가 변하거나 감정이 사라졌습니다.
- 새로운 방식: 처음부터 끝까지 목소리의 특징과 감정이 일관성 있게 유지되었습니다.
속도:
- 글이 들어오자마자 바로 목소리를 내는 속도 (지연 시간) 도 기존 방식보다 훨씬 빨라졌습니다.

💡 요약: 왜 이 연구가 중요한가요?

이 기술은 **실시간 대화 시스템 (챗봇, 통역사, 오디오북)**에 혁명을 가져옵니다.

이제부터: AI 가 긴 이야기를 할 때 중간에 망가지지 않고,
글이 들어오자마자: 문맥을 미리 살짝 보고 자연스러운 억양으로,
오래도록: 목소리 톤이 변하지 않고 일관된 연기를 할 수 있게 되었습니다.

마치 기억력도 좋고, 앞을 내다보는 안목도 있는 최고의 연극 배우가 실시간으로 당신의 이야기를 들려주는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

스트리밍 텍스트 입력 (실시간으로 도착하는 텍스트) 을 기반으로 한 스트리밍 TTS(텍스트 - 음성 합성) 는 대화 시스템 및 음성 - 음성 번역 등 상호작용형 시스템에 필수적입니다. 그러나 기존 방식은 두 가지 주요 한계에 직면해 있습니다.

부자연스러운 억양 (Unnatural Prosody): 실시간 처리를 위해 텍스트를 조금씩만 받아야 하므로, 모델이 미래 텍스트 (Lookahead) 를 볼 수 없습니다. 억양 (강세, 휴지 등) 을 정확히 예측하려면 미래 문맥이 필수적이므로, 제한된 수용 영역 (Receptive Field) 으로 인해 억양이 부자연스러워집니다.
장문 생성 붕괴 (Long-form Collapse): 최신 LLM 기반 TTS 는 텍스트와 음성 토큰을 교차 (Interleaved) 하여 생성하는 방식을 사용합니다. 하지만 긴 문장을 실시간으로 생성할 때, 텍스트 토큰 하나에 대응하는 음성 길이가 일정하지 않아 텍스트와 음성 토큰 간의 물리적 거리가 점점 벌어집니다. 이로 인해 컨텍스트가 무한정 확장되면서 모델이 의미론적 붕괴 (Semantic Drift) 를 겪거나 생성이 실패하는 문제가 발생합니다.

기존 해결책들은 복잡한 인과적 (Causal) 구조 수정이나 정밀한 텍스트 - 음성 강제 정렬 (Forced Alignment) 에 의존하는 경우가 많아, 약한 시간 정렬 데이터만으로도 해결할 수 있는 방법이 필요했습니다.

2. 제안된 방법론 (Methodology)

저자들은 억양 경계 인식 (Prosodic-Boundary-Aware) 후 학습 전략과 슬라이딩 윈도우 프롬프트를 결합하여 위 문제를 해결했습니다.

억양 경계 마커 (Prosodic-Boundary Marker):
- 입력 텍스트를 k 개의 단어 단위로 분할하고, 각 분할 사이에 marker_boundary 라는 특수 마커를 삽입합니다.
- 이 마커는 모델에게 "여기까지의 텍스트에 해당하는 음성을 생성하라"는 소프트한 경계 신호로 작용하며, 억양 계획을 위한 제한된 미래 문맥 (Lookahead) 을 제공합니다.
약한 시간 정렬 데이터로 학습 (Training with Weakly Time-Aligned Data):
- 수동 주석 없이 WhisperX 와 같은 오프 - 더 - 쉘 (Off-the-shelf) 정렬기를 사용하여 단어 수준의 타임스탬프를 추출합니다.
- 동적 경계 삽입 (Dynamic Boundary Insertion): 학습 시 확률적으로 전체 문장을 사용하거나, 특정 단어 위치에서 마커를 삽입하고 해당 지점까지의 오디오만 타겟으로 하여 모델을 미세 조정 (Fine-tuning) 합니다. 이를 통해 모델은 마커를 분할 신호이자 억양 앵커로 인식하도록 학습됩니다.
경계된 컨텍스트 및 슬라이딩 윈도우 (Bounded Context & Sliding-Window Continuation):
- 추론 시 이전 청크 (Chunk) 의 생성된 텍스트와 음성 토큰을 프롬프트로 전달하여 연결성을 유지합니다.
- KV 캐시 최적화: 전체 시퀀스 길이에 관계없이 컨텍스트 길이를 $O(k+f)$ (현재 청크 + 미래 Lookahead) 로 제한하여 메모리 누수와 지연 시간 증가를 방지합니다.
- 생성된 음성 토큰은 스트리밍 보코더 (Vocoder) 를 통해 실시간으로 파형으로 변환되어 청크 간 매끄러운 연결을 보장합니다.

3. 주요 기여 (Key Contributions)

억양 경계 인식 적응 (Prosodic-Boundary-Aware Adaptation): 복잡한 인과적 구조 수정 없이, 약한 시간 정렬 데이터만으로 모델이 미래 텍스트를 예측하여 자연스러운 억양을 생성하도록 적응시켰습니다.
음향 프롬핑 (Acoustic Prompting) 설계: 이전 청크의 오디오 꼬리 (Tail) 를 활용하여 청크 간 매끄러운 연결을 보장하고, 장문 교차 모달리티 연속 스트리밍에서의 생성 붕괴를 완화했습니다.
강건한 실시간 성능: 오픈 소스 데이터만 사용하여 기존 인터리브드 (Interleaved) 방식보다 뛰어난 실시간 안정성과 강건성을 입증했습니다.

4. 실험 결과 (Results)

Seed-TTS-Eval 벤치마크와 확장된 장문 평가 세트를 통해 평가되었습니다.

스트리밍 효율성:
- 제안된 방법은 첫 오디오 생성 지연 시간 (TTFA) 이 1296ms로, 기존 인터리브드 방식 (1414ms) 보다 빠릅니다.
- 실시간 인자 (RTF) 는 0.782 로, 스트리밍 보코딩을 사용하는 방식 중 가장 효율적입니다.
생성 품질 (장문 시나리오에서 두드러짐):
- 단어 오류율 (WER): 기존 인터리브드 방식은 장문에서 WER 이 71.0% 로 붕괴되었으나, 제안된 방법은 **4.8%**로 획기적으로 개선되었습니다 (절대적 감소 66.2%).
- 화자 및 감정 유사도: 장문 생성 시 화자 유사도 (SPK-SIM) 는 16.1% 증가, 감정 유사도 (EMO-SIM) 는 1.5% 증가하여 일관성을 유지했습니다.
- 주관적 평가 (MOS): 모든 지표 (가청성, 화자 유사도, 감정 유사도) 에서 기존 베이스라인을 압도하는 높은 점수를 기록했습니다. 특히 장문 환경에서도 4.13~4.24 점대의 높은 점수를 유지했습니다.
Ablation Study: 청크 크기 ( $k$ ) 와 Lookahead ( $f$ ) 의 균형을 분석하여, 너무 작은 컨텍스트는 언어적 정확도를 떨어뜨리고, 과도한 Lookahead 는 생성 불안정을 초래할 수 있음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 기반 TTS 의 실시간 스트리밍 생성에서 발생하는 "부자연스러운 억양"과 "장문 생성 붕괴"라는 두 가지 핵심 과제를, 아키텍처 변경 없이 후학습 (Post-training) 전략과 약한 정렬 데이터만으로 해결한 획기적인 사례입니다.

실용성: 대화형 AI, 실시간 번역 등 지연 시간이 민감한 애플리케이션에 바로 적용 가능한 강력한 솔루션을 제공합니다.
확장성: 정밀한 정렬 데이터가 없어도 학습이 가능하므로, 다양한 언어와 도메인으로의 확장이 용이합니다.
미래 전망: 다국어 지원 및 적응형 경계 예측 등 더 유연한 스트리밍 생성을 위한 연구의 기초를 마련했습니다.

결론적으로, 이 연구는 제한된 미래 문맥과 무한한 생성 역사 사이의 모순을 해결하여, 고품질의 장문 실시간 TTS 를 실현하는 새로운 패러다임을 제시했습니다.

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

🎭 비유: "실시간 연극 배우와 무대 지시자"

1. 기존 방식의 문제점 (왜 망가졌을까요?)

2. 이 논문이 제안한 해결책 (새로운 전략)

📊 실제 성과: "기존 방식 vs 새로운 방식"

💡 요약: 왜 이 연구가 중요한가요?

1. 연구 배경 및 문제 정의 (Problem)

2. 제안된 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem