Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robotstem hebt die tekst in spraak omzet. Normaal gesproken leest deze robot een hele zin voor, denkt na over hoe hij de zinnen moet benadrukken (de prosodie), en spreekt dan pas uit. Maar wat als je wilt dat de robot terwijl je typt, direct begint met spreken? Dat is "streaming" tekst-naar-spraak.

Het probleem is dat dit heel lastig is. Als de robot maar een paar woorden vooruit kan kijken, klinkt hij als een robot die niet weet waar de zin eindigt: hij maakt geen pauzes, benadrukt de verkeerde woorden en in lange verhalen begint hij te hallucineren of te "dwalen".

De auteurs van dit paper hebben een slimme oplossing bedacht. Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. Het Probleem: De "Blinde" Verteller

Stel je een verteller voor die een boek voorleest, maar die alleen de woorden kan zien die hij nu zegt.

Het gevolg: Hij weet niet dat er binnenkort een punt komt. Hij blijft dus doorgaan met dezelfde toon, alsof de zin nooit ophoudt.
Bij lange verhalen: Als hij urenlang moet voorlezen, vergeet hij wat hij eerder heeft gezegd. Hij raakt de draad kwijt, begint onzin te praten of zijn stem klinkt ineens heel anders.

2. De Oplossing: De "Slimme Wegwijzer"

De onderzoekers hebben een nieuwe methode ontwikkeld die ze "Prosodic-Boundary-Aware" noemen. Laten we dit uitleggen met een analogie:

Stel je voor dat de robot niet blind is, maar een slimme wegwijzer heeft die elke paar woorden een klein bordje plaatst.

Het bordje (de marker): Dit bordje zegt: "Let op, hier is een natuurlijke pauze of een nieuwe zin. Kijk even kort vooruit om te weten hoe je hier moet klinken."
De kijk vooruit (Lookahead): De robot mag wel een paar woorden na het bordje lezen, maar niet de hele rest van het boek. Zo weet hij precies hoe hij moet intoneren, zonder dat hij de hele tekst hoeft te onthouden.

3. Hoe het werkt in de praktijk

De robot werkt nu in stukjes (zoals een trein die in wagons rijdt):

De treinwagon: De tekst wordt in kleine blokjes van bijvoorbeeld 5 woorden verdeeld.
De kopplaat: Aan het einde van elk blokje komt een speciaal bordje.
De kofferbak: De robot onthoudt alleen wat hij net heeft gezegd (de vorige wagon) en wat er direct voor ligt (de volgende paar woorden). Hij gooit de rest van de geschiedenis weg.
- Waarom? Omdat als je te veel onthoudt, de "kofferbak" (het geheugen van de computer) volloopt en de robot traag of gek wordt. Door alleen naar de directe omgeving te kijken, blijft hij snel en stabiel, zelfs in een heel lang verhaal.

4. Wat levert dit op?

De onderzoekers hebben dit getest en de resultaten zijn indrukwekkend:

Minder fouten: Waar andere systemen in lange verhalen 71% van de woorden verkeerd uitspraken (alsof ze in een droom waren), maakt deze nieuwe robot maar 4,8% fouten.
Natuurlijker geluid: De stem klinkt niet meer als een robot die hapt, maar als een mens die weet waar hij een ademtocht moet nemen.
Stabiel: Zelfs als je 10 minuten lang praat, klinkt de stem en de emotie consistent. Hij "dwaalt" niet af.

Samenvattend

Stel je voor dat je een verteller hebt die een korte blik vooruit mag werpen op een speciaal bordje dat aangeeft waar de zin stopt. Hij vergeet het verleden snel om niet te vergeten, maar onthoudt genoeg om de juiste toon te vinden.

Dit maakt het mogelijk om in real-time (terwijl je typt) een natuurlijke, menselijke stem te horen, zelfs in lange gesprekken, zonder dat de computer vastloopt of de verteller "dwaalt". Het is alsof je een perfecte verteller hebt die nooit de draad kwijtraakt, hoe lang het verhaal ook is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input", geschreven in het Nederlands.

Probleemstelling

Het paper adresseert twee fundamentele uitdagingen bij het implementeren van Streaming Text-to-Speech (TTS) met streaming tekstinput (waarbij spraak gegenereerd wordt terwijl de tekst nog binnenkomt):

Onnatuurlijke Prosodie: Traditionele streaming-modellen missen voldoende "lookahead" (toekomstige tekst). Prosodische kenmerken zoals klemtoon en pauzes vereisen context van zowel de verleden als de toekomstige tekst. Zonder deze toekomstige context klinkt de spraak onnatuurlijk. Bestaande oplossingen vereisen vaak complexe causale aanpassingen aan de attention-mechanismen en nauwkeurige tekst-spraak-uitlijning.
Ineenstorting bij Lange Teksten (Long-form Collapse): Moderne TTS-systemen op basis van Large Language Models (LLM) gebruiken vaak een interlaced structuur (wisselende tekst- en spraaktokens). Bij continue streaming groeit de contextgeschiedenis onbeperkt. Omdat de fysieke afstand tussen een teksttoken en de bijbehorende spraaktokens toeneemt naarmate de tekst langer wordt, verliest het model de coherentie. Dit leidt tot "hallucinaties", vervormde spraak en een totale ineenstorting van de generatie bij lange teksten. Bestaande methoden zoals SpeakStream vereisen zware, nauwkeurige uitlijningsannotaties.

Methodologie

De auteurs stellen een post-training strategie voor die bestaande LLM-gebaseerde TTS-modellen aanpast met behulp van zwakke tijd-uitgelijnde data (zonder handmatige annotaties). De kern van de methode bestaat uit drie componenten:

Prosodische Grensmarkering (Prosodic-Boundary Marker):
- De input wordt opgesplitst in een bifurcatie-sequentie met een speciale marker (markerboundary).
- Tijdens het trainen wordt deze marker stochastisch ingevoegd op woordniveaugrenzen (bepaald door een bestaande aligner zoals WhisperX).
- Het model leert deze marker als een "zachte grens" te behandelen. Het leert om te stoppen met het genereren van spraak op deze specifieke punten, zelfs als er beperkte toekomstige tekst beschikbaar is.
Training met Zwakke Uitlijning:
- In plaats van perfecte uitlijning, worden woordniveaugrenzen geschat met WhisperX.
- Tijdens training wordt met een bepaalde kans ( $p_{full}$ ) de volledige zin gebruikt, maar anders wordt een willekeurig woord geselecteerd, de marker ingevoegd, en de doelspraaksequentie afgekapt op het tijdstip dat overeenkomt met dat woord.
- Dit traint het model om de marker te interpreteren als een segmentatiehint en een prosodisch anker.
Beperkte Context en Schuifvenster (Sliding-Window Continuation):
- Inferentie: De inputtekst wordt verwerkt in chunks van $k$ woorden, met een lookahead van $f$ toekomstige woorden.
- Schuifvenster Prompt: Om continuïteit te bewaren tussen chunks, wordt de prompt van de vorige stap (tekst- en spraaktokens) gebruikt als context voor de volgende stap.
- Bounded Context: Door de context te beperken tot de huidige chunk plus lookahead ( $O(k+f)$ ), wordt de groei van de Key-Value (KV) cache voorkomen. Dit elimineert de latentie-groei en stabiliseert de generatie voor lange teksten.
- Acoustische Prompting: Het einde van de audio van de vorige chunk wordt gebruikt als prompt voor de volgende, wat naadloze concatenatie garandeert.

Belangrijkste Bijdragen

Prosodische Grens-Aware Adaptatie: Een nieuwe aanpak die modellen in staat stelt toekomstige tekst te anticiperen voor betere prosodie zonder complexe causale architectuurwijzigingen.
Acoustische Prompting voor Continuïteit: Een methode die het einde van de audio van een vorige chunk gebruikt om naadloze overgangen te garanderen en ineenstorting bij lange streaming sessies te voorkomen.
Robuustheid met Zwakke Data: Het aantonen dat state-of-the-art streaming-stabiliteit bereikt kan worden met alleen open-source, zwak uitgelijnde data, zonder de noodzaak voor dure, nauwkeurige uitlijningsannotaties.

Resultaten

De methode is geëvalueerd op de Seed-TTS-Eval dataset (zowel voor standaard zinnen als voor uitgebreide lange teksten) en vergeleken met baselines zoals CosyVoice-Style Interleaved en een simpele Sliding-Window methode.

Streaming Efficiency:
- De voorgestelde methode heeft de laagste Time-to-First-Audio (TTFA) van 1296 ms, wat sneller is dan de Interleaved baseline (1414 ms).
- De Real-Time Factor (RTF) is 0.782 (beter dan de Interleaved baseline van 0.843), wat aangeeft dat het systeem real-time kan werken.
Kwaliteit en Foutpercentages (Long-form):
- Woordfoutpercentage (WER): De Interleaved baseline faalt catastrofale bij lange teksten (WER stijgt naar 71.0%). De voorgestelde methode behaalt een WER van slechts 4.8% (een absolute reductie van 66.2% ten opzichte van de baseline).
- Spreker- en Emotie-Overeenkomst: De methode verbetert de spreker-identiteit (SPK-SIM) met 16.1% en de emotie-overeenkomst (EMO-SIM) met 1.5% ten opzichte van de baselines in lange scenario's.
- Subjectieve Evaluatie (MOS): De methode behaalt de hoogste scores voor begrijpelijkheid, spreker-identiteit en emotie, zelfs bij lange monologen, terwijl de baselines hier sterk in degradatie vertonen.

Betekenis en Conclusie

Dit paper biedt een robuuste oplossing voor het probleem van onbeperkte contextgroei in LLM-gebaseerde TTS-systemen. Door een slimme combinatie van prosodische grensmarkering en beperkte schuifvenster-prompting, kunnen systemen nu:

Real-time spraak genereren terwijl tekst binnenkomt.
Lange teksten verwerken zonder in te storten of de spreker-identiteit te verliezen.
Natuurlijke prosodie behouden door gebruik te maken van beperkte toekomstige context.

De bevindingen zijn significant omdat ze aantonen dat complexe architecturale wijzigingen of perfecte uitlijningsdata niet nodig zijn om robuuste streaming-TTS te realiseren. Dit opent de deur voor betere interactieve systemen, zoals chatbots en spraak-naar-spraak vertaling, die direct en natuurlijk kunnen reageren.

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

1. Het Probleem: De "Blinde" Verteller

2. De Oplossing: De "Slimme Wegwijzer"

3. Hoe het werkt in de praktijk

4. Wat levert dit op?

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem