Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die tekst voorleest. Tot nu toe was die robot een beetje als een robot: hij sprak elke zin op precies dezelfde manier, alsof hij een saai verslag voorlas. Of hij nu boos, blij of verdrietig moest klinken, zijn stem bleef koud en eentonig.

De auteurs van dit paper hebben een slimme oplossing bedacht om die robot menselijker te maken. Ze noemen hun methode "Causal Prosody Mediation". Dat klinkt ingewikkeld, maar het is eigenlijk heel logisch. Laten we het uitleggen met een paar simpele vergelijkingen.

1. Het Probleem: De Verwarde Chef

Stel je voor dat je een chef-kok (de AI) hebt die een gerecht (de spraak) moet bereiden.

De tekst is het recept (wat er op het bord moet komen).
De emotie is de sfeer (moet het gerecht zacht en lief zijn, of pittig en scherp?).
De prosodie (de toonhoogte, het tempo en de volume) is de manier waarop je het gerecht serveert.

In de oude robots (zoals FastSpeech2) was de chef een beetje verward. Als je zei: "Maak dit gerecht boos", dan veranderde de chef soms het recept zelf (de woorden werden verward) of veranderde hij de smaak van het gerecht (de stemklank van de spreker) in plaats van alleen de manier van serveren aan te passen. De robot wist niet precies waarom iets boos klinkt.

2. De Oplossing: De Strikte Chef en de Tussenpersoon

De auteurs hebben een nieuwe regel ingevoerd, gebaseerd op een idee uit de logica dat ze een Structural Causal Model noemen.

Stel je voor dat de Emotie (bijv. boosheid) een Chef is.
Stel je voor dat de Spraak (het geluid) de Gast is.
En de Prosodie (tempo, toonhoogte, volume) is de Tussenpersoon (de ober).

De oude robots lieten de Chef soms direct met de Gast praten. Dat leidde tot chaos.
De nieuwe methode zegt: "De Chef mag nooit direct met de Gast praten! De Chef moet altijd via de Ober gaan."

Als de Chef boos is, moet hij de Ober (de prosodie) vertellen: "Maak het tempo sneller, maak de stem harder en de toon hoger!"
De Ober voert dit uit.
De Gast (het geluid) hoort alleen de veranderingen van de Ober, niet de Chef zelf.

Dit zorgt ervoor dat de tekst (het recept) precies hetzelfde blijft, maar dat de manier waarop het wordt gezegd, perfect past bij de emotie.

3. De Slimme Truc: "Wat als?" (Counterfactual Training)

Om deze robot echt slim te maken, hebben de auteurs een speciale training gebruikt die ze Counterfactual Training noemen. Dit is als een "Wat als?"-spel.

Tijdens het leren stelt de computer zichzelf vragen als:

"Stel, deze zin wordt gezegd door een vriendelijke vrouw, maar wat als ze boos zou zijn? Hoe zou dat klinken?"

Maar hier is de truc: ze dwingen de robot om alleen het tempo en de toonhoogte te veranderen. Ze zeggen tegen de robot: "Je mag de woorden niet veranderen, en je mag de stem van de vrouw niet veranderen. Alleen de 'Ober' (de prosodie) mag aan de slag."

Ze gebruiken twee speciale regels (verliesfuncties) om dit te forceren:

De "Geen Kortsluiting" Regel: Als de Ober (prosodie) hetzelfde blijft, mag het geluid niet veranderen, zelfs niet als de Emotie verandert. Dit zorgt ervoor dat de robot niet probeert de emotie te "smokkelen" via andere weggetjes.
De "Duidelijke Verandering" Regel: Als de Emotie verandert, moet de Ober (prosodie) duidelijk veranderen. Als de robot probeert de emotie te verbergen, krijgt hij een boze blik (een straf in de training).

4. Wat levert dit op?

Dankzij deze methode is de nieuwe robot veel beter in:

Natuurlijk klinken: De stem klinkt niet meer als een robot die een script voorleest, maar als een mens die echt voelt wat hij zegt.
Woorden behouden: De robot verandert de betekenis van de zin niet. Als je "Ik hou van jou" zegt met een boze stem, klinkt het boos, maar de woorden blijven "Ik hou van jou".
Stemherkenning: Als je de stem van een specifieke persoon gebruikt, blijft die persoon herkenbaar, ook als ze boos of verdrietig klinkt. De robot verandert niet zomaar van persoon.

Samenvatting

In het kort: De auteurs hebben een robot leren praten door hem een strikte regel te geven: "Emoties mogen alleen invloed hebben op hoe je spreekt (snelheid, volume, toon), nooit op wat je zegt of wie je bent."

Ze hebben dit gedaan door de robot constant te laten oefenen met "Wat als"-scenario's, zodat hij precies leert welke knoppen hij moet draaien om een zin boos, blij of verdrietig te laten klinken, zonder de tekst te verpesten. Het resultaat is een stem die niet alleen begrijpelijk is, maar ook echt menselijk aanvoelt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Causal Prosody Mediation for Text-to-Speech: Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2" in het Nederlands.

Probleemstelling

Hoewel moderne Text-to-Speech (TTS) systemen, zoals FastSpeech2, zeer natuurlijke spraak kunnen genereren, blijft het controleren van expressiviteit (emotie, ritme, intonatie) een uitdaging. Het huidige probleem is de "one-to-many"-mapping: eenzelfde tekst kan op vele manieren worden uitgesproken. Bestaande methoden voor emotionele TTS voegen vaak emotie-embeddings toe aan het netwerk, maar dit leidt tot verstrengeling (entanglement). Het model kan emotie onbedoeld beïnvloeden door de stemkwaliteit (timbre) of de linguïstische inhoud te wijzigen, in plaats van uitsluitend via de prosodie (duur, toonhoogte, energie). Dit resulteert in een gebrek aan controleerbaarheid en kan de verstaanbaarheid of de consistentie van de spreker aantasten.

Methodologie

De auteurs stellen een nieuw raamwerk voor: Causal Prosody Mediation (CPM). Ze benaderen het probleem vanuit een causaal perspectief en gebruiken een Structural Causal Model (SCM) om te garanderen dat emotie de spraak uitsluitend beïnvloedt via prosodische kenmerken.

1. Causaal Model (SCM)

Het model definieert de volgende variabelen:

X: Tekst (linguïstische inhoud).
E: Emotie (bedoelde stijl/sfeer).
S: Sprekeridentiteit.
M: Prosodie (duur, pitch, energie).
Y: Geïntegreerde spraak (waveform/spectrogram).

De kernhypothese is dat M de mediator is tussen E en Y. Er mag geen directe causale weg zijn van Emotie naar Spraak ( $E \to Y$ ) die de prosodie omzeilt. Alle effecten van emotie moeten gefilterd worden door de prosodische variabelen.

2. Architectuur: Emotion-Augmented FastSpeech2

Het basismodel is FastSpeech2, uitgebreid met:

Emotie-conditioning: Emotie-embeddings worden toegevoegd aan de encoder en de variatie-predictors (voor duur, pitch, energie).
Geen directe emotie-invoer in de decoder: De decoder ontvangt geen directe emotie-invoer, maar leunt volledig op de gegenereerde prosodische features. Dit dwingt het model om emotie te vertalen naar prosodie.

3. Counterfactual Training Objectieven

Om het causale model te forceren, introduceren de auteurs twee nieuwe verliesfuncties (loss terms) gebaseerd op counterfactual reasoning ("wat als"-scenario's):

Indirect Path Constraint (IPC):
- Doel: Elimineer het directe effect van emotie op de spraakoutput.
- Methode: Tijdens training wordt een counterfactual scenario gegenereerd waarbij de prosodie ( $M$ ) vastgehouden wordt, maar de emotie ( $E$ ) wordt veranderd naar een andere emotie ( $E'$ ).
- Verlies: Als de output verandert ondanks dezelfde prosodie, betekent dit dat er een directe $E \to Y$ weg is. Het IPC-verlies straft deze verandering af, zodat het model leert dat emotie alleen via prosodie werkt.
Counterfactual Prosody Constraint (CPC):
- Doel: Zorg dat de indirecte weg ( $E \to M \to Y$ ) wel degelijk werkt en emotie onderscheidt.
- Methode: Hierbij wordt zowel de emotie als de daaruit voortvloeiende prosodie veranderd.
- Verlies: Bestaat uit twee delen:
  1. Content Consistency: De tekst moet identiek blijven (gemeten via Word Error Rate).
  2. Emotion Recognition: De gegenereerde spraak moet herkenbaar zijn als de nieuwe emotie (gemeten via een classificatieverlies).
- Dit dwingt het model om de prosodische variabelen (pitch, energie, duur) actief aan te passen om de emotie te communiceren, zonder de inhoud te veranderen.

Kernbijdragen

Causale Modellering van Prosodie: De eerste toepassing van een structureel causaal model in TTS waarbij prosodie expliciet wordt gedefinieerd als de mediator van emotie.
Counterfactual Training: Introductie van IPC en CPC verliesfuncties om verstrengeling te voorkomen en causale disentanglement te forceren tijdens het trainen (in plaats van post-hoc bewerking).
Verbeterde FastSpeech2: Een robuuste implementatie die emotie-conditioning combineert met causale beperkingen zonder extra adversarial training of referentie-encoders te vereisen.
Interpreteerbaarheid: Het model biedt een schone scheiding tussen inhoud, spreker en emotie, wat gecontroleerde bewerking ("same utterance, different emotion") mogelijk maakt.

Resultaten

Het model is getest op meerdere datasets (LibriTTS, VCTK, EmoV-DB) en vergeleken met baselines (Vanilla FastSpeech2, FastSpeech2 met emotie-embedding, en post-hoc Counterfactual Activation Editing).

Objectieve Metrieken:
- Emotie-nauwkeurigheid (EA): CPM scoorde 94% (tegenover 80% voor de naieve baseline), wat aangeeft dat de gegenereerde spraak beter herkenbaar is als de bedoelde emotie.
- Content Consistency Score (CCS): 0.96, wat aantoont dat de tekstinhoud perfect behouden blijft bij emotiewisselingen.
- Spreker-identiteit (SS): Hoge consistentie (0.88), beter dan post-hoc editing-methoden die vaak de stemkwaliteit verstoren.
- Verstaanbaarheid (WER): Laagste woordfoutpercentage (3.1%), wat aangeeft dat de causaliteit de duidelijkheid niet schaadt.
Subjectieve Metrieken (MOS):
- De CPM-modellen behaalden een hogere Mean Opinion Score (4.45) voor natuurlijkheid en expressiviteit dan alle baselines.
- Menselijke luisteraars vonden de emoties (zoals boosheid en verdriet) authentieker en minder "gedwongen" dan bij andere methoden.
Ablatiestudies:
- Zonder IPC: De decoder begon emotie direct te beïnvloeden, wat leidde tot inconsistenties in de stemkwaliteit.
- Zonder CPC: De inhoud bleef goed, maar de emotie werd niet sterk genoeg uitgedrukt (monotoon).

Betekenis en Toekomstperspectief

Dit werk toont aan dat het integreren van causale leerprincipes in generatieve modellen de controleerbaarheid en expressiviteit aanzienlijk kan verbeteren.

Controle: Gebruikers kunnen nu prosodie onafhankelijk manipuleren zonder de tekst of de spreker te veranderen.
Toepassingen: Nuttig voor gepersonaliseerde spraakhulpmiddelen, natuurlijkere virtuele assistenten en creatieve toepassingen.
Beperkingen: Het model gaat uit van de aanname dat emotie volledig wordt vastgelegd door duur, pitch en energie. Subtiele aspecten zoals stemkwaliteit (bijv. "creaky voice" bij vermoeidheid) worden momenteel niet expliciet gemodelleerd.
Ethische overwegingen: Hoewel de technologie positieve toepassingen heeft, brengt gecontroleerde emotie-synthese risico's met zich mee voor deepfakes en manipulatie. De auteurs pleiten voor watermerking en ethische richtlijnen.

Samenvattend biedt dit onderzoek een fundamentele verschuiving in hoe TTS-systemen emotie modelleren: van een statische toevoeging naar een causaal gemedieerd proces dat leidt tot meer robuuste, interpreteerbare en controleerbare spraaksynthese.