Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Chef d'Orchestre Causal : Comment donner des émotions à une voix robotique

Imaginez que vous avez un robot très doué pour lire des textes à voix haute. Il parle parfaitement, mais il a un gros problème : il est monotone. Que vous lui demandiez de lire une blague ou une tragédie, il le fait avec la même voix plate, comme un robot qui ne comprend pas l'émotion.

Les chercheurs de ce papier (Suvendu Sekhar Mohanty) ont voulu régler ce problème. Ils ont créé une nouvelle méthode, qu'ils appellent la « Médiation Prosodique Causale ».

Pour faire simple, voici comment ils ont fait, avec une analogie culinaire.

1. Le Problème : Le Chef qui triche

Dans les systèmes actuels (comme FastSpeech2), si vous voulez que le robot parle avec colère, vous lui donnez l'étiquette « Colère ». Mais le robot est un peu paresseux et malin. Au lieu de changer seulement le ton de sa voix (comme on le ferait en colère), il pourrait changer la forme de ses mots, ajouter des bruits bizarres ou modifier l'accent pour simuler la colère. C'est comme un chef qui, au lieu de mettre du piment dans la soupe pour la rendre piquante, décide de changer la recette entière. Le résultat est imprévisible et parfois bizarre.

2. La Solution : La Règle du « Médiateur »

Les chercheurs ont décidé d'appliquer une règle stricte, basée sur la logique de cause à effet (la « causalité »). Ils ont dit au robot :

« L'émotion (la colère, la joie) n'a le droit de changer que trois choses : la durée des mots (le rythme), la hauteur de la voix (l'aigu/grave) et l'énergie (le volume). »

Ils ont créé un médiateur (un intermédiaire obligatoire).

L'émotion ne peut pas toucher directement la voix finale.
Elle doit passer par le médiateur (le rythme, la hauteur, le volume) pour influencer la voix.

C'est comme si vous vouliez changer la couleur d'une voiture. Au lieu de peindre directement la voiture (ce qui pourrait abîmer le moteur), vous devez passer par un atelier de peinture qui ne modifie que la peinture, sans toucher aux roues ni au moteur.

3. L'Entraînement : Le Jeu du « Et si... ? » (Contrefactuel)

Pour apprendre cette règle au robot, les chercheurs ont utilisé une technique géniale appelée entraînement contrefactuel. C'est un peu comme jouer à un jeu de « Et si... ? » avec le robot.

Ils lui posent des questions impossibles pendant l'entraînement :

« Voici une phrase dite avec joie. Maintenant, imagine que c'est la même phrase, dite par le même locuteur, mais avec une colère totale. »

Le robot doit répondre à cette question en respectant deux règles strictes (deux nouvelles « pénalités » ou loss functions) :

La Règle de la Pureté (IPC) : Si on garde le rythme, la hauteur et le volume exactement les mêmes, mais qu'on change l'étiquette « Émotion » de Joyeux à Triste, la voix ne doit rien changer. Si elle change, c'est que le robot triche en modifiant la voix directement. On le punit !
La Règle de la Différence (CPC) : Si on change l'émotion, le robot doit changer le rythme, la hauteur ou le volume pour que l'on entende la différence. S'il ne change rien, il est puni car il ne fait pas assez d'efforts pour exprimer l'émotion.

4. Les Résultats : Un Robot qui comprend vraiment

Grâce à cette méthode, le robot a appris à séparer parfaitement :

Ce qui est dit (les mots).
Qui le dit (la voix de la personne).
Comment c'est dit (l'émotion).

Les avantages concrets :

Plus naturel : Les gens trouvent la voix plus humaine et moins robotique.
Plus clair : Le robot ne trébuche pas sur les mots quand il change d'émotion (il ne perd pas le sens du texte).
Contrôle total : On peut prendre une phrase neutre et la transformer en colère ou en tristesse sans que la voix de la personne ne change (on garde la même « identité » vocale).

En résumé

Imaginez un acteur qui joue une pièce.

Avant : Si on lui demande de jouer la colère, il pourrait changer son costume, sa coiffure et sa façon de marcher, en plus de sa voix. C'est confus.
Avec cette méthode : On lui dit : « Garde ton costume et ta façon de marcher. Change seulement ta voix et tes gestes pour exprimer la colère. »

Le résultat est un robot qui parle avec des émotions vraies, intelligibles, et que l'on peut contrôler comme un chef d'orchestre, sans que la musique (les mots) ne se transforme en bruit. C'est une avancée majeure pour rendre les assistants vocaux et les livres audio bien plus vivants !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine de la synthèse vocale (TTS) a fait des progrès remarquables en termes de naturalité, mais la génération de parole expressive (conveyant des nuances émotionnelles et prosodiques) reste un défi majeur.

Le problème du "un-to-many" : Un même texte peut être prononcé de multiples façons plausibles. Contrôler précisément comment il est prononcé (ex: joyeusement vs tristement) sans altérer le contenu linguistique ou l'identité du locuteur est complexe.
Limites des approches actuelles : Les modèles modernes comme FastSpeech2 (FS2) gèrent la variabilité via des prédicteurs de durée, de hauteur (pitch) et d'énergie. Cependant, lorsqu'on y ajoute des conditionnements émotionnels (embeddings), les modèles tendent à enchevêtrer (entangle) l'émotion avec d'autres facteurs. L'émotion peut alors modifier involontairement le timbre de la voix, la prononciation des mots ou l'identité du locuteur, plutôt que de se manifester uniquement par des changements prosodiques interprétables.
Manque de contrôlabilité : Il n'existe pas de méthode principielle pour garantir qu'une émotion donnée n'influence la parole que par le biais de la prosodie (rythme, intonation, intensité), et non par des voies directes cachées dans le réseau neuronal.

2. Méthodologie : Médiation Prosodique Causale (CPM)

Les auteurs proposent un cadre novateur basé sur l'apprentissage causal et l'entraînement par contre-factuels, intégré à l'architecture FastSpeech2.

A. Modèle Causal Structurel (SCM)

L'article formalise le processus de synthèse vocale émotionnelle via un graphe causal :

$X$ (Texte) : Contenu linguistique.
$E$ (Émotion) : Style ou humeur visée.
$S$ (Locuteur) : Identité vocale.
$M$ (Prosodie) : Médiateur composé de la durée, du pitch et de l'énergie.
$Y$ (Parole synthétisée) : Sortie finale.

Hypothèse centrale : L'émotion ( $E$ ) n'influence la parole ( $Y$ ) que de manière indirecte, en modulant la prosodie ( $M$ ). Il ne doit exister aucun lien direct $E \to Y$ (flèche pointillée dans le modèle) qui contournerait la prosodie. Si une telle voie directe existe, le modèle risque de déformer le contenu ou le locuteur pour exprimer l'émotion.

B. Architecture du Modèle

Le modèle est une extension de FastSpeech2 avec :

Conditionnement explicite : L'encodeur reçoit des embeddings pour le locuteur ( $S$ ) et l'émotion ( $E$ ).
Prédicteurs de variance : Les prédicteurs de durée, pitch et énergie sont conditionnés par l'émotion pour apprendre à moduler ces paramètres selon l'état émotionnel.
Décodage restreint : Le décodeur (qui génère le spectrogramme) reçoit le contenu et la prosodie, mais pas l'embedding d'émotion directement. Cela force le modèle à passer par les prédicteurs de prosodie.

C. Objectifs d'Entraînement par Contre-factuels

Pour imposer le modèle causal, deux nouvelles fonctions de perte (loss) sont introduites :

Contrainte de Voie Indirecte (IPC - Indirect Path Constraint) :
- But : Éliminer l'effet direct de l'émotion sur la parole.
- Mécanisme : Pendant l'entraînement, on génère un contre-factuel où l'on change l'émotion ( $E \to E'$ ) tout en fixant la prosodie ( $M$ ) à sa valeur originale.
- Perte : Si la sortie vocale change malgré une prosodie fixe, cela signifie qu'il existe une influence directe $E \to Y$ . La perte IPC pénalise cette différence, forçant le décodeur à ignorer l'émotion si la prosodie ne change pas.
Contrainte de Prosodie Contre-factuelle (CPC - Counterfactual Prosody Constraint) :
- But : S'assurer que le chemin indirect $E \to M \to Y$ est bien exploité pour exprimer l'émotion.
- Mécanisme : On change l'émotion ( $E \to E'$ ) et on laisse la prosodie s'adapter.
- Perte : Elle comporte deux parties :
  - Cohérence du contenu : Le texte généré doit rester identique (mesuré par le WER).
  - Reconnaissance de l'émotion : Un classifieur d'émotion auxiliaire doit pouvoir identifier correctement la nouvelle émotion $E'$ à partir de la sortie, forçant le modèle à utiliser la prosodie pour différencier les émotions.

3. Contributions Clés

Modélisation Causale de la Prosodie : Première application d'un modèle structurel causal où la prosodie (durée, pitch, énergie) est explicitement définie comme le médiateur unique de l'effet de l'émotion sur la parole.
Objectif d'Entraînement Contre-factuel : Introduction des pertes IPC et CPC pour forcer la séparation (disentanglement) entre le contenu linguistique, l'identité du locuteur et le style émotionnel.
Architecture FastSpeech2 Améliorée : Développement d'une version de FS2 capable de contrôler l'émotion de manière indépendante sans nécessiter d'encodeurs de style supplémentaires ou d'entraînement adversarial complexe.
Validation Expérimentale : Démonstration que cette approche permet une édition contre-factuelle contrôlée (ex: "même phrase, émotion différente") sans compromettre la naturalité ni l'intelligibilité.

4. Résultats Expérimentaux

L'évaluation a été menée sur des corpus multi-locuteurs et multi-émotions (LibriTTS, VCTK, EmoV-DB) en comparant la méthode CPM à des baselines (FS2 standard, FS2 + embedding émotionnel naïf, et édition post-hoc CAE).

Qualité Audio et Naturalité (MOS) : Le modèle CPM obtient le score MOS le plus élevé (4.45), surpassant significativement les baselines (4.21 pour FS2+Emotion). Les auditeurs jugent l'expressivité plus authentique et moins "forcée".
Intelligibilité (WER) : Le taux d'erreur de mots est le plus bas (3.1%), indiquant que la manipulation émotionnelle n'a pas dégradé la clarté des mots (contrairement à certaines baselines où l'émotion pouvait altérer la prononciation).
Précision Émotionnelle : La précision de classification de l'émotion sur la parole synthétisée atteint 94% (vs 80% pour la baseline), prouvant que les émotions sont mieux rendues.
Cohérence du Locuteur : Le modèle maintient une forte similarité de locuteur (cosine similarity ~0.88) lors du transfert d'émotions entre locuteurs, évitant les artefacts vocaux observés dans les méthodes d'édition post-hoc.
Études d'Abalation :
- Sans IPC : L'émotion réapparaît directement dans le timbre (perte de cohérence du contenu).
- Sans CPC : L'émotion est sous-exprimée (parole trop neutre), bien que la naturalité reste bonne.

5. Signification et Implications

Interprétabilité : En forçant une structure causale, le modèle devient plus transparent. On peut inspecter les sorties intermédiaires (pitch, durée) pour comprendre pourquoi une émotion est perçue.
Contrôlabilité Fine : L'approche permet une édition contre-factuelle fiable. Un utilisateur peut modifier l'émotion d'une phrase générée en ajustant uniquement les paramètres de prosodie, sans altérer le texte ou la voix du locuteur.
Apprentissage Représentationnel : Cela démontre que l'intégration de principes d'inférence causale dans l'apprentissage profond permet de mieux désenchevêtrer les facteurs latents (émotion, contenu, locuteur), un problème central en génération de données.
Limites et Perspectives : Le modèle suppose que l'effet de l'émotion est entièrement capturé par la durée, le pitch et l'énergie, négligeant potentiellement des nuances de qualité vocale (ex: voix rauque pour la fatigue). Les auteurs suggèrent d'étendre le médiateur à d'autres caractéristiques spectrales et d'explorer des étiquettes émotionnelles continues (valence/arousal).

En conclusion, ce travail établit un nouveau paradigme pour le TTS expressif, passant d'une approche empirique d'ajout d'émotions à une approche fondée sur des principes causaux rigoureux pour garantir un contrôle précis et une séparation claire des facteurs de variation.