Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Schauspieler, der einen Text vorliest. Der Text selbst ist das Skript (die Wörter). Aber wie Sie den Text vortragen – ob Sie wütend schreien, traurig flüstern oder fröhlich lachen – das ist die Stimmung (die Emotion).

Bisher hatten Computer-Sprachmodelle (TTS) ein Problem: Wenn man ihnen sagte „Sag das wütend", wussten sie oft nicht genau, wie sie das machen sollten. Manchmal veränderten sie einfach die Stimme (den Klang), manchmal die Wörter, und manchmal klang es einfach nur seltsam. Es war wie ein Schauspieler, der versucht, wütend zu sein, aber stattdessen einfach nur lauter schreit, ohne wirklich wütend zu klingen.

Diese neue Forschungslösung nennt sich Causal Prosody Mediation (Kausale Prosodie-Vermittlung). Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Grundproblem: Der „verwirrte Schauspieler"

Stellen Sie sich vor, Sie geben einem Computer den Befehl: „Sag den Satz 'Ich habe Hunger' traurig."

Der alte Weg: Der Computer könnte den Satz traurig sagen, aber dabei auch die Wörter verzerren oder die Stimme so verändern, dass es klingt, als wäre es eine andere Person. Er vermischt alles durcheinander.
Das Ziel: Wir wollen, dass der Computer versteht: Die Wörter bleiben gleich, die Stimme (wer spricht) bleibt gleich, aber nur der Vortrag (wie lange die Wörter dauern, wie hoch die Stimme ist, wie laut es ist) ändert sich, um die Traurigkeit auszudrücken.

2. Die Lösung: Ein strenger Regisseur (Das Kausale Modell)

Die Autoren haben dem Computer einen neuen „Regisseur" gegeben, der auf einem Kausalen Modell basiert. Das ist wie eine strenge Regel für den Schauspieler:

Die Regel: „Emotion darf die Stimme nur über den Vortrag beeinflussen."
Die Metapher: Stellen Sie sich vor, die Emotion ist ein Chef, der einen Mittelsmann (den Vortrag) anweist, was zu tun ist. Der Chef darf dem Schauspieler (der Stimme) nicht direkt sagen: „Sei traurig!" Er muss dem Mittelsmann sagen: „Mach die Pausen länger, senk die Stimme, mach es leiser." Und erst dann führt der Mittelsmann diese Anweisungen aus.

Wenn der Chef versucht, dem Schauspieler direkt etwas zu flüstern (ohne den Mittelsmann), wird er vom Regisseur erwischt und bestraft. Das zwingt den Computer, Emotionen nur durch echte Veränderungen im Rhythmus, der Tonhöhe und der Lautstärke auszudrücken.

3. Der Trick: „Was-wäre-wenn"-Training (Counterfactuals)

Das ist der coolste Teil. Der Computer lernt nicht nur aus echten Beispielen, sondern er spielt „Was-wäre-wenn"-Szenarien durch.

Das Szenario: Der Computer nimmt einen Satz, der eigentlich „wütend" gesagt wurde.
Die Frage: „Was wäre, wenn derselbe Schauspieler denselben Satz genau gleich vortragen würde, aber diesmal mit der Emotion 'glücklich'?"
Die Lektion:
1. Wenn der Computer den Satz einfach nur „glücklich" macht, aber die Wörter verändert, wird er bestraft (das darf nicht passieren).
2. Wenn er den Satz „glücklich" macht, aber die Stimme (den Klang) verändert, wird er auch bestraft.
3. Er muss also nur die Tonhöhe und den Rhythmus ändern, um glücklich zu klingen.

Es ist, als würde man einem Schüler sagen: „Schreib denselben Aufsatz, aber diesmal so, als wärst du ein Clown." Der Schüler darf keine neuen Wörter erfinden und darf nicht plötzlich eine andere Handschrift haben. Er muss nur den Stil ändern.

4. Die zwei neuen Werkzeuge (Die Verlustfunktionen)

Um das zu erzwingen, haben die Forscher zwei neue Werkzeuge entwickelt:

Der „Nicht-Direkt-Kontakt"-Filter (IPC): Er stellt sicher, dass die Emotion die Stimme nicht direkt verändert. Die Emotion muss immer erst durch den „Mittelsmann" (den Vortrag) gehen.
Der „Unterschieds-Checker" (CPC): Er stellt sicher, dass die Emotion wirklich etwas bewirkt. Wenn der Computer sagt „Ich bin traurig", muss der Vortrag auch wirklich traurig klingen (langsam, tief), sonst wird er bestraft.

5. Das Ergebnis: Ein perfekter Schauspieler

Am Ende haben die Forscher ein System, das:

Verständlich bleibt: Die Wörter werden nicht verschluckt (weniger Fehler beim Erkennen).
Die Stimme bewahrt: Wenn Sie eine männliche Stimme wählen, bleibt sie männlich, egal ob sie wütend oder traurig ist.
Emotionen klar trennt: Man kann den Text nehmen und einfach den Schalter von „wütend" auf „glücklich" umlegen, und der Computer passt nur den Vortrag an, ohne den Rest zu zerstören.

Zusammenfassend:
Statt dem Computer zu erlauben, alles durcheinanderzuwerfen, haben die Forscher ihm beigebracht, Emotionen wie einen Koch zu behandeln, der nur die Gewürze (Tonhöhe, Lautstärke, Tempo) ändert, aber das Essen (die Wörter) und den Teller (die Stimme) unverändert lässt. Das macht die künstliche Stimme nicht nur verständlicher, sondern auch viel ausdrucksstärker und kontrollierbarer.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Causal Prosody Mediation for Text-to-Speech: Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2" auf Deutsch.

1. Problemstellung

Das Hauptproblem bei der aktuellen Text-zu-Sprache (TTS)-Synthese liegt in der Erzeugung von ausdrucksstarker Sprache, die emotionale Nuancen (Prosodie, Rhythmus, Intonation) korrekt vermittelt.

One-to-Many Mapping: Ein gegebener Text kann auf viele plausible Arten gesprochen werden. Herkömmliche Modelle wie FastSpeech2 (FS2) nutzen Varianzprädiktoren (für Dauer, Tonhöhe, Energie), um diese Variabilität zu modellieren, tun dies jedoch oft implizit ohne explizite Emotionssteuerung.
Entanglement (Verschlingung): Bestehende Ansätze, die Emotionen als Eingabe verwenden (z. B. durch Embeddings), führen oft zu einer Verschlingung von Emotion, Sprecheridentität und linguistischem Inhalt. Das Modell kann Emotionen durch unkontrollierte Änderungen der Timbre oder der Aussprache simulieren, was die Intelligibilität (Verständlichkeit) und die Konsistenz der Sprecherstimme beeinträchtigt.
Fehlende Kausalität: Es gibt keine prinzipielle Garantie, dass eine Emotion nur durch prosodische Änderungen (wie höhere Tonhöhe bei Wut) realisiert wird, anstatt den Inhalt zu verfälschen.

2. Methodik: Kausale Prosodie-Mediation (CPM)

Die Autoren schlagen ein neues Framework vor, das kausale Lernprinzipien in die FastSpeech2-Architektur integriert. Das Ziel ist es, die Emotion als Ursache zu trennen, die ihre Wirkung auf die Sprachausgabe ausschließlich über den Mediator „Prosodie" (Dauer, Tonhöhe, Energie) entfaltet.

A. Strukturiertes Kausales Modell (SCM)

Das Modell basiert auf einem kausalen Graphen mit folgenden Variablen:

X: Text (linguistischer Inhalt)
E: Emotion (Ziel-Emotion)
S: Sprecheridentität
M: Prosodie-Features (Dauer, Tonhöhe, Energie) – Der Mediator
Y: Synthesisierte Sprachwelle (Mel-Spektrum)

Die zentrale Hypothese ist: Emotion (E) beeinflusst die Sprache (Y) nur indirekt über die Prosodie (M). Ein direkter Pfad von $E \to Y$ (der den Inhalt oder die Timbre direkt verändert, ohne Prosodie zu ändern) soll eliminiert werden. Dies wird formalisiert durch die Bedingung der bedingten Unabhängigkeit: $Y \perp E \mid (X, M, S)$ .

B. Architektur: Emotion-Augmented FastSpeech2

Das Standard-FastSpeech2-Modell wird erweitert:

Encoder: Erhält zusätzlich zum Phonem-Input Embeddings für Sprecher ( $S$ ) und Emotion ( $E$ ).
Varianz-Adapter: Die Prädiktoren für Dauer, Tonhöhe und Energie werden explizit mit dem Emotions-Embedding konditioniert.
Decoder: Erhält keine direkte Emotionsinformation. Er soll sich ausschließlich auf die vom Adapter bereitgestellten Prosodie-Features ( $M$ ) stützen. Dies erzwingt den kausalen Pfad $E \to M \to Y$ .

C. Counterfactual Training (Gegenfaktisches Training)

Um die kausale Struktur während des Trainings zu erzwingen, werden zwei neue Verlustfunktionen eingeführt, die auf „Was-wäre-wenn"-Szenarien basieren:

Indirect Path Constraint (IPC):
- Ziel: Den direkten Effekt von Emotion auf die Sprachausgabe ( $E \to Y$ ) minimieren.
- Mechanismus: Für ein gegebenes Text-Sprecher-Paar wird die Emotion im Decoder künstlich geändert (z. B. von „Wut" zu „Trauer"), während die Prosodie-Features ( $M$ ) fixiert bleiben.
- Verlust: Die Ausgabe des Modells darf sich bei dieser Änderung der Emotion (bei fixierter Prosodie) nicht ändern. Dies zwingt den Decoder, Emotionsinformationen zu ignorieren, wenn sie nicht über die Prosodie laufen.
Counterfactual Prosody Constraint (CPC):
- Ziel: Sicherstellen, dass der indirekte Pfad ( $E \to M \to Y$ ) funktioniert und Emotionen durch messbare Prosodie-Änderungen ausgedrückt werden.
- Mechanismus: Es wird ein Szenario simuliert, in dem die Emotion geändert wird und die Prosodie entsprechend angepasst wird.
- Verlust: Besteht aus zwei Teilen:
  - Content Consistency: Der linguistische Inhalt muss identisch bleiben (gemessen über WER-Differenz).
  - Emotion Recognition: Die generierte Sprache muss vom Emotionsklassifikator als die neue Ziel-Emotion erkannt werden.
- Effekt: Das Modell wird gezwungen, Emotionen nur durch Anpassung von Tonhöhe, Dauer und Energie zu kodieren, ohne den Text zu verändern.

Der Gesamtverlust ist eine gewichtete Summe aus dem Standard-TTS-Verlust (Spektrogramm-Rekonstruktion) und den kausalen Verlusten ( $L_{IPC}$ und $L_{CPC}$ ).

3. Wichtige Beiträge

Kausale Modellierung in TTS: Erstmalige Anwendung eines strukturellen kausalen Modells, das Prosodie als Mediator für Emotionen in der TTS-Synthese definiert.
Neue Trainingsziele: Einführung von IPC und CPC, die auf kontrafaktischem Reasoning basieren, um eine saubere Trennung von Inhalt, Sprecher und Emotion zu erzwingen.
Verbesserte FS2-Architektur: Entwicklung einer generalisierbaren Architektur, die Emotionen konditioniert, ohne zusätzliche Referenz-Encoder oder adversariales Training zu benötigen.
Interpretierbarkeit: Das Modell ermöglicht eine kontrollierte Bearbeitung der Prosodie („gleicher Satz, andere Emotion"), da die Faktoren entkoppelt sind.

4. Ergebnisse und Evaluation

Das Modell wurde auf den Datensätzen LibriTTS, VCTK und EmoV-DB (Multi-Speaker, Multi-Emotion) evaluiert und mit Baselines (Vanilla FS2, FS2 mit naive Emotion-Embeddings, und Post-hoc CAE-Editing) verglichen.

Objektive Metriken:
- Intelligibilität (WER): Das CPM-Modell erzielte die niedrigste Wortfehlerrate (3,1 %), was zeigt, dass die kausalen Constraints die Verständlichkeit nicht beeinträchtigen.
- Sprecherähnlichkeit: Hohe Cosine-Similarity (0,88), besser als bei Post-hoc-Editing-Methoden (0,79), was zeigt, dass die Sprecheridentität bei Emotionswechseln erhalten bleibt.
- Emotionsgenauigkeit: Ein externer Klassifikator erkannte die intendierte Emotion in 94 % der Fälle (vs. 80 % bei der naiven Baseline).
- Content Consistency Score (CCS): > 0,96, was bedeutet, dass sich der Textinhalt beim Wechsel der Emotion kaum änderte.
Subjektive Bewertung (MOS/DMOS):
- Mean Opinion Score (MOS): 4,45 (signifikant höher als Baselines), was auf eine höhere Natürlichkeit hindeutet.
- Emotion Similarity (DMOS): 4,3 von 5. Hörer empfanden die Emotionen als authentischer und weniger „erzwungen".
- Qualitative Analyse: Die Modellierung von „Wut" (höhere Tonhöhe, kürzere Dauer) und „Trauer" (tiefere Tonhöhe, langsamere Tempo) entsprach menschlichen Erwartungen, während Baselines oft unklar oder inkonsistent waren.
Ablationsstudien:
- Ohne IPC: Das Modell begann, Emotionen direkt über Timbre-Änderungen zu kodieren (Verschlechterung der Content-Konsistenz).
- Ohne CPC: Das Modell behielt den Inhalt bei, drückte die Emotion aber kaum aus (monotoner Klang).

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass die Integration von kausalen Lernprinzipien in generative Modelle die Kontrollierbarkeit und Ausdruckskraft von TTS-Systemen erheblich verbessert.

Interpretierbarkeit: Durch die Trennung der Faktoren können Entwickler genau verstehen, wie Emotionen generiert werden (nur über $M$ ).
Kontrolle: Es ermöglicht eine präzise Nachbearbeitung (Counterfactual Editing) ohne erneutes Training des Modells.
Limitationen: Das Modell betrachtet nur Dauer, Tonhöhe und Energie als Mediatoren. Feinere akustische Merkmale (z. B. Stimmqualität, „creaky voice" bei Müdigkeit), die nicht direkt in diesen drei Parametern liegen, werden nicht explizit erfasst. Zudem erhöht das kontrafaktische Training den Rechenaufwand um ca. 1,5-fach.

Zusammenfassend bietet das Paper einen robusten theoretischen und praktischen Rahmen für die Erzeugung von emotionaler Sprache, der die Lücke zwischen statistischer Korrelation und kausaler Steuerung schließt.