TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Each language version is independently generated for its own context, not a direct translation.

🎙️ TTSDS2: Der neue „Klang-Test" für künstliche Stimmen

Stell dir vor, wir leben in einer Welt, in der Computer so gut darin sind, menschliche Stimmen zu imitieren, dass man sie kaum noch von echten Menschen unterscheiden kann. Das ist toll für Menschen, die ihre Stimme verloren haben, aber es bringt auch ein riesiges Problem mit sich: Wie messen wir eigentlich, wie gut diese Computer-Stimmen wirklich sind?

Bisher war das wie ein blindes Glücksspiel. Forscher haben oft nur auf Zahlen geschaut (wie eine Art „Fehlerzähler"), die aber oft nicht sagten, ob die Stimme auch natürlich klingt. Oder sie haben echte Menschen gebeten, sich die Stimmen anzuhören und eine Note zu geben. Das ist aber teuer, dauert ewig und ist schwer zu vergleichen, weil jeder Mensch anders urteilt.

Die Autoren dieses Papers (Christoph, Ondrej und Peter von der Universität Edinburgh) haben sich gedacht: „Wir brauchen einen besseren Maßstab." Und so haben sie TTSDS2 erfunden.

1. Das Problem: Der „Blinde Fleck" der Bewertung

Früher hat man TTS-Systeme (Text-to-Speech) wie einen Schüler geprüft, indem man ihm eine Aufgabe gab und eine Note gab. Aber die neuen Systeme sind so gut, dass sie manchmal sogar „besser" klingen als echte Aufnahmen.

Die alte Methode: Man vergleicht die Computer-Stimme mit einer Original-Stimme Wort für Wort. Das funktioniert aber nicht mehr, weil die Computer-Stimmen oft anders klingen, aber trotzdem perfekt natürlich wirken.
Das neue Problem: Wenn man nur auf die „Fehler" schaut, sieht man nicht, ob die Stimme auch Emotionen oder den richtigen Rhythmus hat.

2. Die Lösung: TTSDS2 – Der „Musik-Verstärker"

Stell dir TTSDS2 nicht wie einen strengen Lehrer vor, der jedes einzelne Wort auf Fehler prüft. Stell es dir eher wie einen erfahrenen Musikproduzenten vor, der in einen großen Raum geht und sagt: „Hört mal, wie sich die ganze Gruppe anhört."

TTSDS2 schaut nicht auf ein einzelnes Wort, sondern auf das Gesamtbild (die Verteilung) der Stimme. Es vergleicht die „Atmosphäre" der Computer-Stimme mit der Atmosphäre echter Menschen.

Es prüft dabei vier wichtige Dinge, wie ein Auto-Test, der nicht nur den Motor, sondern auch das Fahrgefühl, den Komfort und die Sicherheit prüft:

Der „Gesamt-Eindruck" (Generic): Klingt es überhaupt wie Sprache? (Wie ein Motor, der nicht klopft).
Die „Identität" (Speaker): Klingt es wie die Person, die wir hören wollten? (Wie ein Schauspieler, der seine Rolle trifft).
Der „Rhythmus" (Prosody): Hat die Stimme den richtigen Takt, die richtigen Pausen und die richtige Betonung? (Wie ein guter Dirigent, der ein Orchester leitet).
Die „Verständlichkeit" (Intelligibility): Kann man den Text verstehen? (Wie ein klarer Lautsprecher).

3. Der große Test: 20 Systeme, 14 Sprachen

Die Forscher haben 20 der besten aktuellen KI-Stimm-Systeme getestet. Sie haben diese Systeme in vier verschiedene „Umwelten" geworfen, um zu sehen, wie robust sie sind:

Der „Studio-Typ" (Clean): Perfekte Aufnahmen aus Hörbüchern.
Der „Straßen-Typ" (Noisy): Aufnahmen mit Hintergrundlärm.
Der „Chaotische Typ" (Wild): Echte YouTube-Videos mit verschiedenen Sprechstilen.
Der „Kinder-Typ" (Kids): Gespräche von Kindern (sehr schwer zu imitieren).

Das Ergebnis?
Von 16 verschiedenen Messmethoden war TTSDS2 die einzige, die in allen Situationen und mit allen menschlichen Bewertungen übereinstimmte.

Vergleich: Stell dir vor, du hast 16 Thermometer. 15 davon zeigen bei Hitze mal 20 Grad, mal 40 Grad, mal Minus. Aber TTSDS2 zeigt immer genau die Temperatur an, die du auch fühlst.

4. Der „Lebende" Benchmark: Ein sich selbst erneuernder Garten

Ein großes Problem bei solchen Tests ist, dass die Daten schnell veralten. Wenn ein KI-System heute trainiert wird, könnte es morgen schon die Testdaten auswendig gelernt haben (wie ein Schüler, der die Lösungen für die Prüfung hat).

Die Autoren haben einen automatischen Garten-Pflege-Roboter gebaut (ein Software-Pipeline):

Er sucht jeden Tag auf YouTube nach neuen Videos in 14 verschiedenen Sprachen.
Er schneidet die besten Teile heraus.
Er filtert alles Unangemessene heraus.
Er gibt diese neuen Daten sofort an die KI-Systeme, um sie zu testen.

So ist der Test immer frisch, immer aktuell und niemand kann die Antworten vorher „auswendig lernen".

5. Warum ist das wichtig?

Für die Wissenschaft: Es hilft Entwicklern, ihre Systeme schneller zu verbessern, ohne jedes Mal Tausende von Menschen fragen zu müssen.
Für die Gesellschaft: Je besser wir verstehen, wie gut KI-Stimmen sind, desto besser können wir auch Risiken wie Deepfakes (Betrug mit gefälschten Stimmen) erkennen und bekämpfen.
Für die Inklusion: Es hilft, Stimmen für Menschen zu bauen, die ihre eigene Stimme durch Krankheit verloren haben, damit sie wieder natürlich klingen.

Fazit

TTSDS2 ist wie ein neuer, super-kluger Richter für Stimmen. Er schaut nicht nur auf Fehler, sondern darauf, wie „menschlich" sich die Stimme anfühlt. Und da er in 14 Sprachen und in verschiedenen Umgebungen funktioniert, ist er aktuell das beste Werkzeug, um die Zukunft der Sprach-KI zu messen.

Kurz gesagt: TTSDS2 sagt uns nicht nur, ob die KI „richtig" spricht, sondern ob sie „echt" klingt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Bewertung von Text-to-Speech (TTS)-Systemen ist zunehmend schwierig und ressourcenintensiv.

Subjektive Metriken: Der Goldstandard, der Mean Opinion Score (MOS) aus Hörtests, ist schwer zwischen verschiedenen Arbeiten vergleichbar, da sich die Teilnehmer und Versuchsaufbauten stark unterscheiden. Zudem ist die Durchführung sehr kostspielig.
Objektive Metriken: Bisherige objektive Metriken (wie PESQ, STOI, MOS-Vorhersagen oder speaker-similarity-basierte Metriken) wurden selten umfassend gegen subjektive Bewertungen validiert.
Qualitätssprung: Moderne TTS-Systeme erzeugen synthetische Sprache, die für menschliche Hörer oft nicht mehr von echter Sprache zu unterscheiden ist. Viele bestehende Metriken versagen in diesen Szenarien oder korrelieren nicht mehr zuverlässig mit menschlichen Einschätzungen, insbesondere in komplexen Domänen (z. B. laute Umgebungen, spontane Sprache, Kinderstimmen).
Mangel an Benchmarks: Es gab bisher keine öffentlichen Benchmarks, die über die englische Sprache hinausgehen und gleichzeitig eine Vielzahl von Systemen unter kontrollierten Bedingungen (gleiche Sprecher, gleiche Domänen) vergleichen.

2. Methodik: TTSDS2

Die Autoren stellen TTSDS2 (Text to Speech Distribution Score 2) vor, eine robuste Weiterentwicklung des ursprünglichen TTSDS. Es handelt sich um eine verteilungsbasierte (distributional) Metrik, die nicht einzelne Samples vergleicht, sondern die Ähnlichkeit ganzer Datensätze misst.

Funktionsweise:
- Das Ziel ist es, die empirische Verteilung von Merkmalen eines synthetischen Datensatzes ( $\tilde{P}$ ) mit der eines realen Referenzdatensatzes ( $P$ ) zu vergleichen, während sie gleichzeitig von Rauschverteilungen ( $P_{NOISE}$ ) unterscheidbar bleiben.
- Es wird der 2-Wasserstein-Abstand (Earth Mover's Distance) verwendet, um die Distanzen zwischen den Verteilungen zu berechnen.
- Der Score wird normalisiert auf eine Skala von 0 (identisch mit Rauschen) bis 100 (identisch mit realer Referenz).
Faktorisierte Bewertung: TTSDS2 zerlegt die Sprachqualität in vier wahrnehmungsbasierte Faktoren, die jeweils mit mehreren Feature-Repräsentationen bewertet werden:
1. GENERIC: Gesamte Verteilungsähnlichkeit (mittels SSL-Embeddings wie wav2vec 2.0, WavLM, HuBERT).
2. SPEAKER: Realismus der Sprecheridentität (z. B. via WeSpeaker, d-Vector).
3. PROSODY: Qualität von Tonhöhe, Dauer und Rhythmus (z. B. WORLD F0, Prosodie-Embeddings, Sprechgeschwindigkeit).
4. INTELLIGIBILITY: Verständlichkeit (basierend auf ASR-Features wie Aktivierungen von Whisper oder wav2vec, statt reiner Word Error Rate).
Robustheit: Im Gegensatz zum Vorgänger wurden die Feature-Auswahl und die Gewichtung so optimiert, dass sie über verschiedene Domänen hinweg stabil bleiben. Die Autoren verwenden einen einfachen, ungewichteten Durchschnitt der Faktorscores, da dies besser generalisiert als gelernte Gewichte (die zu Overfitting neigen).

3. Wichtige Beiträge und Ressourcen

Das Paper bietet mehr als nur eine neue Metrik; es stellt ein komplettes Ökosystem für die Evaluation bereit:

TTSDS2 Metrik: Eine neue, hochkorrelierte objektive Metrik.
Hörtest-Datensatz: Ein Datensatz mit über 11.000 subjektiven Bewertungen (MOS, CMOS, SMOS) für 20 TTS-Systeme über 4 verschiedene Domänen (Clean, Noisy, Wild, Kids).
Automatisierte Pipeline: Ein Open-Source-Pipeline (verfügbar auf GitHub), die automatisch ein multilinguales Testdatenset aus YouTube-Videos erstellt. Dies verhindert Datenlecks, da die Videos nach der Veröffentlichung der Modelle gesammelt werden.
Multilinguales Benchmark: Der erste öffentliche Benchmark, der 14 Sprachen abdeckt, mit automatisierter Neuberechnung, um die Relevanz langfristig zu sichern.
Vergleichsstudie: Eine umfassende Evaluation von 20 Open-Source-TTS-Systemen (veröffentlicht zwischen 2022–2024).

4. Ergebnisse

Die Evaluation umfasste 20 TTS-Systeme und verglich TTSDS2 mit 16 anderen objektiven Metriken (einschließlich MOS-Vorhersagen wie UTMOS, Speaker Similarity wie X-Vector, und Signal-Metriken wie PESQ).

Korrelation mit menschlichen Urteilen:
- TTSDS2 ist die einzige der 16 getesteten Metriken, die in jedem getesteten Bereich (Clean, Noisy, Wild, Kids) und für jede subjektive Bewertung (MOS, CMOS, SMOS) eine Spearman-Korrelation von $\rho > 0.50$ erreicht.
- Die durchschnittliche Korrelation über alle Domänen liegt bei $\rho \approx 0.67$ .
- Andere Metriken (wie UTMOSv2, FAD oder Signal-basierte Metriken) zeigen in komplexen Domänen (z. B. „Wild" oder „Kids") oft keine signifikante Korrelation oder sogar negative Werte.
Systemvergleich:
- Systeme wie E2-TTS, Vevo und F5-TTS erreichten die höchsten Scores und liegen nahe an oder sogar über der menschlichen Ground-Truth (in Bezug auf MOS/CMOS).
- Ältere oder weniger robuste Systeme (z. B. SpeechT5, NaturalSpeech2) schnitten deutlich schlechter ab.
Generalisierung: Die Studie zeigt, dass TTSDS2 auch für Sprachen funktioniert, für die keine spezifischen Hörtests durchgeführt wurden (Validierung über linguistische Distanzen).

5. Bedeutung und Ausblick

Effizienzsteigerung: TTSDS2 ermöglicht eine schnelle, kostengünstige und zuverlässige Evaluation von TTS-Systemen, ohne aufwändige Hörtests durchführen zu müssen. Dies beschleunigt die Entwicklung neuer Systeme.
Zuverlässigkeit: Da die Metrik stark mit menschlichen Urteilen korreliert, kann sie als verlässlicher Proxy für die „menschliche Qualität" dienen, insbesondere bei Systemen, die menschliche Leistung erreichen oder übertreffen.
Ethik und Sicherheit: Die Autoren betonen, dass die Metrik auf Verteilungen (Datensätzen) basiert und nicht auf einzelnen Samples. Dies macht sie weniger geeignet für die Entwicklung von Deepfakes im Einzelfall, aber potenziell nützlich zur Erkennung großangelegter synthetischer Sprachkampagnen.
Inklusion: Durch die Erweiterung auf 14 Sprachen und die Open-Source-Pipeline wird die Forschung inklusiver und weniger auf englischsprachige, clean-read-Daten beschränkt.

Fazit: TTSDS2 stellt einen bedeutenden Fortschritt in der TTS-Evaluation dar. Es löst das Problem der mangelnden Vergleichbarkeit und der schlechten Korrelation bestehender objektiver Metriken mit menschlichen Urteilen in realistischen Szenarien und bietet gleichzeitig die notwendigen Ressourcen (Daten, Code, Benchmark), um die Forschung im Bereich menschenähnlicher Sprachsynthese voranzutreiben.

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

🎙️ TTSDS2: Der neue „Klang-Test" für künstliche Stimmen

1. Das Problem: Der „Blinde Fleck" der Bewertung

2. Die Lösung: TTSDS2 – Der „Musik-Verstärker"

3. Der große Test: 20 Systeme, 14 Sprachen

4. Der „Lebende" Benchmark: Ein sich selbst erneuernder Garten

5. Warum ist das wichtig?

Fazit

1. Problemstellung

2. Methodik: TTSDS2

3. Wichtige Beiträge und Ressourcen

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

2-D Directed Formation Control Based on Bipolar Coordinates

Funnel Control Under Hard and Soft Output Constraints (extended version)

Hallucination Detection in Virtually-Stained Histology: A Latent Space Baseline

Channel and Spectrum Consumption Models for Urban Outdoor-to-Outdoor 28 GHz Wireless

Recent Advances in Near-Field Beam Training and Channel Estimation for XL-MIMO Systems