TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Die Autoren stellen TTSDS2 vor, ein robustes Metrik-System, das als einzige von 16 verglichenen Kennzahlen in allen Domänen eine signifikante Korrelation mit subjektiven Bewertungen aufweist, und stellen zudem umfangreiche Ressourcen wie einen Datensatz mit über 11.000 Bewertungen und ein mehrsprachiges Benchmark für die Evaluierung menschenähnlicher Text-zu-Sprache-Systeme bereit.

Christoph Minixhofer, Ondrej Klejch, Peter Bell

Veröffentlicht 2026-03-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🎙️ TTSDS2: Der neue „Klang-Test" für künstliche Stimmen

Stell dir vor, wir leben in einer Welt, in der Computer so gut darin sind, menschliche Stimmen zu imitieren, dass man sie kaum noch von echten Menschen unterscheiden kann. Das ist toll für Menschen, die ihre Stimme verloren haben, aber es bringt auch ein riesiges Problem mit sich: Wie messen wir eigentlich, wie gut diese Computer-Stimmen wirklich sind?

Bisher war das wie ein blindes Glücksspiel. Forscher haben oft nur auf Zahlen geschaut (wie eine Art „Fehlerzähler"), die aber oft nicht sagten, ob die Stimme auch natürlich klingt. Oder sie haben echte Menschen gebeten, sich die Stimmen anzuhören und eine Note zu geben. Das ist aber teuer, dauert ewig und ist schwer zu vergleichen, weil jeder Mensch anders urteilt.

Die Autoren dieses Papers (Christoph, Ondrej und Peter von der Universität Edinburgh) haben sich gedacht: „Wir brauchen einen besseren Maßstab." Und so haben sie TTSDS2 erfunden.

1. Das Problem: Der „Blinde Fleck" der Bewertung

Früher hat man TTS-Systeme (Text-to-Speech) wie einen Schüler geprüft, indem man ihm eine Aufgabe gab und eine Note gab. Aber die neuen Systeme sind so gut, dass sie manchmal sogar „besser" klingen als echte Aufnahmen.

  • Die alte Methode: Man vergleicht die Computer-Stimme mit einer Original-Stimme Wort für Wort. Das funktioniert aber nicht mehr, weil die Computer-Stimmen oft anders klingen, aber trotzdem perfekt natürlich wirken.
  • Das neue Problem: Wenn man nur auf die „Fehler" schaut, sieht man nicht, ob die Stimme auch Emotionen oder den richtigen Rhythmus hat.

2. Die Lösung: TTSDS2 – Der „Musik-Verstärker"

Stell dir TTSDS2 nicht wie einen strengen Lehrer vor, der jedes einzelne Wort auf Fehler prüft. Stell es dir eher wie einen erfahrenen Musikproduzenten vor, der in einen großen Raum geht und sagt: „Hört mal, wie sich die ganze Gruppe anhört."

TTSDS2 schaut nicht auf ein einzelnes Wort, sondern auf das Gesamtbild (die Verteilung) der Stimme. Es vergleicht die „Atmosphäre" der Computer-Stimme mit der Atmosphäre echter Menschen.

Es prüft dabei vier wichtige Dinge, wie ein Auto-Test, der nicht nur den Motor, sondern auch das Fahrgefühl, den Komfort und die Sicherheit prüft:

  1. Der „Gesamt-Eindruck" (Generic): Klingt es überhaupt wie Sprache? (Wie ein Motor, der nicht klopft).
  2. Die „Identität" (Speaker): Klingt es wie die Person, die wir hören wollten? (Wie ein Schauspieler, der seine Rolle trifft).
  3. Der „Rhythmus" (Prosody): Hat die Stimme den richtigen Takt, die richtigen Pausen und die richtige Betonung? (Wie ein guter Dirigent, der ein Orchester leitet).
  4. Die „Verständlichkeit" (Intelligibility): Kann man den Text verstehen? (Wie ein klarer Lautsprecher).

3. Der große Test: 20 Systeme, 14 Sprachen

Die Forscher haben 20 der besten aktuellen KI-Stimm-Systeme getestet. Sie haben diese Systeme in vier verschiedene „Umwelten" geworfen, um zu sehen, wie robust sie sind:

  • Der „Studio-Typ" (Clean): Perfekte Aufnahmen aus Hörbüchern.
  • Der „Straßen-Typ" (Noisy): Aufnahmen mit Hintergrundlärm.
  • Der „Chaotische Typ" (Wild): Echte YouTube-Videos mit verschiedenen Sprechstilen.
  • Der „Kinder-Typ" (Kids): Gespräche von Kindern (sehr schwer zu imitieren).

Das Ergebnis?
Von 16 verschiedenen Messmethoden war TTSDS2 die einzige, die in allen Situationen und mit allen menschlichen Bewertungen übereinstimmte.

  • Vergleich: Stell dir vor, du hast 16 Thermometer. 15 davon zeigen bei Hitze mal 20 Grad, mal 40 Grad, mal Minus. Aber TTSDS2 zeigt immer genau die Temperatur an, die du auch fühlst.

4. Der „Lebende" Benchmark: Ein sich selbst erneuernder Garten

Ein großes Problem bei solchen Tests ist, dass die Daten schnell veralten. Wenn ein KI-System heute trainiert wird, könnte es morgen schon die Testdaten auswendig gelernt haben (wie ein Schüler, der die Lösungen für die Prüfung hat).

Die Autoren haben einen automatischen Garten-Pflege-Roboter gebaut (ein Software-Pipeline):

  1. Er sucht jeden Tag auf YouTube nach neuen Videos in 14 verschiedenen Sprachen.
  2. Er schneidet die besten Teile heraus.
  3. Er filtert alles Unangemessene heraus.
  4. Er gibt diese neuen Daten sofort an die KI-Systeme, um sie zu testen.

So ist der Test immer frisch, immer aktuell und niemand kann die Antworten vorher „auswendig lernen".

5. Warum ist das wichtig?

  • Für die Wissenschaft: Es hilft Entwicklern, ihre Systeme schneller zu verbessern, ohne jedes Mal Tausende von Menschen fragen zu müssen.
  • Für die Gesellschaft: Je besser wir verstehen, wie gut KI-Stimmen sind, desto besser können wir auch Risiken wie Deepfakes (Betrug mit gefälschten Stimmen) erkennen und bekämpfen.
  • Für die Inklusion: Es hilft, Stimmen für Menschen zu bauen, die ihre eigene Stimme durch Krankheit verloren haben, damit sie wieder natürlich klingen.

Fazit

TTSDS2 ist wie ein neuer, super-kluger Richter für Stimmen. Er schaut nicht nur auf Fehler, sondern darauf, wie „menschlich" sich die Stimme anfühlt. Und da er in 14 Sprachen und in verschiedenen Umgebungen funktioniert, ist er aktuell das beste Werkzeug, um die Zukunft der Sprach-KI zu messen.

Kurz gesagt: TTSDS2 sagt uns nicht nur, ob die KI „richtig" spricht, sondern ob sie „echt" klingt.