TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Each language version is independently generated for its own context, not a direct translation.

De TTS-Distributiescore 2 (TTSDS2): Een Nieuwe Meetlat voor Robotstemmen

Stel je voor dat je een grote wedstrijd hebt voor robotstemmen. De robots (TTS-systemen) moeten tekst omzetten in spraak die zo natuurlijk klinkt dat je het niet kunt onderscheiden van een echt mens. Maar hoe weet je wie er wint?

In het verleden was dit lastig. Je moest duizenden mensen laten luisteren en vragen: "Klinkt dit goed?" (een score van 1 tot 5). Dit heet een "MOS-test". Het probleem? Het is duur, tijdrovend en elke keer dat je het doet, zijn de mensen anders, waardoor de resultaten niet eerlijk vergelijkbaar zijn.

Aan de andere kant hebben we computers die automatisch scores geven. Maar die zijn vaak net zo foutief als een thermometer die de temperatuur meet, maar vergeet dat het buiten vriest. Ze kijken naar de geluidsgolven, maar snappen niet of het klinkt als een mens of als een robot.

De Oplossing: TTSDS2

De auteurs van dit paper hebben een nieuwe, slimme meetlat bedacht: TTSDS2.

Stel je voor dat je wilt weten of een nepdiamant echt is. Je kunt hem niet alleen van dicht bekijken (dat is de oude manier). Je moet kijken naar de collectieve eigenschappen van de steen. Klinkt het als een hele groep echte mensen, of als een groep robots die proberen mens te doen?

TTSDS2 werkt als een detective die naar een hele menigte kijkt in plaats van naar één persoon.

Hoe werkt het? (De 4 Sleutels)

TTSDS2 kijkt niet naar één ding, maar verdeelt de "menselijkheid" van een stem in vier categorieën, alsof je een schilderij beoordeelt op vier verschillende aspecten:

De Stem (Speaker): Klinkt het als een echte, unieke persoon? Of klinkt het als een saaie, standaardstem?
De Ritme (Prosody): Klinkt het natuurlijk? Heeft het de juiste pauzes, de juiste snelheid en de juiste intonatie? (Denk aan hoe je praat als je boos bent versus als je blij bent).
De Begrijpelijkheid (Intelligibility): Kunnen we alles verstaan? Klinkt het als een mens die spreekt, of als een machine die woorden uitkraakt?
De Algemene Sfeer (Generic): Klinkt het als een normaal gesprek of als een vreemd geluid?

Deze vier delen worden gemeten met geavanceerde technologie (die we "neural networks" noemen, maar stel je voor als super-snelle luisteroefeningen voor computers). Vervolgens wordt er een Wasserstein-afstand berekend.

De Analogie van de Aardappelzak:
Stel je hebt een zak met echte aardappelen (echte mensen) en een zak met plastic aardappelen (robots).

De oude methoden keken naar één aardappel en probeerden te raden of die echt was.
TTSDS2 kijkt naar de hele zak. Hoe dichtbij ligt de verdeling van de plastic aardappelen bij de echte aardappelen? Als de plastic zak precies dezelfde vorm, grootte en gewicht heeft als de echte zak, dan is de score hoog. Als de plastic zak eruitziet als een hoop plastic ballen, is de score laag.

Waarom is dit belangrijk?

Het werkt overal: De onderzoekers hebben dit getest op 20 verschillende robotsystemen in 14 talen. Of het nu gaat om een rustig voorlezen van een boek, een luidruchtig gesprek op straat, of zelfs de stem van een kind. TTSDS2 is de enige methode die consistent goed werkt.
Het is eerlijk: Omdat het kijkt naar de hele dataset en niet naar één specifieke stem, kun je verschillende robotsystemen eerlijk met elkaar vergelijken.
Het voorkomt "cheaten": De onderzoekers hebben een automatische machine gebouwd die elke keer nieuwe, verse audio-opnames van YouTube haalt. Zo weten ze zeker dat de robots niet hebben "geleerd" van de testvragen (geen data-lekkage). Het is alsof je een examen geeft met een willekeurige set vragen die elke keer opnieuw wordt gegenereerd.

De Resultaten

In de test bleek dat TTSDS2 de enige was die een sterke link had met wat mensen echt vonden. Andere methoden faalden vaak, vooral bij moeilijke situaties (zoals ruisende achtergronden of kinderstemmen).

Kortom:
TTSDS2 is als een nieuwe, super-snelle en eerlijke jury voor robotstemmen. In plaats van duizenden mensen te laten luisteren, kijkt deze slimme computer naar de "groepsgedrag" van de stemmen en zegt hij precies hoe dicht de robots bij de menselijkheid komen. Dit helpt ontwikkelaars om betere stemmen te maken (voor mensen die hun stem verliezen door ziekte) en helpt ons ook om te zien wanneer robots te goed worden (om nepnieuws of dieptepijpen te detecteren).

Het is een stap in de richting van een wereld waar we kunnen vertrouwen op wat we horen, en waar we precies weten hoe goed onze digitale assistenten eigenlijk klinken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De evaluatie van Text-to-Speech (TTS) systemen is uitdagend en resource-intensief. Hoewel recente TTS-modellen synthetische spraak kunnen genereren die voor mensen ononderscheidbaar is van echte spraak, ontbreekt het aan betrouwbare evaluatiemethoden:

Subjectieve metrics (zoals Mean Opinion Score - MOS) zijn duur, tijdrovend en moeilijk te vergelijken tussen verschillende studies vanwege verschillen in luisteraars en testopzet.
Objectieve metrics worden vaak gebruikt, maar worden zelden gevalideerd tegen subjectieve scores. Veel bestaande methoden (zoals PESQ, STOI, of MOS-predictie netwerken) falen bij het evalueren van de nieuwste, hoogwaardige TTS-systemen, vooral in diverse domeinen (zoals ruis, spontane gesprekken of kinderstemmen).
Er is geen publieke benchmark die verder gaat dan het Engels, terwijl multilinguale TTS snel evolueert.

Methodologie

De auteurs introduceren TTSDS2 (Text-to-Speech Distribution Score 2), een verbeterde en robuustere versie van de oorspronkelijke TTSDS. De kern van de methode is een distributiegebaseerde benadering in plaats van het vergelijken van individuele samples.

Factorisatie van Spraak: TTSDS2 evalueert spraak op basis van vier perceptuele factoren:
- GENERIC: Algemene distributieve gelijkenis via SSL-embeddings (Self-Supervised Learning).
- SPEAKER: Realisme van de stemidentiteit.
- PROSODY: Kwaliteit van toonhoogte (pitch), duur en ritme.
- INTELLIGIBILITY: Begrijpelijkheid, afgeleid van ASR-features.
Feature Selectie en Robuustheid:
- In tegenstelling tot de oorspronkelijke TTSDS, gebruikt TTSDS2 geavanceerdere features (bijv. WavLM in plaats van alleen HuBERT, WeSpeaker voor stemidentiteit, en Whisper-activaties voor intelligibiliteit).
- De auteurs hebben de features geselecteerd om overfitting te voorkomen en ensureerden dat ze hoge scores behalen voor echte data (ground truth).
Berekening (Wasserstein Distance):
- De methode vergelijkt de empirische verdeling van features van synthetische data met die van echte data en ruisverdelingen.
- Er wordt gebruikgemaakt van de 2-Wasserstein-afstand (Earth Mover's Distance).
- De score wordt genormaliseerd tussen 0 (identiek aan ruis) en 100 (identiek aan echte data). De formule is:
  $TTSDS2 = 100 \times \frac{W^2_{NOISE}}{W^2_{REAL} + W^2_{NOISE}}$
- De finale score is het ongewogen gemiddelde van de scores van de vier factoren.
Multilinguale Pipeline:
- Om data-lekkage te voorkomen en de benchmark up-to-date te houden, hebben de auteurs een geautomatiseerde pipeline ontwikkeld.
- Deze pipeline scrapt YouTube-video's (na publicatie van de TTS-modellen), filtert op taal, verwijdert ruis/muziek, en selecteert single-speaker segments.
- Dit proces wordt herhaaldelijk uitgevoerd voor 14 talen.

Kernbijdragen

TTSDS2 Metric: Een nieuwe objectieve metric die consistent correleert met menselijke beoordelingen over diverse domeinen (clean, ruis, wild/spontaan, kinderstemmen).
Groot Dataset: Een dataset met meer dan 11.000 subjectieve beoordelingen (MOS, CMOS, SMOS) over 20 TTS-systemen in 4 domeinen.
Multilinguale Benchmark: De eerste publieke benchmark voor TTS in 14 talen, ondersteund door een open-source, herhaalbare pipeline.
Validatie: Een uitgebreide vergelijking met 16 andere state-of-the-art objectieve metrics.

Resultaten

De auteurs evalueerden 20 open-source TTS-systemen (gepubliceerd tussen 2022-2024) tegen de menselijke "gold standard" (MOS, CMOS, SMOS).

Superieure Correlatie: TTSDS2 is de enige metric van de 16 vergeleken methoden die in elk domein en voor elk subjectief criterium een Spearman-correlatie van > 0,50 behaalt.
- De gemiddelde correlatie voor TTSDS2 is 0,67.
- Andere metrics zoals UTMOSv2, DNSMOS of FAD faalden vaak in specifieke domeinen (bijv. "KIDS" of "WILD").
Stabiliteit: Een ablatiestudie toonde aan dat het gebruik van een ongewogen gemiddelde van de factoren (in plaats van een geleerde weging) beter generaliseert naar nieuwe domeinen en overfitting voorkomt.
Vergelijking met Mensen: TTSDS2 kan systemen rangschikken die menselijke kwaliteit benaderen of zelfs overtreffen (bijv. E2-TTS en Vevo scoren zeer hoog, dicht bij de ground truth).
Multilinguale Validatie: De scores van TTSDS2 correleren significant met linguïstische typologische afstanden tussen de 14 talen, wat aantoont dat de metric ook in multilinguale contexten werkt.

Betekenis en Impact

Betrouwbare Evaluatie: TTSDS2 biedt de gemeenschap een betrouwbaar, objectief alternatief voor dure luistertests, wat de ontwikkeling van nieuwe TTS-systemen versnelt.
Reproduceerbaarheid: De open-source pipeline zorgt ervoor dat benchmarks niet verouderd raken door data-lekkage en dat resultaten reproduceerbaar zijn.
Veiligheid en Ethiek: Hoewel TTS-risico's (zoals deepfakes) bestaan, is TTSDS2 ontworpen om distributies van datasets te evalueren, niet individuele samples. Dit maakt het minder geschikt voor het iteratief verbeteren van één specifieke deepfake, maar wel nuttig voor het detecteren van grootschalige synthetische spraakcampagnes.
Inclusiviteit: Door 14 talen te omvatten, verlegt de paper de focus van enkel Engels naar een meer inclusieve evaluatie van wereldwijde spraaktechnologie.

Kortom, TTSDS2 stelt een nieuwe standaard voor in de TTS-evaluatie door een robuuste, distributiegebaseerde metric te bieden die nauw aansluit bij menselijke perceptie, ongeacht de complexiteit van de spraakdomeinen of de taal.

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Hoe werkt het? (De 4 Sleutels)

Waarom is dit belangrijk?

De Resultaten

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

2-D Directed Formation Control Based on Bipolar Coordinates

Funnel Control Under Hard and Soft Output Constraints (extended version)

Hallucination Detection in Virtually-Stained Histology: A Latent Space Baseline

Channel and Spectrum Consumption Models for Urban Outdoor-to-Outdoor 28 GHz Wireless

Recent Advances in Near-Field Beam Training and Channel Estimation for XL-MIMO Systems