TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Each language version is independently generated for its own context, not a direct translation.

🎙️ Le Dilemme de la Voix Synthétique : Comment savoir si c'est "vrai" ?

Imaginez que nous vivions dans un monde où les robots peuvent parler aussi bien que des humains. C'est ce qui arrive aujourd'hui avec l'intelligence artificielle (IA) qui transforme du texte en parole (TTS). Le problème ? Comment faire la différence entre une vraie voix humaine et une voix de robot ?

C'est là que cette étude, baptisée TTSDS2, entre en jeu. Elle propose une nouvelle règle du jeu pour évaluer ces voix.

1. Le Problème : Les Tests Humains sont Lents et Chers

Pour savoir si une voix est bonne, la méthode traditionnelle consiste à faire écouter des enregistrements à des humains et à leur demander : "Sur une échelle de 1 à 5, combien c'est naturel ?".

Le hic : C'est long, ça coûte cher, et chaque fois que l'on change de testeur, les résultats changent. C'est comme essayer de comparer la température de deux fours en utilisant deux thermomètres différents qui ne sont pas calibrés de la même façon.

2. La Solution : Une "Balance" Mathématique (TTSDS2)

Les auteurs ont créé un nouvel outil appelé TTSDS2. Au lieu de demander à des humains d'écouter chaque voix, cet outil utilise les mathématiques pour comparer la "forme" des voix.

L'analogie de la "Soupe" :
Imaginez que vous voulez comparer deux soupes :

La vraie soupe (Humaine) : Elle a un mélange parfait d'épices, de légumes et de bouillon.
La soupe robot (Synthétique) : Elle essaie de copier la vraie.
La soupe ratée (Bruit) : C'est juste de l'eau sale ou du sable.

Avant, on goûtait chaque cuillère (échantillon) pour juger.
TTSDS2, lui, ne goûte pas une cuillère. Il analyse l'ensemble de la casserole. Il regarde la répartition des épices, la couleur, la texture globale. Il se demande : "Est-ce que la distribution des ingrédients de cette soupe robot ressemble à celle de la vraie soupe, ou est-ce qu'elle ressemble plus à du sable ?"

3. Les 4 Piliers de la "Vraie Voix"

Pour être un bon imitateur, un robot ne doit pas juste sonner "humain" globalement. Il doit réussir sur quatre fronts, comme un chef qui doit maîtriser plusieurs techniques :

L'Identité (Le Visage) : Est-ce que la voix ressemble bien à la personne qu'elle imite ? (Comme un acteur qui joue un rôle).
L'Intelligibilité (Le Message) : Est-ce qu'on comprend ce qui est dit ? (Pas de mots déformés).
La Prosodie (Le Rythme) : Est-ce que la voix a le bon rythme, les bonnes pauses et la bonne intonation ? (Comme un musicien qui joue avec le feeling, pas juste avec un métronome).
Le Général (L'Atmosphère) : Est-ce que le son global est naturel, sans grésillements bizarres ?

TTSDS2 vérifie ces quatre aspects en même temps.

4. Le Grand Tournoi : 20 Robots en Ligne de Départ

Les chercheurs ont pris 20 systèmes de voix IA créés entre 2022 et 2024 (des stars du moment comme VALL-E, Bark, VoiceCraft, etc.) et les ont mis à l'épreuve.

Le Défi : Ils ne les ont pas testés seulement sur des livres audio (ce qui est facile pour les robots), mais aussi sur des situations difficiles :
- Du bruit de fond (comme dans un café).
- Des conversations spontanées (comme à la télé).
- La voix d'enfants (très difficile à imiter).
Le Résultat : Parmi 16 outils de mesure différents, TTSDS2 est le seul à avoir réussi le test. Il a prédit avec une grande précision ce que les humains auraient pensé, partout et pour tout le monde. Les autres outils ont souvent échoué, surtout dans les situations complexes.

5. Le "Jardin Botanique" Multilingue

Jusqu'à présent, on testait surtout l'anglais. Cette étude a créé un jardin botanique avec des voix dans 14 langues (français, chinois, espagnol, arabe, etc.).

Ils ont même construit un robot-jardinier automatique (un pipeline) qui va chercher de nouvelles vidéos sur YouTube, nettoie les voix, et teste les robots IA en permanence. Cela permet de s'assurer que les robots ne "trichent" pas en ayant mémorisé les vidéos de test (un peu comme un élève qui apprendrait les réponses par cœur au lieu de comprendre la leçon).

🏆 En Résumé : Pourquoi c'est important ?

Pour les chercheurs : C'est une boussole fiable. Au lieu de perdre des mois à organiser des tests humains, ils peuvent utiliser TTSDS2 pour savoir si leur nouvelle invention est vraiment meilleure.
Pour la société : Plus nous avons de bons outils pour détecter les voix synthétiques, mieux nous pouvons protéger les gens contre l'usurpation d'identité (les "deepfakes" vocaux).
Pour les humains : Cela aide à créer de meilleures voix pour les personnes qui ont perdu la parole à cause d'une maladie, en s'assurant que les robots apprennent à imiter la nature humaine avec justesse.

En une phrase : TTSDS2 est le nouveau "thermomètre de précision" qui nous dit si une voix d'IA est vraiment humaine, sans avoir besoin de faire écouter un seul enregistrement à un humain.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'évaluation des systèmes de synthèse vocale (Text-to-Speech ou TTS) fait face à des défis majeurs :

Limites des métriques subjectives : Les scores d'opinion moyens (MOS) obtenus par des tests d'écoute sont coûteux en ressources, difficiles à comparer d'une étude à l'autre (à cause des différences de listeners et de protocoles) et ne peuvent pas être automatisés.
Limites des métriques objectives : Les métriques objectives existantes (PESQ, STOI, MCD, réseaux de prédiction de MOS comme UTMOS) sont souvent mal corrélées avec les jugements humains, surtout lorsque les systèmes TTS récents produisent une voix synthétique indiscernable de la parole réelle.
Évolution des domaines : Les systèmes TTS modernes ne se limitent plus aux livres audio (parole lue) mais génèrent de la parole spontanée, bruyante, avec des émotions variées et dans de multiples langues. Les benchmarks actuels sont souvent monolingues (anglais) et obsolètes face à la rapidité des progrès.
Manque de robustesse : Aucune métrique objective ne parvient à maintenir une corrélation élevée avec les évaluations humaines à travers différents domaines (bruit, enfants, conversation) et langues.

2. Méthodologie : TTSDS2

Les auteurs proposent TTSDS2 (Text-to-Speech Distribution Score 2), une métrique objective améliorée et plus robuste par rapport à la version originale TTSDS.

Approche Fondamentale

Contrairement aux métriques qui comparent des échantillons un par un, TTSDS2 est une métrique distributionnelle. Elle traite la génération de parole comme un problème de similarité de distributions. L'objectif est de mesurer à quel point la distribution des caractéristiques d'un ensemble de données synthétiques ( $\tilde{P}$ ) se rapproche de celle d'une référence réelle ( $P$ ), tout en restant distincte du bruit ( $P_{NOISE}$ ).

Architecture et Facteurs

TTSDS2 évalue la similarité distributionnelle selon quatre facteurs perceptuels motivés par la psychologie acoustique, chacun utilisant plusieurs représentations de caractéristiques (features) :

GENERIC : Similarité distributionnelle globale via des embeddings auto-supervisés (SSL) comme wav2vec 2.0, WavLM et HuBERT.
SPEAKER : Réalisme de l'identité du locuteur (utilisant WeSpeaker et d-Vector).
PROSODY : Qualité de la hauteur (pitch), de la durée et du rythme (utilisant WORLD F0, embeddings de prosodie, et taux de parole dérivé de HuBERT et Allosaurus).
INTELLIGIBILITY : Compréhensibilité du texte (utilisant les activations finales de modèles de reconnaissance automatique de la parole - ASR - comme Whisper et wav2vec 2.0, plutôt que le taux d'erreur motiel (WER) qui s'est avéré peu fiable pour les données réelles).

Calcul du Score

Distance de Wasserstein (W2) : Pour comparer les distributions de caractéristiques, TTSDS2 utilise la distance de Wasserstein d'ordre 2 (Earth Mover's Distance). Elle est symétrique et capable de distinguer des distributions non chevauchantes.
Normalisation : Le score est normalisé entre 0 et 100 en comparant la distance entre la synthèse et le bruit ( $W^2_{NOISE}$ ) à la distance entre la synthèse et la parole réelle ( $W^2_{REAL}$ ).
$\text{Score} = 100 \times \frac{W^2_{NOISE}}{W^2_{REAL} + W^2_{NOISE}}$
Agrégation : Le score final est la moyenne arithmétique non pondérée des scores des quatre facteurs. Cette approche simple s'est révélée plus robuste et généralisable que l'apprentissage de poids complexes.

Pipeline Multilingue et Automatisation

Pour éviter la fuite de données (data leakage) et maintenir le benchmark à jour, les auteurs ont développé un pipeline automatisé (décrit dans l'Algorithme 1) qui :

Scrappe des vidéos YouTube récentes (postérieures à la publication des modèles) dans 14 langues.
Utilise Whisper pour la diarisation et l'extraction d'énoncés.
Filtre le contenu controversé via un modèle d'implication (XNLI) et détecte la musique de fond/crosstalk.
Génère des échantillons synthétiques pour chaque système TTS évalué.
Calcule les scores TTSDS2.

3. Contributions Clés

TTSDS2 : Une métrique objective robuste qui corrèle fortement avec les évaluations humaines (Spearman $\rho > 0.50$ ) dans tous les domaines et langues testés, surpassant 15 autres métriques de l'état de l'art.
Ressources de Données :
- Un jeu de données contenant plus de 11 000 notes d'opinion humaine (MOS, CMOS, SMOS) collectées auprès de 200 annotateurs.
- Un pipeline open-source pour recréer dynamiquement un jeu de données d'évaluation multilingue.
Benchmark Multilingue : La première évaluation comparative publique de 20 systèmes TTS (sortis entre 2022 et 2024) couvrant 14 langues.
Analyse de Parité : Identification des systèmes qui atteignent ou dépassent la qualité humaine (parité MOS/CMOS à moins de 0.05 de la vérité terrain).

4. Résultats Expérimentaux

L'évaluation a porté sur 20 systèmes TTS open-source à travers 4 domaines :

CLEAN : Parole lue (Livres audio).
NOISY : Parole lue avec du bruit de fond.
WILD : Parole spontanée (YouTube, interviews, débats).
KIDS : Conversations d'enfants (domaine rare dans l'entraînement).

Résultats Principaux :

Corrélation : TTSDS2 est la seule métrique parmi les 16 comparées à maintenir une corrélation de Spearman supérieure à 0.50 pour chaque domaine et chaque score subjectif (MOS, CMOS, SMOS). Sa corrélation moyenne est de 0.67.
Performance des concurrents : Les métriques de prédiction de MOS (UTMOS, DNSMOS) et les métriques basées sur le signal (PESQ, STOI) échouent souvent hors du domaine d'entraînement (notamment sur les données "Wild" et "Kids"). Les métriques de similarité de locuteur (X-Vector, RawNet3) fonctionnent bien mais sont moins robustes que TTSDS2 sur l'ensemble des facteurs.
Systèmes Évalués : Des systèmes comme E2-TTS, Vevo et F5-TTS obtiennent des scores TTSDS2 très élevés (>90), se rapprochant de la vérité terrain (93.21). D'autres, comme NaturalSpeech2 ou SpeechT5, obtiennent des scores plus faibles.
Validité Multilingue : Les scores TTSDS2 calculés sur les données réelles de différentes langues corrélaient négativement avec les distances typologiques linguistiques (Uriel+), confirmant que la métrique capture bien les variations linguistiques.

5. Signification et Impact

Fiabilité de l'évaluation : TTSDS2 offre un moyen fiable, reproductible et automatisé d'évaluer la qualité des TTS, réduisant la dépendance aux tests d'écoute coûteux et non comparables.
Accélération de la recherche : En fournissant un benchmark standardisé et extensible, les chercheurs peuvent comparer plus efficacement leurs modèles et identifier les domaines où les systèmes échouent encore (ex: parole d'enfants, bruit).
Sécurité et Éthique : Bien que les progrès du TTS posent des risques (deepfakes), une bonne évaluation permet de mieux comprendre les capacités des systèmes. TTSDS2, étant une métrique distributionnelle, est moins adaptée à la création de deepfakes individuels mais pourrait aider à détecter des campagnes de synthèse vocale à grande échelle.
Inclusion : Le support de 14 langues et la disponibilité du pipeline encouragent le développement de TTS de haute qualité pour des langues moins dotées en ressources.

En conclusion, ce travail établit un nouvel étalon-or pour l'évaluation objective des systèmes TTS de qualité humaine, en combinant une rigueur mathématique (distances de Wasserstein sur des distributions) avec une validation empirique massive et multilingue.