Controllable Accent Normalization via Discrete Diffusion

Each language version is independently generated for its own context, not a direct translation.

🎙️ DLM-AN : Le "Traducteur d'Accent" Intelligent et Contrôlable

Imaginez que vous apprenez une nouvelle langue, disons l'anglais. Vous parlez couramment, mais avec un fort accent chinois ou indien. Si vous voulez vous entraîner à parler comme un natif, ou si vous êtes un acteur de doublage qui doit imiter un personnage local, vous avez besoin d'un outil magique : un système qui peut transformer votre accent tout en gardant votre voix unique.

C'est exactement ce que propose DLM-AN. C'est un nouveau système informatique capable de "nettoyer" un accent étranger, mais avec une super-puissance : vous pouvez régler l'intensité du changement, comme un bouton de volume.

Voici comment cela fonctionne, expliqué avec des analogies du quotidien.

1. Le Problème : Le "Tout ou Rien"

Jusqu'à présent, les systèmes de conversion d'accent fonctionnaient un peu comme un interrupteur électrique : soit vous gardiez votre accent original (0%), soit le système vous transformait complètement en natif (100%).

Le problème : Parfois, on veut juste adoucir l'accent pour être mieux compris, sans perdre son identité. D'autres fois, on veut un accent parfait pour un film. Les anciens outils ne permettaient pas ce "réglage fin".

2. La Solution : DLM-AN (Le Chef d'Orchestre)

Les chercheurs ont créé un système basé sur une technologie appelée diffusion discrète. Pour faire simple, imaginez que la parole est constituée de petits blocs de Lego (des "tokens") plutôt que d'un flux continu.

Le système DLM-AN agit comme un chef d'orchestre très attentif qui regarde votre musique (votre parole) et décide quoi garder et quoi réécrire.

3. Les Trois Ingénieurs Secrets

Pour réussir ce tour de force, le système utilise trois "ingénieurs" virtuels :

A. Le Détective (Le Prédicteur de Tokens Communs - CTP)
C'est le cerveau du système.

Son travail : Il analyse chaque petit morceau de votre parole. Il se demande : "Est-ce que ce son est prononcé comme un natif ?"
L'analogie : Imaginez que vous réécrivez un texte. Le détective surligne en vert les mots qui sont déjà parfaits et en rouge ceux qui sont mal orthographiés.
Le contrôle : Si vous voulez garder un peu d'accent, le système réutilise les "mots verts" (les sons natifs) et ne réécrit que les "mots rouges". Si vous voulez un accent 100% natif, il efface tout et réécrit tout à partir de zéro. C'est ainsi qu'on obtient ce bouton de contrôle : plus on réutilise les sons d'origine, plus l'accent reste fort.

B. Le Chronométreur (Le Prédicteur de Durée - DP)
Parfois, les accents changent aussi le rythme. Un mot peut être étiré ou raccourci.

Son travail : Il ajuste la durée totale de la phrase pour qu'elle corresponde au rythme naturel d'un locuteur natif.
L'analogie : C'est comme un chef cuisinier qui ajuste le temps de cuisson. Si la recette native demande 10 minutes, mais que vous avez cuisiné pendant 15, il accélère ou ralentit le processus pour que le plat soit parfait, sans changer les ingrédients.

C. Le Peintre (Le Décodeur Diffusion)
C'est l'artiste qui prend les décisions du détective et du chronométreur pour créer la nouvelle voix.

Son travail : Il utilise une technique intelligente (la diffusion) pour reconstruire la parole, brique par brique, en s'assurant que tout sonne naturel et fluide.

4. Pourquoi c'est révolutionnaire ?

Dans les tests, DLM-AN a battu tous les autres systèmes sur plusieurs points :

Précision : Il fait moins d'erreurs de mots (le texte est mieux compris) que les autres.
Naturel : La voix sonne humaine et pas robotique.
Contrôle : C'est la première fois qu'on peut dire : "Je veux garder 30% de mon accent original" ou "Je veux un accent 100% américain", et le système le fait avec fluidité.

En Résumé

Imaginez un studio de radio virtuel.

Vous entrez avec votre voix et votre accent.
Vous avez un bouton de réglage (le contrôle d'intensité).
Si vous le tournez à gauche, le système garde votre accent (comme si vous parliez avec un ami).
Si vous le tournez à droite, il transforme votre voix en celle d'un natif parfait (comme pour un journal télévisé).
Tout cela se fait sans changer votre timbre de voix (votre identité).

C'est une avancée majeure pour l'apprentissage des langues, le doublage de films, et les assistants vocaux personnalisés, car il permet de naviguer doucement entre "moi" et "l'autre".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La normalisation d'accent (Accent Normalization - AN) vise à convertir la parole d'un locuteur non natif (L2) en une forme native (L1) tout en préservant l'identité du locuteur. Bien que des méthodes existantes permettent cette conversion, elles souffrent de limitations majeures :

Manque de contrôle sur l'intensité : La plupart des systèmes effectuent une conversion "totale" (tout ou rien). Or, des applications comme l'apprentissage des langues ou le doublage nécessitent un contrôle fin de la force de l'accent (par exemple, réduire l'accent progressivement tout en gardant une partie de l'identité du locuteur).
Limitations des approches précédentes : Les méthodes basées sur des références dépendent de données natives, tandis que les méthodes sans référence reposent souvent sur des pipelines ASR-TTS ou des modèles de flux continus qui peinent à offrir un contrôle granulaire de la durée et de l'intensité de l'accent.
Gestion de la durée : Les rythmes et durées des accents L2 diffèrent souvent de la norme L1, et les méthodes actuelles ont du mal à ajuster la durée totale de manière naturelle.

2. Méthodologie : DLM-AN

Les auteurs proposent DLM-AN, un système de normalisation d'accent contrôlable basé sur un modèle de langage de diffusion discrète (Discrete Diffusion Language Model - DLM) appliqué à des tokens de parole auto-supervisés.

Architecture Globale

Le pipeline fonctionne en plusieurs étapes :

Extraction de Tokens : Un tokenizer de parole auto-supervisé (basé sur WavLM) convertit l'onde sonore L2 en une séquence de tokens discrets.
Encodage de Contenu : Un encodeur Transformer transforme ces tokens en représentations continues, guidées par des étiquettes phonétiques via une perte CTC (Connectionist Temporal Classification) pour assurer la richesse phonémique.
Prédiction de Tokens Communs (CTP) : Un module clé identifie quels tokens de la source sont susceptibles d'être partagés avec la cible native.
Prédiction du Ratio de Durée (DP) : Un prédicteur basé sur le Flow Matching estime le ratio de durée global nécessaire pour adapter le rythme L2 au rythme L1.
Génération par Diffusion Discrète : Un décodeur Transformer bidirectionnel (inspiré de LLaDA) génère la séquence de tokens cible en masquant et en prédisant itérativement les tokens manquants.
Synthèse : Un synthétiseur de parole (Flow Matching) convertit les tokens cible en spectrogramme Mel, puis en onde sonore via un vocodeur (HiFT).

Mécanismes de Contrôle Clés

Contrôle de la force de l'accent via le CTP (Common Token Predictor) :
- Le CTP attribue un score de confiance à chaque token source, indiquant la probabilité qu'il corresponde à une prononciation native.
- Stratégie de réutilisation : Au lieu de générer tous les tokens à partir de zéro, le système peut réutiliser les tokens sources ayant un score CTP élevé pour initialiser la séquence cible.
- Effet : Plus on réutilise de tokens sources (seuil bas), plus l'accent original est préservé. Plus on génère de nouveaux tokens (seuil haut ou génération complète), plus la normalisation est forte. Cela offre un "bouton" interprétable pour ajuster l'intensité de l'accent.
Contrôle de la durée via le DP (Duration Ratio Predictor) :
- Ce module prédit le ratio $r = \frac{durée_{cible}}{durée_{source}}$ .
- Il permet d'ajuster automatiquement la durée totale de la sortie pour correspondre au rythme natif, ou de respecter une durée spécifique imposée par l'utilisateur.
Modèle de Diffusion Discrète :
- Contrairement aux modèles de diffusion continus (pour les images/audio), DLM-AN opère sur des tokens discrets. Le processus de diffusion forward masque progressivement les tokens (état absorbant [MASK]).
- Le processus inverse prédit les tokens masqués en parallèle (non-autoregressif) conditionné par les représentations de contenu.
- L'utilisation de la Guidance sans Classeur (Classifier-Free Guidance - CFG) améliore la préservation du contenu et la qualité de la génération.

3. Contributions Clés

Premier système AN basé sur la diffusion discrète : Extension du modèle de langage de diffusion (LLaDA) à la parole pour la conversion d'accent, permettant une génération itérative de tokens conditionnée par des représentations phonémiques.
Contrôle interprétable de la force de l'accent : Introduction du prédicteur de tokens communs (CTP) qui permet un contrôle lisse et continu de l'accent (de la normalisation totale à la resynthèse quasi-totale) via la réutilisation sélective de tokens sources.
Prédiction de durée automatique : Intégration d'un prédicteur de ratio de durée basé sur le Flow Matching pour ajuster le rythme global.
Performance supérieure : Démonstration que DLM-AN atteint le taux d'erreur mot (WER) le plus bas parmi les systèmes comparés, tout en offrant une réduction d'accent compétitive et un contrôle robuste de la durée.

4. Résultats Expérimentaux

Les expériences ont été menées sur des données anglaises multi-accents (corpus L2-ARCTIC et Emilia).

Performance Objective (WER) : DLM-AN obtient le meilleur WER (10,64 % pour la configuration préservant la durée) par rapport aux modèles de référence TokAN et CosyAccent. Cela indique une meilleure préservation du contenu sémantique.
Réduction d'accent et Naturalité :
- Le système atteint une réduction d'accent (score ACT) compétitive, tout en maintenant une naturalité (NAT) élevée.
- La métrique $\Delta$ PPG (distance phonétique) montre que DLM-AN se rapproche efficacement de la cible native tout en conservant l'identité du locuteur (SECS élevé).
Contrôle de l'intensité :
- En variant le seuil de réutilisation des tokens ( $\tau$ ), les auteurs montrent une corrélation linéaire : plus le seuil est bas (plus de tokens réutilisés), plus l'accent L2 est préservé et plus la similarité du locuteur est élevée.
- À l'inverse, une génération complète ( $\tau=1.0$ ) maximise la réduction d'accent.
Échelle de durée arbitraire : DLM-AN surpasse les autres modèles, en particulier lors de la compression de la durée (ratio < 1.0), là où TokAN échoue souvent en raison de la nécessité de rejeter des tokens générés.

5. Signification et Impact

Ce travail représente une avancée significative dans le domaine de la conversion de la parole :

Flexibilité pour les applications réelles : La capacité de contrôler finement la force de l'accent répond à un besoin crucial non satisfait par les technologies actuelles, notamment pour les outils d'apprentissage des langues (réduction progressive) et le doublage (adaptation de l'accent sans effacer l'identité de l'acteur).
Efficacité du modèle de diffusion : Il démontre que les modèles de diffusion discrets, initialement conçus pour le texte, sont extrêmement puissants pour la parole, offrant une meilleure fondation théorique (borne inférieure de vraisemblance) et une génération plus stable que les approches autoregressives ou purement continues.
Approche sans référence native stricte : En utilisant des tokens auto-supervisés et une prédiction de tokens communs, le système réduit la dépendance à des paires de données parfaites ou à des synthétiseurs TTS de haute qualité pour l'entraînement.

En résumé, DLM-AN établit un nouvel état de l'art pour la normalisation d'accent, combinant une qualité audio supérieure, une préservation du contenu optimale et, surtout, un contrôle utilisateur intuitif et continu sur l'intensité de l'accent.