StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous parlez à un ami à travers un système de communication ultra-sécurisé. Votre voix est transformée pour que personne ne puisse dire qui vous êtes (c'est l'anonymisation), mais vous voulez toujours que votre ami entende si vous êtes joyeux, triste ou en colère.

Le problème, c'est que les technologies actuelles sont comme des traducteurs un peu trop zélés : elles effacent votre identité, mais elles effacent aussi vos émotions. Votre voix devient plate, comme si vous lisiez un manuel technique, même si vous racontez une blague hilarante.

Voici comment les chercheurs de ce papier, StreamVoiceAnon+, ont réglé ce problème avec une approche ingénieuse.

1. Le Problème : Le "Miroir" qui oublie les sentiments

Les systèmes actuels fonctionnent un peu comme un robot qui apprend à parler en écoutant des milliers d'heures de conversations. Le problème, c'est que ce robot a tendance à copier le "style moyen" de tout le monde. Si vous lui donnez une phrase triste, il risque de la dire avec un ton neutre et ennuyeux, car c'est ce qu'il a vu le plus souvent.

De plus, pour aller vite (en temps réel), le système doit compresser votre voix en petits morceaux. C'est comme essayer de décrire un tableau de Van Gogh en utilisant seulement 10 mots : les détails fins (comme l'émotion) sont souvent les premiers à disparaître.

2. La Solution : Une "École de Voix" en deux étapes

Les chercheurs ont créé une nouvelle méthode qui ressemble à un entraînement spécial pour ce robot. Ils ne l'ont pas seulement nourri avec plus de données, ils ont changé la façon dont il apprend.

Étape A : Le Défi du "Même Acteur, Deux Humeurs"

Imaginez un acteur qui doit apprendre à jouer deux rôles différents avec la même voix, mais en changeant d'émotion.

L'ancien système : On lui disait : "Dis cette phrase avec la voix de l'acteur A." Il apprenait à copier l'acteur A, mais perdait l'émotion.
Le nouveau système : On lui donne une phrase neutre (sans émotion) et on lui dit : "Maintenant, dis cette même phrase en étant très en colère, mais en gardant la voix de l'acteur A."
Le résultat : Le robot comprend qu'il ne doit pas copier l'émotion de la phrase de départ, mais qu'il doit inventer l'émotion demandée tout en gardant la voix de l'acteur. C'est comme apprendre à un cuisinier à changer les épices d'un plat sans changer l'ingrédient principal.

Étape B : Le "Coach d'Émotion" (Distillation)

Pour s'assurer que le robot ne rate pas un seul détail, ils ont ajouté un "coach" invisible.

Imaginez que pendant que le robot s'entraîne, un expert en émotions (le coach) regarde chaque milliseconde de la voix.
Le coach murmure au robot : "Attention, à cet instant précis, le ton doit être plus doux !"
Le robot écoute ce conseil et ajuste sa voix en temps réel.
Le génie de l'astuce : Ce coach ne touche pas au sens des mots (le "quoi"), il ne touche qu'à la musique de la voix (le "comment"). Ainsi, le robot ne se trompe pas de direction et reste très rapide.

3. Les Résultats : Rapide, Privé et Émotionnel

Grâce à cette méthode, le système atteint trois objectifs simultanés :

C'est rapide : Il fonctionne en temps réel (comme un appel téléphonique normal), sans faire attendre l'utilisateur.
C'est privé : Personne ne peut reconnaître qui vous êtes (c'est très sécurisé).
C'est expressif : Votre voix garde ses émotions. Si vous riez, le robot rit avec vous. Si vous pleurez, il pleure avec vous.

En résumé

Avant, anonymiser une voix signifiait souvent la rendre "plate" et robotique. Avec StreamVoiceAnon+, c'est comme donner à un acteur un masque pour cacher son visage, tout en lui permettant de continuer à jouer son rôle avec toute la passion et les sentiments nécessaires.

C'est une avancée majeure pour les applications réelles comme les centres d'appel, les thérapies en ligne ou les réunions virtuelles, où l'humain a besoin de sentir l'émotion derrière les mots, même si l'identité de la personne reste un secret.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'anonymisation vocale (Speaker Anonymization - SA) vise à transformer une parole source pour masquer l'identité du locuteur tout en préservant le contenu linguistique et les attributs paralinguistiques, tels que l'émotion. Bien que les méthodes d'anonymisation en temps réel (streaming) basées sur les modèles de langage de codecs audio neuronaux (NAC) aient fait des progrès significatifs en matière de compromis vie privée/intelligibilité, elles souffrent d'une dégradation sévère de l'émotion.

Les auteurs identifient deux causes fondamentales à ce problème dans les approches existantes :

Paradigme d'entraînement : Les modèles entraînés pour la « continuation audio » tendent à dégrader l'émotion de la source, préférant reproduire des motifs acoustiques dominants plutôt que de préserver les attributs paralinguistiques.
Goulot d'étranglement VQ : La quantification vectorielle (VQ) dans les codecs neuronaux élimine les détails acoustiques fins porteurs d'informations émotionnelles.
Biais d'entraînement : Une analyse montre que les modèles développent un biais inhérent vers certaines émotions (souvent « heureux » ou « neutre ») en raison de distributions déséquilibrées dans les données d'entraînement, ignorant les émotions plus rares comme la tristesse.

2. Méthodologie Proposée : StreamVoiceAnon+

L'approche proposée, StreamVoiceAnon+, ne modifie pas l'architecture du modèle d'inférence (ce qui garantit une latence nulle par rapport à la base), mais se concentre sur un finetuning supervisé (SFT) combiné à une distillation d'émotion au niveau des frames.

A. Finetuning avec Paires Neutre-Émotion

Au lieu d'entraîner le modèle uniquement sur des données émotionnelles, les auteurs construisent des paires d'entraînement spécifiques issues du corpus CREMA-D :

Structure des paires : Une paire contient une énonciation neutre (comme prompt) et une énonciation émotionnelle (comme source) provenant du même locuteur.
Objectif : Le modèle doit apprendre à générer des tokens acoustiques émotionnels à partir d'un prompt neutre, en s'appuyant sur les caractéristiques de contenu de la source plutôt que sur les indices acoustiques du prompt.
Tokens [SEP] : Des tokens de séparation explicites (Linguistic [SEP] et Acoustic [SEP]) marquent la frontière entre le prompt et la source, empêchant le modèle de copier les caractéristiques du prompt dans la sortie.

B. Distillation d'Émotion au Niveau des Frames (Frame-Level Emotion Distillation)

Pour contourner la perte d'information due à la quantification, une perte de distillation est ajoutée aux états cachés du modèle :

Cible de distillation : Un extracteur d'émotion pré-entraîné (Emotion2Vec+) fournit des représentations d'émotion au niveau de chaque frame ( $e_t$ ).
Branches d'application : Les auteurs comparent la distillation sur la branche sémantique (contenu) et la branche acoustique.
- La branche sémantique est déjà supervisée par la prédiction du token suivant (perte LM), créant une compétition de gradients.
- La branche acoustique (Slow AR) est choisie car elle n'a pas de supervision directe pour l'émotion, offrant un flux de gradient propre.
Fonction de perte : Une perte MSE ( $\mathcal{L}_{emo}$ ) est calculée entre les embeddings d'émotion prédits par un transformeur causal léger ( $f_\theta$ ) appliqué aux états cachés acoustiques et les cibles de l'extracteur.
Perte Totale : $\mathcal{L} = \mathcal{L}_{LM} + w \cdot \mathcal{L}_{emo}$ , où $\mathcal{L}_{LM}$ est la perte de modélisation du langage (Slow AR + Fast AR).

3. Contributions Clés

Identification du problème de paradigme : Démonstration que la dégradation de l'émotion est principalement due au paradigme d'entraînement (paires prompt-source) et non à une capacité insuffisante du modèle. La restructuration des paires d'entraînement apporte des gains 3 fois supérieurs à l'ajout simple de données émotionnelles.
Distillation Acoustique Sélective : Proposition d'appliquer la distillation d'émotion spécifiquement sur les états cachés de la branche acoustique pour éviter la compétition de gradients avec la supervision du contenu, améliorant ainsi à la fois la préservation de l'émotion et l'intelligibilité.
Performance Streaming sans surcoût : La méthode atteint les meilleures performances de préservation d'émotion parmi les méthodes streaming, avec zéro latence d'inférence ajoutée et une amélioration de la vie privée.

4. Résultats Expérimentaux

Les expériences ont été menées selon le protocole VoicePrivacy 2024 sur le corpus IEMOCAP (4 classes : colère, joie, neutre, tristesse).

Préservation de l'émotion (UAR) :
- Méthode proposée : 49,2 % (UAR non pondéré).
- Amélioration par rapport à la base (StreamVoiceAnon) : +24 % (passant de 39,7 % à 49,2 %).
- Amélioration par rapport à la variante avec prompts émotionnels : +10 %.
- Note : L'amélioration est particulièrement marquée pour l'émotion « Tristesse » (passant de 8,0 % à 42,6 %).
Intelligibilité (WER) :
- Taux d'erreur de mots (WER) : 5,77 %, ce qui reste compétitif par rapport à la base (4,54 %) et bien meilleur que d'autres méthodes émotionnelles.
Vie Privée (EER) :
- Taux d'erreur égal (EER) pour l'attaquant « lazy-informed » : 48,98 % (plus élevé = meilleure vie privée), une amélioration par rapport à la base (47,19 %).
Comparaison globale : La méthode surpasse toutes les autres méthodes en streaming (GenVC-small, DarkStream, TVTSyn) en termes de préservation d'émotion tout en maintenant une vie privée forte (EER > 40 %).

5. Signification et Conclusion

Ce travail démontre que la préservation de l'émotion dans l'anonymisation vocale en temps réel est un problème de paradigme d'entraînement plutôt qu'une limitation architecturale. En restructurant les paires d'entraînement et en utilisant une distillation d'émotion ciblée sur les états cachés acoustiques, il est possible de briser le compromis traditionnel entre vie privée, intelligibilité et émotion.

Bien qu'il existe encore un écart avec les méthodes hors ligne (comme EASY, 63,8 % UAR) en raison de la contrainte de latence (impossibilité de modélisation bidirectionnelle), StreamVoiceAnon+ établit un nouvel état de l'art pour les applications temps réel (téléconférences, assistants vocaux, counseling en santé mentale), où la préservation des nuances émotionnelles est cruciale pour l'expérience utilisateur sans compromettre la confidentialité.