UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Problème : Comprendre le "Langage des Mains"

Imaginez une personne sourde ou malentendante qui utilise un système spécial appelé Langage Cued (ou "Langage des Mains"). Ce n'est pas juste la langue des signes classique. C'est comme un code secret visuel : la personne utilise sa bouche (les lèvres) pour former des sons, mais elle ajoute des formes de main précises pour lever les ambiguïtés (par exemple, distinguer un "p" d'un "b" qui se ressemblent beaucoup sur les lèvres).

Le but de la recherche est de créer un robot capable de regarder cette personne faire ces gestes et de parler à sa place avec une voix naturelle et synchronisée.

🚧 L'Obstacle : Pourquoi c'est difficile ?

Avant ce nouveau projet, il y avait deux façons de faire, et toutes les deux avaient des défauts majeurs :

La méthode "Traducteur Intermédiaire" (Le mauvais traducteur) :
Imaginez que vous essayez de traduire un film en direct. D'abord, un humain regarde les lèvres et écrit ce qu'il pense être dit sur un papier (Texte). Ensuite, un autre robot lit ce papier et parle.
- Le problème : Si le premier humain se trompe d'un mot (ce qui arrive souvent avec les gestes), le robot parle n'importe quoi. De plus, le robot parle trop vite ou trop lentement par rapport aux gestes de la main. C'est comme si le sous-titre était décalé par rapport à l'image.
La méthode "Copie Directe" (Le photocopieur aveugle) :
On essaie de faire parler le robot directement en regardant la vidéo, sans passer par l'écriture.
- Le problème : C'est comme essayer de deviner une chanson en regardant juste les lèvres d'un chanteur, sans entendre la musique. C'est trop complexe, et comme il y a très peu de vidéos de ce type disponibles, le robot apprend mal et parle de manière robotique.

✨ La Solution : UniCUE (Le Chef d'Orchestre Magique)

Les chercheurs ont créé UniCUE, un système unique qui résout ces problèmes en agissant comme un chef d'orchestre qui comprend à la fois la partition (le sens) et le jeu des musiciens (les gestes).

Voici comment cela fonctionne, avec des analogies simples :

1. Le "Détective des Mouvements" (Le Processeur Visuel)

Au lieu de regarder juste la vidéo floue, le système utilise un détective qui observe deux choses en même temps :

Les lèvres (comme un acteur qui joue une scène).
Les mains (comme un chef d'orchestre qui bat la mesure).
Le détective sait que la main bouge souvent avant la bouche (comme un chef qui lève son bâton avant que l'orchestre ne joue). Il synchronise parfaitement ces deux informations pour comprendre exactement quel son est produit.

2. Le "Pont de Sens" (Le Pool d'Alignement)

C'est comme un traducteur qui ne se contente pas de traduire mot à mot, mais qui comprend l'intention.
Le système apprend à faire le lien entre "ce que je vois" (la forme de la main) et "ce que cela signifie" (le son). Il crée un pont solide entre l'image et le son, pour s'assurer que le robot ne parle pas n'importe quoi, même si le geste est rapide.

3. L'Adaptateur "VisioPhonétique" (Le Traducteur de Style)

C'est la pièce maîtresse. Le système de reconnaissance (qui comprend les gestes) et le système de génération (qui parle) parlent deux langages différents.
L'Adaptateur agit comme un interprète spécialisé qui prend les informations complexes du détective et les transforme en instructions simples pour le robot qui parle. Cela permet au robot de garder le rythme exact et le style de la personne originale (par exemple, si la personne parle vite ou lentement).

🎁 La Grande Innovation : Un Nouveau Jeu de Données

Pour entraîner ce robot, les chercheurs ont dû créer une nouvelle bibliothèque de vidéos appelée UniCUE-HI.

Avant : On avait des vidéos de personnes entendantes qui faisaient des gestes "parfaits" en studio.
Maintenant : Ils ont filmé 14 personnes, dont 8 sont sourdes ou malentendantes.
C'est crucial car les personnes sourdes ont souvent des mouvements de lèvres et de mains un peu différents (plus naturels, parfois moins "parfaits" mais plus réalistes). Cela permet au robot d'apprendre à parler pour vraiment aider les gens, pas juste pour faire joli.

🏆 Le Résultat : Pourquoi c'est génial ?

Grâce à UniCUE :

Moins d'erreurs : Le robot ne se trompe presque plus de mots (contrairement à l'ancienne méthode "traducteur").
Parfaitement synchronisé : Quand la main bouge, la voix sort exactement au bon moment. Pas de décalage gênant.
Naturel : La voix ressemble à celle de la personne, pas à un robot de 1980.

En résumé : UniCUE est comme un super-interprète qui ne se contente pas de lire les lèvres, mais qui comprend tout le langage des mains, pour transformer instantanément les gestes d'une personne sourde en une voix claire, naturelle et parfaitement synchronisée. C'est un pas de géant pour aider les personnes malentendantes à communiquer plus facilement avec le monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La Langue des Signes Française (LSF) ou plus précisément ici le Langage Parlé Complété (LPC) chinois (Cued Speech - CS) est un système de codage phonétique visuel qui utilise des formes de mains et des positions spécifiques pour désambiguïser les mouvements des lèvres, facilitant ainsi la perception de la parole pour les personnes malentendantes.

La tâche de génération de parole à partir de vidéo CS (CSV2S) vise à convertir ces vidéos en signaux audio intelligibles. Cependant, l'état de l'art actuel présente deux approches limitées :

Approche en pipeline (CSR + TTS) : Reconnaître d'abord la vidéo en texte (CSR), puis utiliser un synthétiseur vocal (TTS). Cette méthode souffre de la propagation d'erreurs (une erreur de reconnaissance entraîne une erreur de parole) et d'un désalignement temporel entre la dynamique visuelle et l'audio généré.
Génération directe (End-to-End) : Générer directement l'audio à partir de la vidéo. Cette approche est difficile en raison de la complexité multimodale (mains + lèvres) et de la rareté des données CS, en particulier pour les utilisateurs malentendants.

De plus, les modèles existants de "lipreading" (lecture labiale) ignorent souvent les indices manuels cruciaux du CS, ce qui dégrade la qualité de la synthèse.

2. Méthodologie : Le Framework UniCUE

Les auteurs proposent UniCUE, le premier cadre unifié capable de générer directement de la parole à partir de vidéos CS sans passer par un intermédiaire textuel explicite. L'architecture repose sur le principe de transférer les capacités de compréhension (reconnaissance) vers la génération.

Le framework intègre trois composants clés :

A. Processeur Visuel Sensible à la Pose (Pose-aware Visual Processor)

Contrairement aux méthodes précédentes qui traitent les flux vidéo et de pose séparément, UniCUE fusionne ces deux modalités :

Il utilise un encodeur visuel partagé pour extraire des caractéristiques spatio-temporelles à la fois des images vidéo (mouvements des lèvres) et des cartes de pose (mouvements des mains).
Ces flux sont concaténés et traités par un MLP (Perceptron Multicouche) pour créer une représentation visuelle mixte ( $Z_{mv}$ ).
Cela permet de modéliser finement le phénomène de "précédence des mains" (où le signe manuel précède souvent le mouvement labial correspondant).

B. Bassin d'Alignement Sémantique (Semantic Alignment Pool)

Pour assurer la cohérence entre le visuel et le contenu linguistique, un mécanisme d'apprentissage par contraste est introduit :

Il aligne les embeddings visuels (vidéo et pose) avec les embeddings textuels (transcriptions) dans un espace latent partagé.
Cela force le modèle à extraire des sémantiques discriminatives et complémentaires, servant de pont pour guider la génération de parole.

C. Adaptateur VisioPhonétique (VisioPhonetic Adapter - VPA)

C'est le module de pont crucial entre la tâche de compréhension (CSR) et la tâche de génération (CSV2S) :

Il transforme les embeddings visuels riches en sémantique ( $Z_{mv}$ ) en signaux de conditionnement compatibles avec un modèle de diffusion.
Il utilise un mécanisme d'attention croisée (inspiré de Q-Former) avec des requêtes apprises pour extraire et réorganiser les patterns visuels pertinents en caractéristiques phonétiques.
Ces caractéristiques conditionnent un Modèle de Diffusion Latente (LDM) pour générer le spectrogramme de parole, qui est ensuite converti en audio via un vocodeur.

3. Contributions Clés

Premier Framework Unifié CSV2S : UniCUE est la première architecture à intégrer directement la reconnaissance (CSR) et la génération (CSV2S) pour éviter la propagation d'erreurs et améliorer l'alignement temporel.
Nouveau Jeu de Données (UniCUE-HI) : Les auteurs ont construit un corpus à grande échelle de 11 282 vidéos en mandarin, incluant pour la première fois des données de 8 personnes malentendantes et 6 personnes entendantes. Cela permet d'évaluer la généralisation du modèle sur la population cible réelle.
Architecture Innovante : L'introduction du processeur sensible à la pose et de l'adaptateur VPA permet de capturer les nuances expressives spécifiques à chaque utilisateur ("cuer") et de gérer l'asynchronie inhérente au CS.

4. Résultats Expérimentaux

Les expériences ont été menées sur le corpus UniCUE-HI, comparant UniCUE aux méthodes de l'état de l'art (CSR+TTS, modèles de lecture labiale comme LipVoicer, et génération directe).

Performance Quantitative :
- Précision Linguistique : UniCUE obtient un taux d'erreur de mots (WER) significativement plus faible que les méthodes directes (0,205 pour les locuteurs entendants vs 0,374 pour la méthode de base directe).
- Synchronisation Temporelle : Les métriques LSE-C (confiance) et LSE-D (distance temporelle) montrent une meilleure synchronisation avec la vidéo d'entrée par rapport aux méthodes concurrentes.
- Qualité Audio : Les scores DNSMOS (naturalité) et STOI (intelligibilité) sont supérieurs, indiquant une parole plus naturelle et claire.
Études d'Ablation :
- L'ajout du processeur de pose améliore la robustesse.
- Le bassin d'alignement sémantique est crucial pour la cohérence.
- Le VPA est essentiel pour l'alignement temporel.
- L'absence des indices manuels (mains) dégrade fortement les performances, surtout pour les locuteurs malentendants.
Étude Utilisateur : Une évaluation subjective sur 20 échantillons par locuteur montre que UniCUE est nettement préféré pour sa précision, sa qualité naturelle et son synchronisme, surpassant les pipelines modulaires.

5. Signification et Impact

Ce travail représente une avancée majeure pour l'accessibilité des personnes malentendantes. En permettant une conversion directe et fluide du langage complété en parole naturelle, UniCUE facilite les interactions en temps réel dans des environnements éducatifs et sociaux.

L'approche unifiée démontre que l'intégration de la compréhension sémantique fine (via la reconnaissance) dans le processus de génération améliore considérablement la fidélité et la cohérence des sorties multimodales. La création du jeu de données UniCUE-HI comble également un vide critique dans la recherche, offrant une base pour le développement de systèmes d'assistance plus inclusifs et adaptés aux utilisateurs réels.