Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez créer un avatar numérique (un personnage virtuel) qui parle, bouge la tête et exprime des émotions, le tout en temps réel, comme si c'était une vraie personne en face de vous. C'est ce que fait Ditto, une nouvelle technologie présentée dans ce papier de recherche.

Voici une explication simple de comment ça marche, en utilisant des images du quotidien :

1. Le Problème : Les Anciens Avatars étaient "Lourds" et "Bêtes"

Jusqu'à présent, créer des visages parlants réalistes avec l'intelligence artificielle ressemblait à deux extrêmes :

Soit c'était rapide mais moche : Comme un dessin animé basique qui ne bouge pas bien les lèvres.
Soit c'était magnifique mais lent : Comme un film d'animation de haute qualité qui prend des heures à être généré. De plus, on ne pouvait pas dire à l'avatar : "Regarde à gauche" ou "Sois triste". C'était comme un perroquet qui répète ce qu'on lui dit sans pouvoir ajuster son comportement.

2. La Solution de Ditto : Le "Cœur de Mouvement"

L'équipe derrière Ditto a eu une idée brillante. Au lieu de demander à l'ordinateur de dessiner chaque pixel de la peau, des cheveux et des vêtements (ce qui est très long et compliqué), ils ont décidé de séparer le mouvement de l'apparence.

Imaginez que vous voulez animer une marionnette :

L'apparence (Le costume) : C'est la photo de la personne. C'est fixe.
Le mouvement (Les fils) : C'est ce qui fait bouger la bouche, les yeux et la tête.

Ditto se concentre uniquement sur les fils (les mouvements). Il apprend à prédire comment les muscles du visage doivent bouger en fonction de la voix, sans se soucier de la couleur de la peau ou de la coiffure. C'est comme si l'IA apprenait à jouer du piano (les mouvements) avant même de choisir quel instrument (le visage) elle va utiliser.

3. Comment ça marche en détail ?

A. Le Chef d'Orchestre (Le Transformateur de Mouvement)

Ditto utilise un "chef d'orchestre" très intelligent (un modèle appelé Diffusion Transformer).

Il écoute la musique (la voix).
Il regarde la partition (les émotions, la position de la tête, l'état des yeux).
Il donne les ordres aux musiciens (les muscles du visage) pour qu'ils jouent la bonne note au bon moment.

Ce chef d'orchestre est entraîné avec une astuce spéciale : il apprend à ne pas confondre la musique avec le style du musicien. Ainsi, si vous changez le visage (le musicien), la musique (la voix) reste la même, mais le style de jeu s'adapte parfaitement.

B. Le Contrôle Précis (Comme un jeu vidéo)

C'est là que Ditto est révolutionnaire. Avec les anciennes méthodes, c'était comme regarder un film : vous ne pouviez rien changer. Avec Ditto, c'est comme un jeu vidéo où vous avez une manette :

Vous pouvez dire : "Regarde la caméra" (même si la tête tourne).
Vous pouvez dire : "Sois triste" ou "Sois joyeux".
Vous pouvez ajuster la bouche pour qu'elle soit parfaite.

C'est possible parce que l'IA a appris à mapper chaque petit mouvement (comme cligner des yeux) à une commande précise, comme un bouton sur une télécommande.

C. La Vitesse (Temps Réel)

Le plus impressionnant, c'est la vitesse. Les autres méthodes prennent trop de temps pour "penser" avant de parler. Ditto est optimisé pour être ultra-rapide.

Imaginez une conversation téléphonique. Avec Ditto, le délai entre le moment où vous parlez et le moment où l'avatar répond est quasi inexistant (moins de 400 millisecondes).
C'est assez rapide pour que vous puissiez discuter avec un assistant virtuel sans jamais avoir l'impression d'attendre.

4. Pourquoi c'est important ?

Grâce à cette technologie, on peut imaginer de nouvelles applications :

Des assistants personnels qui vous regardent dans les yeux et réagissent à votre humeur en direct.
Des jeux vidéo où les personnages parlent naturellement sans avoir besoin d'être pré-enregistrés.
Des avatars pour les réseaux sociaux qui peuvent raconter n'importe quelle histoire avec vos propres émotions.

En Résumé

Ditto, c'est comme donner un cerveau et des nerfs à une photo. Au lieu de simplement faire bouger la bouche de manière robotique, l'IA comprend la "danse" du visage. Elle sépare la danse (le mouvement) du danseur (le visage), ce qui permet de faire des mouvements ultra-réalistes, ultra-rapides, et surtout, que l'on peut diriger comme on veut. C'est un grand pas vers des conversations virtuelles qui semblent enfin vraies.

Each language version is independently generated for its own context, not a direct translation.

Titre : Ditto : Diffusion dans l'espace de mouvement pour la synthèse de têtes parlantes contrôlable et en temps réel

1. Problématique

La synthèse de têtes parlantes (talking heads) pilotée par l'audio a connu des avancées majeures grâce aux modèles de diffusion (ex: EMO), permettant de générer des expressions subtiles et des mouvements de tête réalistes. Cependant, deux limitations critiques entravent leur adoption large, notamment pour les applications interactives (assistants IA, streaming) :

Manque de contrôle fin : Les méthodes existantes offrent peu de possibilités pour ajuster précisément les mouvements faciaux, les émotions de base ou les rotations de la tête. Les utilisateurs ne peuvent souvent que régénérer le contenu au hasard pour obtenir un résultat souhaité.
Vitesse d'inférence lente : La plupart des approches basées sur la diffusion nécessitent un temps de calcul trop long pour fonctionner en temps réel sur un seul GPU. Les méthodes actuelles peinent à atteindre un facteur temps réel (RTF) inférieur à 1, ce qui est indispensable pour les scénarios interactifs.

2. Méthodologie

Ditto propose un cadre unifié basé sur la diffusion qui opère dans un espace de mouvement explicite plutôt que dans un espace latent générique (comme les VAEs traditionnels), combiné à une architecture optimisée pour le streaming.

A. Espace de Mouvement (Motion Space)

Au lieu de générer directement des pixels ou des latents VAE redondants, Ditto utilise un extracteur de mouvement (basé sur LivePortrait) pour décomposer l'image en :

Des points clés canoniques ( $c$ ) représentant la géométrie du visage (identitaire).
Des déformations d'expression ( $\delta$ ), des poses de tête ( $R$ ) et des translations ( $t$ ).
Ces éléments forment une représentation de mouvement agnostique à l'identité ( $m = \{\delta, R, t\}$ ). Le modèle de diffusion apprend à prédire ces mouvements à partir de l'audio, tandis que le rendu final fusionne ces mouvements avec les caractéristiques d'apparence de la personne cible.

B. Architecture : Diffusion Transformer (DiT) Conditionnel

Un Transformer de diffusion conditionnel est entraîné pour générer les séquences de mouvement. Pour améliorer la qualité et le contrôle, plusieurs signaux conditionnels sont intégrés :

Signaux Conditionnels Améliorés (ECS) : Points clés canoniques (pour l'identité), états oculaires (clignement, regard), et étiquettes d'émotion.
Signal Conditionnel Initial (ICS) : Une motion de référence initiale pour assurer la continuité entre les clips et réduire l'accumulation d'erreurs.
Stratégies d'Entraînement :
- Flip horizontal : Pour équilibrer les données d'entraînement et éviter les biais de direction de la tête.
- Poids de perte adaptatifs : Ajustement dynamique des poids de perte pour différents composants du mouvement (lèvres, yeux, tête) selon leur convergence.
- Perte de vitesse/accélération : Pour assurer la stabilité temporelle.

C. Contrôle Fin et Correction

Contrôle par Blendshape : En établissant une carte directe entre les dimensions des déformations et les attributs faciaux (ex: ouvrir la bouche, cligner des yeux), Ditto permet un contrôle régional et d'intensité.
Correction du Regard (Gaze) : Pour résoudre le problème où le regard suit passivement la rotation de la tête, un module de régression apprend à découpler le mouvement des yeux de la pose de la tête, permettant au personnage de maintenir un contact visuel avec la caméra.

D. Inférence en Temps Réel et Streaming

Le système est optimisé pour le traitement en flux continu :

Audio : Utilisation de HuBERT avec cache KV et masques causaux pour traiter de courts segments audio en temps réel.
Fusion de segments : Remplacement de la fusion latente progressive par une fusion segment par segment pour supporter le streaming.
Réduction des étapes : Réduction des étapes de débruitage de 50 à 10 sans perte significative de qualité.
Accélération : Conversion du modèle DiT et du rendu en TensorRT pour une exécution GPU optimisée.

3. Résultats Clés

Performances Quantitatives

Sur les ensembles de données Talk9 et HDTF100, Ditto surpasse les méthodes de l'état de l'art (EchoMimic, Hallo, Hallo2) sur tous les métriques :

Qualité vidéo : Meilleurs scores FID (16.43) et FVD (134.64).
Synchronisation : Scores Sync-C et Sync-D supérieurs, proches des vidéos réelles.
Consistance de l'identité : Meilleur score de similarité cosinus (CSIM), grâce au découplage mouvement/identité.

Performance Temps Réel

Facteur Temps Réel (RTF) : Ditto atteint un RTF de 0.635 (mode hors ligne) et 0.895 (streaming en ligne) pour une tête, et 0.914 pour un portrait complet. Cela signifie que le système est plus rapide que le temps réel (RTF < 1).
Latence : Délai de la première image (FFD) inférieur à 400 ms, crucial pour l'interactivité.
Comparaison : Ditto est 30 à 50 fois plus rapide que les méthodes de diffusion précédentes et même plus rapide que certaines méthodes non-diffusion (comme MuseTalk).

Étude Utilisateur

Une étude aveugle avec 10 participants montre que Ditto est préféré pour la qualité visuelle (84%) et la synchronisation labiale (80.7%), surpassant nettement les concurrents.

4. Contributions Principales

Espace de Mouvement Explicite : Introduction d'un espace de diffusion basé sur les déformations et poses (issu de LivePortrait) pour éliminer la redondance des latents VAE et améliorer le contrôle.
Contrôle Granulaire : Capacité à modifier spécifiquement le regard, les émotions et les mouvements de tête via des signaux conditionnels et une cartographie des déformations.
Optimisation Temps Réel : Une architecture complète (Audio2Feat, DiT, Rendu) optimisée pour le streaming, permettant une inférence en temps réel avec une faible latence, comblant le fossé entre la haute qualité des modèles de diffusion et les besoins des applications interactives.
Correction de Regard : Une méthode innovante pour découpler le regard de la pose de la tête, améliorant le réalisme et l'engagement.

5. Signification et Impact

Ditto représente une avancée significative pour le domaine des avatars numériques et des assistants IA. En résolvant le compromis traditionnel entre qualité/réalisme et vitesse/contrôle, il rend possible le déploiement de têtes parlantes de haute fidélité dans des applications en temps réel (téléconférence, jeux vidéo, service client). La disponibilité du code source en open-source favorisera également la recherche future dans ce domaine.