SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de faire parler une photo de vous-même en temps réel, comme dans un film d'animation, mais pour des heures entières, sans que l'image ne se déforme, ne change de visage ou ne perde ses accessoires (comme une bague ou des lunettes). C'est le défi que relève SoulX-LiveAct.

Voici comment ils ont réussi ce tour de magie, expliqué avec des analogies du quotidien.

1. Le Problème : Le "Miroir Cassé" et le "Sac à Dos Trop Lourd"

Jusqu'à présent, les modèles qui créent des vidéos en continu (comme un flux TV en direct) avaient deux gros problèmes :

Le problème du "Miroir Cassé" (Incohérence) : Pour créer la vidéo image par image, les anciennes méthodes utilisaient des "conseils" (des données d'entraînement) qui ne correspondaient pas bien au moment présent. C'est comme si un chef cuisinier essayait de préparer un gâteau en suivant une recette écrite pour un pain, ou en utilisant des ingrédients qui ont été cuits à une température différente. Résultat : la vidéo tremblote, les lèvres ne bougent pas avec la voix, et le visage change d'aspect.
Le problème du "Sac à Dos Trop Lourd" (Mémoire) : Pour que la vidéo reste cohérente sur la durée (1 heure !), l'ordinateur doit se souvenir de tout ce qui s'est passé avant. Les anciennes méthodes essayaient de tout garder en mémoire, comme un étudiant qui essaie de retenir chaque mot d'un livre entier sans jamais fermer le livre. Très vite, le "sac à dos" devient trop lourd, l'ordinateur s'essouffle et doit oublier les premières minutes de la vidéo.

2. La Solution Magique : SoulX-LiveAct

L'équipe a inventé deux astuces principales pour régler ces problèmes.

Astuce N°1 : La "Danse de Voisins" (Neighbor Forcing)

Au lieu de donner au modèle des conseils qui ne collent pas, ils ont décidé de lui montrer le voisin immédiat dans les mêmes conditions.

L'analogie : Imaginez que vous essayez d'apprendre à danser. Au lieu de vous montrer une vidéo de quelqu'un qui danse il y a 10 ans (ou une vidéo floue), on vous montre exactement votre propre mouvement de la seconde précédente, mais avec le même niveau de "bruit" ou d'incertitude.
En pratique : Le modèle regarde la frame (image) précédente et la frame actuelle au même moment précis de leur "développement". Cela crée une connexion naturelle et fluide. C'est comme si le modèle disait : "Ah, je sais exactement comment passer de cette image à la suivante car elles sont voisines et parlent le même langage."
Le résultat : La vidéo devient fluide, les lèvres bougent parfaitement avec la voix, et le visage ne tremble plus.

Astuce N°2 : Le "Résumé Intelligent" (ConvKV Memory)

Pour ne pas s'épuiser à se souvenir de tout, ils ont créé un système de mémoire qui résume le passé.

L'analogie : Imaginez que vous écrivez un roman de 1000 pages. Au lieu de relire les 999 pages précédentes à chaque fois que vous écrivez la page 1000 (ce qui prendrait une éternité), vous avez un assistant très intelligent. Cet assistant lit les 50 pages précédentes et vous écrit un résumé d'une seule page qui capture l'essentiel (le décor, les vêtements, l'ambiance).
En pratique : Le modèle utilise un petit "compresseur" (une convolution 1D) pour transformer les milliers d'images passées en un petit bloc de mémoire fixe. Peu importe si la vidéo dure 10 minutes ou 10 heures, la mémoire de l'ordinateur reste de la même taille.
Le résultat : On peut générer des vidéos à l'infini sans que l'ordinateur ne plante. Le personnage garde ses lunettes, sa bague et son visage identiques du début à la fin.

3. Les Résultats : Rapide, Précis et Infini

Grâce à ces deux innovations, SoulX-LiveAct est une révolution :

Temps réel : Il peut générer de la vidéo aussi vite que vous parlez (20 images par seconde), même sur seulement deux cartes graphiques puissantes. C'est comme avoir un studio de cinéma dans un petit ordinateur.
Qualité cinéma : Les lèvres bougent parfaitement avec la voix (même pour des sons difficiles), et les émotions (rire, tristesse) sont naturelles.
Stabilité à long terme : Vous pouvez faire parler un avatar pendant une heure entière, et il ne changera pas de visage, ne perdra pas ses vêtements et ne commencera pas à trembler.

En résumé

SoulX-LiveAct, c'est comme donner à un acteur numérique :

Un script parfait qui lui dit exactement quoi faire à chaque seconde (grâce à la "Danse de Voisins").
Une mémoire photographique qui résume son histoire sans l'épuiser (grâce au "Résumé Intelligent").

Le résultat ? Un personnage virtuel qui peut vous raconter une histoire pendant des heures, en temps réel, avec une précision et une stabilité qui semblaient impossibles jusqu'à présent.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de diffusion autoregressifs (AR) sont devenus une approche prometteuse pour la génération séquentielle, notamment la synthèse vidéo, car ils permettent une inférence en flux continu (streaming) et évitent les contraintes de longueur fixe des modèles de diffusion complets. Cependant, l'application de ces modèles à l'animation humaine en temps réel sur de longues durées (à l'échelle de l'heure) se heurte à deux défis majeurs identifiés par les auteurs :

Incohérence des signaux d'apprentissage : Les stratégies de "forcing" (contrainte) existantes, comme le Diffusion Forcing ou le Self Forcing, propagent souvent des représentations au niveau de l'échantillon à des étapes de diffusion hétérogènes. Cela crée un décalage entre les états de diffusion, entraînant des signaux d'apprentissage incohérents et une convergence instable.
Inefficacité de la mémoire et de l'inférence : Les représentations historiques (clés et valeurs dans l'attention) croissent de manière non bornée au fur et à mesure de la génération. Cela empêche une réutilisation efficace des états mis en cache, limitant sévèrement l'efficacité de l'inférence et rendant impossible la génération de vidéos infinies sans perte de cohérence temporelle à long terme.

2. Méthodologie

SoulX-LiveAct propose une nouvelle formulation de diffusion AR basée sur deux innovations principales : le Neighbor Forcing et le ConvKV Memory.

A. Neighbor Forcing (Forçage par Voisinage)

Cette méthode adresse le problème de l'alignement des étapes de diffusion.

Concept : Au lieu de propager des états bruyants ou des échantillons générés à des étapes différentes, Neighbor Forcing propage les latents de frames temporellement adjacentes évaluées à la même étape de diffusion ( $t$ ).
Principe : En conditionnant la frame cible et toutes les frames de référence précédentes sous le même régime de bruit, le modèle apprend les dépendances temporelles dans un espace de bruit cohérent.
Avantage : Cela fournit un signal d'apprentissage aligné sur la distribution, stabilise la convergence et permet une inférence en flux continu fluide. Théoriquement, cela exploite la propriété de "lissage local" des latents de frames adjacentes à une étape fixe.

B. ConvKV Memory (Mémoire ConvKV)

Pour résoudre le problème de la mémoire infinie nécessaire à la génération de vidéos longues :

Mécanisme : C'est un module de compression léger qui s'ajoute à l'architecture DiT (Diffusion Transformer). Il maintient une fenêtre courte non compressée pour les frames récentes (mémoire à court terme) et compresse continuellement les anciennes clés et valeurs (KV) en une représentation de mémoire à long terme fixe.
Compression : Une convolution 1D légère (avec un ratio de compression $\lambda=5$ ) réduit cinq blocs de KV en un seul.
Réinitialisation de la position : Pour maintenir la cohérence après compression, une opération de réinitialisation du RoPE (Rotary Positional Embedding) est appliquée pour aligner l'encodage positionnel des mémoires compressées.
Résultat : Cela permet une inférence avec une mémoire constante (constant-memory), rendant possible la génération de vidéos infinies sans augmenter la latence ni la consommation mémoire, avec un surcoût computationnel négligeable (seulement 1,9 %).

C. Pipeline d'Entraînement

Le système est entraîné en deux étapes :

Entraînement Neighbor Forcing : Alignement des conditions audio/texte (émotion, action) avec la vidéo générée en utilisant des références bruyantes alignées sur l'étape.
Distillation et Compression : Intégration du module ConvKV Memory et distillation (via DMD) pour optimiser l'inférence en quelques étapes (3 étapes) tout en maintenant la mémoire bornée.

3. Contributions Clés

Formulation AR cohérente : Identification des latents de voisinage alignés sur l'étape de diffusion comme un biais inductif fondamental pour la génération vidéo AR stable, permettant d'utiliser des backbones non-AR pré-entraînés.
Mémoire ConvKV : Introduction d'un mécanisme de compression plug-and-play léger qui permet une génération de vidéos à l'échelle de l'heure avec une mémoire constante et un coût computationnel minimal.
Système temps réel optimisé : Développement d'un système capable de générer de l'animation humaine à 20 FPS en temps réel sur seulement deux GPU NVIDIA H100/H200, avec une précision FP8 adaptative et une résolution de 720x416 ou 512x512.

4. Résultats Expérimentaux

Les évaluations ont été menées sur les jeux de données HDTF (visage) et EMTD (corps entier).

Qualité de synchronisation labiale (Lip-sync) : SoulX-LiveAct obtient les meilleurs scores, avec un Sync-C de 9,40 (sur HDTF) et un Sync-D de 6,76, surpassant nettement les méthodes de l'état de l'art comme InfiniteTalk et Live-Avatar.
Qualité vidéo et fidélité humaine :
- Meilleur FID (10,05) et FVD (69,43) sur HDTF.
- Scores élevés sur VBench et VBench-2.0, notamment une fidélité humaine de 99,9 (HDTF) et une conservation parfaite de l'identité et des vêtements sur EMTD.
Cohérence à long terme : Contrairement aux méthodes concurrentes qui montrent une dérive d'identité (drift) ou la perte d'accessoires (ex: bagues) sur de longues séquences, SoulX-LiveAct maintient une cohérence temporelle stable et préserve les détails fins sur des vidéos d'une heure.
Efficacité :
- Débit : 20 FPS en temps réel.
- Coût : Seulement 27,2 TFLOPs par frame (à 512x512), bien inférieur aux méthodes bidirectionnelles (50,2 TFLOPs) et aux autres méthodes AR (39,1 TFLOPs).
- Latence : 0,94 seconde de latence totale avec seulement 2 GPU.

5. Signification et Impact

SoulX-LiveAct représente une avancée significative dans le domaine de l'animation humaine générative. En résolvant les problèmes de stabilité de l'entraînement AR et de gestion de la mémoire à long terme, il rend possible la création de vidéos humaines réalistes, synchronisées et infinies en temps réel avec un coût matériel accessible.

L'approche démontre qu'il n'est pas nécessaire de concevoir des architectures complexes et lourdes pour la mémoire à long terme ; une compression intelligente des états de l'attention, couplée à une formulation de diffusion cohérente, suffit pour atteindre des performances de pointe. Cela ouvre la voie à des applications pratiques telles que les assistants virtuels interactifs, les présentateurs numériques et les contenus éducatifs ou de divertissement générés dynamiquement sur de longues durées.