PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez enseigner à un robot comment danser, courir ou se battre, simplement en lui donnant des instructions écrites comme "un guerrier saute par-dessus un mur". C'est le défi de la génération de mouvement humain par texte.

Le papier que vous avez partagé présente PRISM, une nouvelle méthode qui résout deux gros problèmes qui bloquaient les robots jusqu'ici. Voici une explication simple, avec des images pour mieux comprendre.

1. Le Problème : Le "Sac de Nourriture" vs. Le "Menu Organisé"

Avant PRISM, les ordinateurs traitaient le mouvement humain comme un gros sac de nourriture mélangé.

L'ancienne méthode : Imaginez que vous prenez un robot, vous lui donnez un seul gros sac contenant tout : la position de ses pieds, la rotation de ses bras, la vitesse de sa tête, etc., tout mélangé en un seul tas. Le cerveau du robot (le générateur) doit ensuite essayer de trier ce tas pour comprendre comment bouger chaque partie. C'est difficile, lent, et souvent le robot trébuche ou ses pieds glissent sur le sol (comme s'il patinait sur de la glace).
La solution PRISM : PRISM change la façon dont on donne les informations. Au lieu d'un gros sac, on donne au robot un menu organisé en grille. Chaque articulation (épaule, genou, cheville) a sa propre case, comme un tableau Excel où chaque colonne est un membre spécifique.
- L'analogie : C'est la différence entre donner à un chef un tas d'ingrédients en vrac et lui donner une recette où chaque étape est écrite clairement sur une ligne séparée. Le robot comprend instantanément ce que doit faire chaque articulation sans avoir à deviner.

Résultat : Les mouvements sont beaucoup plus naturels, précis et sans tremblements bizarres.

2. Le Second Problème : Le "Film Coupé" vs. Le "Film Continu"

Le deuxième défi est de faire des mouvements très longs.

L'ancienne méthode : Si vous demandez un film de 10 minutes, les anciens systèmes faisaient des petits clips de 10 secondes, puis essayaient de les coller. Mais à chaque collage, il y avait une erreur. Au bout de 5 minutes, le robot avait oublié où il était, sa trajectoire déviait, et il finissait par se cogner contre un mur invisible ou s'arrêter net. C'est comme si vous essayiez de dessiner une longue route en regardant seulement le bout de votre crayon : vous finissez par vous perdre.
La solution PRISM : PRISM utilise une astuce intelligente appelée "injection de condition sans bruit".
- L'analogie : Imaginez que vous écrivez une histoire avec un ami. Au lieu de lui dire "écris la suite" (ce qui crée des erreurs de compréhension), vous lui montrez les 3 dernières phrases que vous avez écrites en les écrivant en noir gras et parfait (sans aucune erreur), et vous lui demandez d'écrire la suite en se basant sur ce texte parfait.
- Dans PRISM, quand le robot doit continuer un mouvement, il regarde les dernières images générées comme si elles étaient "parfaites" et "propres", et il continue à partir de là. Cela empêche les erreurs de s'accumuler.

Résultat : Le robot peut générer des mouvements de 10 minutes (ou plus) sans jamais se perdre, sans dériver, et sans s'arrêter.

3. La Magie : Un Seul Cerveau pour Tout

Avant, il fallait un robot différent pour :

Danser sur une musique.
Se déplacer à partir d'une pose de départ.
Faire une longue scène d'action.

PRISM est comme un couteau suisse ultime. Grâce à sa nouvelle façon de voir les données (la grille organisée) et sa méthode de collage (le texte noir gras), un seul modèle peut faire tout cela.

Vous pouvez lui dire : "Un guerrier s'approche, s'accroupit, roule sur le côté et se relève."
Le robot décompose cela en petites actions, les enchaîne parfaitement, et produit une scène fluide et réaliste.

En Résumé

PRISM est une avancée majeure car il ne se contente pas de rendre le cerveau du robot plus gros (ce qui coûte cher et consomme beaucoup d'énergie). Il réorganise la cuisine :

Il donne aux articulations leur propre espace (plus de confusion).
Il permet de construire des histoires longues sans perdre le fil (plus de dérive).

C'est comme passer d'un système de navigation GPS qui vous fait faire des détours à chaque virage, à un pilote automatique qui voit la route entière et vous emmène directement à destination, sans jamais vous faire rater un virage.

Le code est bientôt disponible pour que tout le monde puisse créer des animations de haute qualité pour les jeux vidéo, les films ou la réalité virtuelle !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération de mouvement humain à partir de texte (Text-to-Motion) a connu des avancées rapides grâce aux modèles de diffusion et aux transformers. Cependant, deux défis majeurs persistent dans l'état de l'art actuel :

Représentation latente désorganisée : Les auto-encodeurs existants compressent chaque image (frame) en un seul vecteur latent monolithique. Cette approche entremêle la trajectoire globale, les rotations par articulation et les signaux auxiliaires dans une représentation non structurée. Le générateur doit alors dépenser une capacité computationnelle précieuse pour démêler ces signaux hétérogènes (différentes unités physiques, échelles et dynamiques temporelles) au lieu de se concentrer sur la compréhension sémantique.
Fragmentation des tâches et accumulation d'erreurs : La génération conditionnée par le texte, par une pose initiale (Pose-Conditioned), et la synthèse séquentielle à long horizon nécessitent généralement des modèles distincts ou des mécanismes spécifiques (comme l'inpainting). De plus, les approches autorégressives souffrent d'une accumulation sévère d'erreurs lors des rollouts longs, entraînant une dérive de trajectoire (drift) et une dégradation du mouvement.

2. Méthodologie : PRISM

PRISM (Per-joint Representation for Infinite Streaming Motion) propose une architecture unifiée reposant sur deux contributions fondamentales pour résoudre ces problèmes.

A. Espace Latent Factorisé par Articulation (Joint-Factorized Latent Space)

Au lieu de compresser une image entière en un seul token, PRISM décompose le mouvement le long de l'arbre cinématique :

Structure 2D : Chaque image est représentée comme une grille structurée de tokens, où chaque token correspond à une articulation spécifique du corps (trajectoire de la racine, orientation globale, et rotations de chaque articulation). Cela forme une grille 2D (Temps × Articulations).
VAE Causal avec Supervision FK : Un auto-encodeur variationnel (VAE) causal spatio-temporel compresse cette grille.
- Il utilise des convolutions temporelles strictement causales pour permettre une génération incrémentale sans re-traiter l'historique complet.
- Il opère dans l'espace natif des rotations SMPL (6D) et intègre une supervision par cinématique directe (Forward Kinematics - FK). Cela permet de corriger les erreurs de rotation qui s'accumulent le long de la chaîne cinématique (ex: une petite erreur à l'épaule causant un grand décalage au poignet) en pénalisant directement les positions 3D des articulations reconstruites.

B. Injection de Condition Sans Bruit (Noise-Free Condition Injection)

Pour unifier les tâches et permettre le streaming, PRISM introduit un mécanisme d'injection de condition au niveau de chaque token :

Embeddings de temps par token : Chaque token latent possède son propre embedding de temps (timestep).
Fonctionnement : Lors de la génération, les images de condition (texte vide pour T2M, pose initiale pour TP2M, ou fin d'un segment précédent pour le streaming) sont injectées comme des tokens « propres » (timestep $t=0$ ), tandis que les tokens à générer sont bruités ( $t>0$ ).
Avantage : Cela permet à un seul modèle Flow-Matching DiT (Diffusion Transformer) de gérer la génération texte-vers-mouvement, la génération conditionnée par la pose et le chaînage séquentiel sans modification architecturale.

C. Entraînement par Auto-Forçage (Self-Forcing)

Pour contrer la dérive dans les séquences très longues :

Le modèle est entraîné avec une stratégie de Self-Forcing : lors de l'entraînement, le modèle génère un segment, le décode, le ré-encode, et l'utilise comme condition pour le segment suivant.
Cela simule le pipeline d'inférence réel (où la condition est imparfaite) et apprend au modèle à rester stable même lorsqu'il s'appuie sur ses propres sorties précédentes, permettant des rollouts de plus de 10 segments au-delà de l'horizon d'entraînement.

3. Résultats Expérimentaux

PRISM a été évalué sur plusieurs benchmarks majeurs (HumanML3D, MotionHub, BABEL) et lors d'une étude utilisateur sur la composition narrative.

Génération Texte-vers-Mouvement (T2M) : PRISM atteint des performances State-of-the-Art (SOTA) sur HumanML3D et MotionHub. Sur HumanML3D, le FID (Fréchet Inception Distance) est réduit de 55 % par rapport aux meilleurs modèles précédents (0.027 vs 0.060), avec une précision de rappel (R-Precision) proche de celle des mouvements réels.
Génération Conditionnée par la Pose : Le modèle surpasse largement les méthodes spécialisées (FlowMDM, MotionStreamer) avec une seule architecture, obtenant des scores de FID très faibles (0.023 sur HumanML3D avec 9 frames de condition).
Génération Séquentielle Longue (BABEL) : PRISM démontre une qualité de sous-séquence et une fluidité de transition supérieures. L'amélioration de la fluidité (mesurée par la dérivée de la vitesse ou "Jerk") est de 29 % par rapport à FlowMDM et 51 % par rapport à MotionStreamer.
Composition Narrative : Dans une étude utilisateur sur 50 scénarios de narration complexe, PRISM est préféré dans plus de 70 % des cas, notamment pour la fluidité des transitions et la fidélité au texte.
Ablation : Les expériences montrent que le simple changement de l'espace latent (monolithique vers factorisé) améliore la qualité de reconstruction de 18x (MPJPE) et la génération de 20x (rFID), prouvant que la conception de l'espace latent est aussi critique que l'architecture du générateur.

4. Contributions Clés

Espace Latent Factorisé : Une nouvelle représentation où chaque articulation a son propre token dans une grille 2D, permettant au générateur de moduler directement la dynamique par articulation.
Unification des Tâches : Une méthode d'injection de condition sans bruit qui unifie la génération T2M, TP2M et le streaming infini dans un seul modèle Flow-Matching, éliminant le besoin de réseaux d'inpainting ou de mécanismes de masquage spécifiques.
Stabilité à Long Terme : L'utilisation de l'entraînement par auto-forçage permet une génération stable sur des horizons bien supérieurs à la durée des clips d'entraînement (plus de 12 secondes, soit >360 frames).
Performance SOTA : Démonstration qu'une conception de latent structurée peut surpasser le simple scaling de la capacité du modèle.

5. Signification et Impact

PRISM marque un tournant dans la génération de mouvement humain en démontrant que la conception de l'espace latent est un goulot d'étranglement sous-estimé. En passant d'une compression monolithique à une décomposition factorisée par articulation, l'article prouve que la structure inhérente à la cinématique humaine doit être préservée dès le niveau de l'encodage latent.

De plus, la capacité à générer des mouvements « streaming » infinis et cohérents à partir de n'importe quelle condition (texte ou pose) ouvre la voie à des applications pratiques dans les jeux vidéo, le cinéma et l'IA incarnée, où la génération de séquences longues et narratives sans rupture ni dérive est essentielle. Le code étant open-source, PRISM établit un nouveau standard pour les modèles de fondation en génération de mouvement.

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

1. Le Problème : Le "Sac de Nourriture" vs. Le "Menu Organisé"

2. Le Second Problème : Le "Film Coupé" vs. Le "Film Continu"

3. La Magie : Un Seul Cerveau pour Tout

En Résumé

1. Problématique et Contexte

2. Méthodologie : PRISM

A. Espace Latent Factorisé par Articulation (Joint-Factorized Latent Space)

B. Injection de Condition Sans Bruit (Noise-Free Condition Injection)

C. Entraînement par Auto-Forçage (Self-Forcing)

3. Résultats Expérimentaux

4. Contributions Clés

5. Signification et Impact

Articles similaires

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes