PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM est un modèle fondamental unique qui révolutionne la génération de mouvements humains en streaming grâce à un espace latent factorisé par articulation et une injection de condition sans bruit, permettant ainsi de maîtriser simultanément la génération texte-vers-mouvement, la synthèse conditionnée par la pose et la composition narrative sur de longues séquences avec une qualité d'état de l'art.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez enseigner à un robot comment danser, courir ou se battre, simplement en lui donnant des instructions écrites comme "un guerrier saute par-dessus un mur". C'est le défi de la génération de mouvement humain par texte.

Le papier que vous avez partagé présente PRISM, une nouvelle méthode qui résout deux gros problèmes qui bloquaient les robots jusqu'ici. Voici une explication simple, avec des images pour mieux comprendre.

1. Le Problème : Le "Sac de Nourriture" vs. Le "Menu Organisé"

Avant PRISM, les ordinateurs traitaient le mouvement humain comme un gros sac de nourriture mélangé.

  • L'ancienne méthode : Imaginez que vous prenez un robot, vous lui donnez un seul gros sac contenant tout : la position de ses pieds, la rotation de ses bras, la vitesse de sa tête, etc., tout mélangé en un seul tas. Le cerveau du robot (le générateur) doit ensuite essayer de trier ce tas pour comprendre comment bouger chaque partie. C'est difficile, lent, et souvent le robot trébuche ou ses pieds glissent sur le sol (comme s'il patinait sur de la glace).
  • La solution PRISM : PRISM change la façon dont on donne les informations. Au lieu d'un gros sac, on donne au robot un menu organisé en grille. Chaque articulation (épaule, genou, cheville) a sa propre case, comme un tableau Excel où chaque colonne est un membre spécifique.
    • L'analogie : C'est la différence entre donner à un chef un tas d'ingrédients en vrac et lui donner une recette où chaque étape est écrite clairement sur une ligne séparée. Le robot comprend instantanément ce que doit faire chaque articulation sans avoir à deviner.

Résultat : Les mouvements sont beaucoup plus naturels, précis et sans tremblements bizarres.

2. Le Second Problème : Le "Film Coupé" vs. Le "Film Continu"

Le deuxième défi est de faire des mouvements très longs.

  • L'ancienne méthode : Si vous demandez un film de 10 minutes, les anciens systèmes faisaient des petits clips de 10 secondes, puis essayaient de les coller. Mais à chaque collage, il y avait une erreur. Au bout de 5 minutes, le robot avait oublié où il était, sa trajectoire déviait, et il finissait par se cogner contre un mur invisible ou s'arrêter net. C'est comme si vous essayiez de dessiner une longue route en regardant seulement le bout de votre crayon : vous finissez par vous perdre.
  • La solution PRISM : PRISM utilise une astuce intelligente appelée "injection de condition sans bruit".
    • L'analogie : Imaginez que vous écrivez une histoire avec un ami. Au lieu de lui dire "écris la suite" (ce qui crée des erreurs de compréhension), vous lui montrez les 3 dernières phrases que vous avez écrites en les écrivant en noir gras et parfait (sans aucune erreur), et vous lui demandez d'écrire la suite en se basant sur ce texte parfait.
    • Dans PRISM, quand le robot doit continuer un mouvement, il regarde les dernières images générées comme si elles étaient "parfaites" et "propres", et il continue à partir de là. Cela empêche les erreurs de s'accumuler.

Résultat : Le robot peut générer des mouvements de 10 minutes (ou plus) sans jamais se perdre, sans dériver, et sans s'arrêter.

3. La Magie : Un Seul Cerveau pour Tout

Avant, il fallait un robot différent pour :

  1. Danser sur une musique.
  2. Se déplacer à partir d'une pose de départ.
  3. Faire une longue scène d'action.

PRISM est comme un couteau suisse ultime. Grâce à sa nouvelle façon de voir les données (la grille organisée) et sa méthode de collage (le texte noir gras), un seul modèle peut faire tout cela.

  • Vous pouvez lui dire : "Un guerrier s'approche, s'accroupit, roule sur le côté et se relève."
  • Le robot décompose cela en petites actions, les enchaîne parfaitement, et produit une scène fluide et réaliste.

En Résumé

PRISM est une avancée majeure car il ne se contente pas de rendre le cerveau du robot plus gros (ce qui coûte cher et consomme beaucoup d'énergie). Il réorganise la cuisine :

  1. Il donne aux articulations leur propre espace (plus de confusion).
  2. Il permet de construire des histoires longues sans perdre le fil (plus de dérive).

C'est comme passer d'un système de navigation GPS qui vous fait faire des détours à chaque virage, à un pilote automatique qui voit la route entière et vous emmène directement à destination, sans jamais vous faire rater un virage.

Le code est bientôt disponible pour que tout le monde puisse créer des animations de haute qualité pour les jeux vidéo, les films ou la réalité virtuelle !