LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

Each language version is independently generated for its own context, not a direct translation.

🎬 LaxMotion : Apprendre à danser sans regarder les notes de musique

Imaginez que vous voulez enseigner à un robot comment danser. Jusqu'à présent, la méthode standard était très stricte : on donnait au robot une vidéo 3D ultra-précise de la danse, avec les coordonnées exactes de chaque articulation (le genou doit être à 12,4 cm, le coude à 3,1 cm, etc.).

Le problème ?
Le robot apprenait par cœur la vidéo, comme un élève qui mémorise les réponses d'un examen sans comprendre la matière.

Si on lui demandait de danser une nouvelle chanson, il paniquait car il ne reconnaissait pas les "coordonnées exactes".
Il ne pouvait pas improviser. S'il devait danser la même chanson deux fois, il faisait exactement le même mouvement, sans aucune variation naturelle.
C'est comme si un acteur apprenait un texte mot pour mot, mais dès qu'on changeait une virgule, il ne savait plus quoi dire.

💡 La solution : LaxMotion (Le "Détenteur")

Les auteurs de cet article, LaxMotion, ont eu une idée géniale : arrêter de forcer le robot à mémoriser les coordonnées exactes. Au lieu de cela, ils lui apprennent à comprendre la structure du mouvement.

Voici comment ils font, avec trois analogies simples :

1. La carte vs. le GPS (La factorisation du mouvement)

Au lieu de donner au robot la position exacte de chaque membre dans l'espace (le GPS), on lui donne deux choses :

Le chemin global : Où va le corps ? (Comme une carte routière qui montre le trajet).
Les mouvements relatifs : Comment les bras et les jambes bougent par rapport au torse ? (Comme dire "le bras monte", sans préciser à quel centimètre près).

C'est comme apprendre à nager en comprenant le mouvement des bras et des jambes, plutôt qu'en mémorisant la position exacte de votre corps à chaque seconde dans la piscine.

2. Le dessin vu de face (L'apprentissage en 2D)

C'est le cœur de l'innovation. Au lieu de montrer au robot des vidéos 3D complètes (qui sont rares et chères), on lui montre des vidéos 2D (comme une caméra de téléphone filmant de face).

Le défi : Une vidéo 2D ne dit pas si le bras est devant ou derrière le corps. C'est ambigu.
La magie : Au lieu de corriger le robot en disant "Non, ton coude est à 5 cm de trop", on lui dit : "Ton mouvement doit être cohérent avec ce que je vois en 2D, et il doit avoir du sens physiquement."

C'est comme si on demandait à un sculpteur de créer une statue en ne lui montrant que des photos de face. Il doit imaginer la profondeur et la forme 3D pour que la statue tienne debout et soit réaliste, au lieu de copier une maquette 3D existante.

3. Les règles du jeu (La régularisation "relâchée")

Pour s'assurer que le robot ne fait pas n'importe quoi, on lui donne des règles de bon sens (la "régularisation") :

La cohérence visuelle : Si on tourne la statue imaginaire de 90 degrés, elle doit toujours ressembler à un humain qui bouge, pas à un monstre.
La physique : Les pieds ne doivent pas traverser le sol, et le corps doit se tourner dans la bonne direction.
La stabilité : Le mouvement doit être fluide, pas saccadé.

🚀 Pourquoi c'est génial ?

Grâce à cette approche "relâchée" (d'où le nom LaxMotion) :

Le robot devient créatif : Comme il ne mémorise pas des coordonnées fixes, il peut inventer des milliers de variations d'une même danse. C'est comme un jazzman qui improvise au lieu de jouer une partition rigide.
Il généralise mieux : Il comprend le sens du mouvement. S'il apprend à danser "la marche", il peut le faire sur la lune, dans l'eau, ou avec un style différent, car il a compris la logique du mouvement, pas juste les chiffres.
Moins de données nécessaires : On n'a plus besoin de caméras 3D coûteuses partout. On peut apprendre à partir de vidéos YouTube ordinaires !

En résumé

LaxMotion change la façon dont on enseigne aux ordinateurs à bouger. Au lieu de leur dire : "Fais exactement ce que je te montre, au millimètre près", on leur dit : "Voici le but et les règles de la physique. À toi de trouver le meilleur moyen de bouger pour y arriver."

C'est le passage d'un robot copieur à un danseur intelligent qui comprend vraiment la musique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles récents de génération de mouvements humains 3D à partir de texte (Text-to-Motion) obtiennent d'excellentes précisions de reconstruction sur les benchmarks standards. Cependant, ils peinent à généraliser au-delà des distributions d'entraînement (nouveaux sujets, actions non vues, variations compositionnelles).

L'auteur identifie la cause principale de cette limitation : l'utilisation d'une supervision 3D précise (coordonnées de joints).

Sur-détermination : La supervision par coordonnées exactes transforme un problème intrinsèquement "un-à-plusieurs" (un texte peut correspondre à de nombreux mouvements valides) en un problème d'appariement de points unique.
Sur-apprentissage : Les modèles tendent à mémoriser les réalisations spécifiques et les détails de bas niveau du jeu de données plutôt que d'apprendre la structure 3D essentielle et les indices sémantiques.
Manque de diversité : Cette approche rigide pénalise les déviations sémantiquement correctes, réduisant la diversité des générations et la capacité de généralisation.

2. Méthodologie : LaxMotion

LaxMotion propose un changement de paradigme en abandonnant la régression directe vers les coordonnées 3D de référence. Au lieu de cela, le modèle apprend le mouvement 3D comme une explication cohérente de trajectoires globales et d'indices cinématiques 2D monoculaires.

L'approche repose sur trois piliers stratégiques :

A. Reformulation de la Représentation (De Points à Structures)

Au lieu de traiter le mouvement comme un ensemble de points 3D absolus, LaxMotion le factorise en deux composantes :

Trajectoire globale ( $\tau$ ) : Le déplacement du centre de masse.
Vecteurs de membres relatifs ( $v^{3D}$ ) : Les vecteurs définis par la topologie squelettique (différence entre les articulations parent et enfant).
Cette factorisation permet de découpler la translation racine de la cinématique interne, créant une représentation mathématiquement cohérente sous projection perspective ou orthographique.

B. Paradigme d'Apprentissage sous Observabilité Relâchée

Le modèle est entraîné sans accès aux coordonnées 3D complètes pendant l'apprentissage.

Entrée d'entraînement : Seuls des indices partiels sont fournis : la trajectoire globale 3D ( $\tau$ ) et la projection 2D des vecteurs de membres ( $v^{2D}$ ).
Objectif : Le générateur doit reconstruire le mouvement 3D complet ( $\hat{m}^{3D}$ ) à partir de ces observations 2D partielles, en inférant la structure 3D cohérente plutôt qu'en mémorisant des coordonnées.

C. Régularisation par Relâchement (Relaxation Regularizations)

Pour compenser l'absence de vérité terrain 3D et résoudre l'ambiguïté de profondeur, LaxMotion introduit des contraintes de cohérence structurelle :

Régularisation Structurelle Vue-Consistante : Assure que la projection 2D du mouvement 3D généré correspond aux observations 2D d'entrée.
Régularisation de Plausibilité Multi-Vue (Cross-View) : Une hypothèse clé : un mouvement 3D physiquement valide doit produire des projections 2D "naturelles" sous n'importe quelle rotation virtuelle. Un discriminateur 2D pré-entraîné (VQ-VAE) vérifie la fidélité de reconstruction sous des rotations aléatoires, forçant la cohérence 3D sans caméras multiples.
Régularisation d'Orientation : Contraint la direction des pieds à être cohérente avec l'orientation globale du corps (produit scalaire non négatif), assurant la plausibilité physique.
Régularisation de Cohérence des Caractéristiques (Feature Consistency) : Garantit que la représentation latente du mouvement projeté correspond à celle de l'observation originale.

3. Contributions Clés

Identification d'une limite fondamentale : Mise en évidence du fait que la supervision par coordonnées 3D denses favorise l'ajustement spécifique aux données au détriment de la diversité et de la généralisation.
Proposition de LaxMotion : Un cadre qui apprend à partir d'indices cinématiques 2D et de contraintes structurelles, éliminant le besoin d'étiquettes de pose 3D denses pendant l'entraînement.
Nouveau Paradigme d'Observabilité : Introduction d'un schéma d'entraînement où le modèle doit "déduire" la structure 3D à partir d'observations partielles (2D + trajectoire), favorisant le raisonnement structurel plutôt que la mémorisation.
Performance Supérieure : Démonstration qu'une supervision relâchée, couplée à des régularisations géométriques, peut surpasser ou égaler les méthodes supervisées en 3D, offrant une alternative évolutive et efficace en données.

4. Résultats Expérimentaux

Les expériences ont été menées sur les benchmarks HumanML3D et KIT-ML.

Performance Globale : LaxMotion atteint des scores de FID (Fréchet Inception Distance) compétitifs, voire supérieurs, par rapport aux méthodes state-of-the-art (SOTA) supervisées en 3D (comme MDM, MoMask, MotionDiffuse), tout en utilisant aucune supervision directe de pose 3D.
Diversité et Multimodalité : Le modèle obtient les meilleurs scores de Multimodalité et de QM Score (Quality-Multimodality Score), prouvant sa capacité à générer une grande variété de mouvements valides pour un même texte, comblant ainsi le fossé entre fidélité et diversité.
Généralisation : Le modèle montre une meilleure capacité à gérer des actions non vues et des variations compositionnelles.
Données "In-the-Wild" : Grâce à l'absence de besoin de données 3D d'entraînement, LaxMotion peut être appliqué à des vidéos monoculaires réelles, générant des mouvements 3D réalistes pour des scénarios difficiles à capturer (ex: microgravité, underwater).
Ablation Studies : Les études montrent que la combinaison de la factorisation des membres, de la régularisation multi-vue et de l'utilisation d'un VQ-VAE pour la distribution 2D est cruciale pour la performance.

5. Signification et Impact

Ce travail remet en question l'hypothèse dominante selon laquelle une supervision 3D dense est indispensable pour la génération de mouvements de haute qualité.

Changement de Philosophie : Il démontre que passer d'un appariement de points exacts à une cohérence structurelle améliore le raisonnement du modèle et sa capacité de généralisation.
Évolutivité : En permettant l'entraînement sur des données 2D massives et facilement accessibles (vidéos monoculaires), LaxMotion offre une voie scalable pour entraîner des modèles de mouvement 3D sans le coût prohibitif du capture de mouvement (MoCap) de haute précision.
Robustesse : La méthode prouve que la structure et la sémantique du mouvement peuvent être apprises plus efficacement via des contraintes géométriques et des indices 2D que par la simple régression de coordonnées absolues.

En résumé, LaxMotion propose que la clé d'une génération de mouvement 3D robuste et diversifiée réside dans la relâchement de la granularité de la supervision, favorisant l'apprentissage de principes structurels invariants plutôt que la mémorisation de données spécifiques.