MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste de dessiner une vidéo d'une personne courant dans un parc. La plupart des intelligences artificielles actuelles sont comme des peintres très talentueux pour les couleurs et les détails (l'aspect visuel), mais qui ont du mal à comprendre comment le corps humain fonctionne réellement. Résultat ? La personne dans la vidéo peut avoir une tête magnifique, mais ses jambes peuvent se tordre de manière impossible, ou elle peut traverser un banc comme un fantôme.

C'est là qu'intervient MoSA, une nouvelle méthode présentée dans ce papier, qui change la façon dont nous créons ces vidéos.

Voici une explication simple, avec des analogies pour mieux comprendre :

1. Le Problème : Le "Peintre" vs l'"Architecte"

Les anciennes méthodes essayaient de tout faire d'un coup : elles regardaient le texte ("une femme court") et tentaient de peindre directement chaque pixel de la vidéo.

L'analogie : C'est comme si vous demandiez à quelqu'un de construire une maison en jetant des briques au hasard tout en essayant de peindre les murs en même temps. La maison risque de s'effondrer (mouvements irréalistes) même si la peinture est belle.

2. La Solution MoSA : Séparer les tâches

MoSA a une idée géniale : découpler la structure du mouvement de l'apparence visuelle. Elle sépare le travail en deux équipes distinctes qui travaillent ensemble.

Équipe A : L'Architecte (La Structure)

Avant de dessiner quoi que ce soit, MoSA fait appel à un "Architecte 3D".

Ce qu'il fait : Il lit votre texte et crée d'abord un squelette 3D (une sorte de mannequin invisible) qui bouge exactement comme demandé.
L'analogie : Imaginez un marionnettiste qui prépare les fils de sa marionnette. Il s'assure que si la marionnette court, ses jambes bougent de manière logique, qu'elle ne traverse pas les murs et que ses bras sont bien attachés. C'est une étape purement mathématique et géométrique.
Pourquoi c'est mieux : En travaillant en 3D d'abord, l'IA comprend la profondeur. Si un bras passe devant un corps, l'Architecte sait qu'il doit être caché, évitant les erreurs bizarres.

Équipe B : Le Peintre (L'Apparence)

Une fois que le squelette bouge parfaitement, l'IA passe à l'étape de la peinture.

Ce qu'il fait : Elle prend le squelette de l'Architecte et "remplit" les lignes avec de la peau, des vêtements, des cheveux et le décor (le parc, le soleil).
L'analogie : C'est comme si vous preniez un mannequin en plastique bien articulé et que vous lui mettiez un costume réaliste et une peau parfaite. Le mouvement est déjà garanti par le mannequin, donc le peintre n'a plus qu'à se concentrer sur la beauté.

3. Les Super-Pouvoirs de MoSA

Pour que cela fonctionne parfaitement, MoSA utilise trois astuces supplémentaires :

Le "Contrôleur Dynamique" (Human-Aware Dynamic Control) :
Parfois, le squelette est juste une ligne fine (comme un dessin au trait). Le Peintre pourrait avoir du mal à savoir où mettre les détails. MoSA utilise un "contrôleur" qui dit au Peintre : "Attention, ici c'est le genou, ici c'est le genou qui bouge, mets plus de détails ici !". C'est comme un chef d'orchestre qui dit aux musiciens quand jouer fort ou doucement pour que le mouvement soit fluide.
La "Loi de la Physique" (Contrainte de Contact) :
Souvent, les IA font traverser les gens aux objets. MoSA a ajouté une règle stricte : "Si le pied touche le sol, il doit rester sur le sol".
- L'analogie : C'est comme si vous appreniez à un enfant à marcher sur une poutre. Si vous ne lui dites pas de faire attention, il va tomber. MoSA apprend à l'IA à ne pas traverser les murs ou les arbres, rendant la vidéo physiquement crédible.
Le "Gymnase d'Entraînement" (Le Dataset MoVid) :
Pour apprendre à faire ces mouvements complexes, l'IA a besoin de s'entraîner. Les anciennes IA s'entraînaient sur des vidéos de gens qui bougent juste la tête ou qui dansent debout.
- L'analogie : C'est comme si un athlète s'entraînait seulement à faire du jogging sur un tapis, puis devait soudainement courir dans une forêt avec des obstacles.
- MoSA a créé son propre gymnase géant (MoVid) avec 30 000 vidéos de gens faisant des choses complexes : courir, sauter, interagir avec des objets, dans des environnements variés. C'est grâce à cet entraînement intensif qu'elle est si bonne.

En Résumé

MoSA, c'est comme passer d'un dessin animé un peu bancal à un film d'animation de haute qualité.

On construit d'abord le squelette (pour que le mouvement soit logique).
On ajoute la peau et les vêtements (pour que ce soit beau).
On vérifie que tout respecte les lois de la physique (pas de fantômes qui traversent les murs).

Le résultat ? Des vidéos où les humains bougent de manière naturelle, réaliste et fluide, même pour des actions complexes comme courir, sauter ou interagir avec leur environnement. C'est un grand pas en avant pour rendre l'IA plus "humaine" dans ses mouvements.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération vidéo actuels, bien qu'impressionnants en termes de fidélité visuelle (apparence), peinent à synthétiser des mouvements humains complexes et physiquement plausibles. Les défis majeurs identifiés sont :

Incohérence structurelle : Les mouvements générés (mouvements du corps entier, dynamiques à long terme, interactions humain-environnement) manquent souvent de cohérence anatomique, conduisant à des articulations déformées ou des membres manquants.
Dépendance aux données limitées : Les ensembles de données existants se concentrent principalement sur des mouvements faciaux, des parties supérieures du corps ou des danses verticales, ne couvrant pas la diversité des actions complexes.
Paradigme de génération unique : Les modèles tentent de générer l'apparence et le mouvement simultanément, ce qui conduit souvent à privilégier la fidélité de l'apparence au détriment de la cohérence du mouvement.

2. Méthodologie : Le cadre MOSA

L'approche proposée, MOSA, introduit un cadre de découplage structure-apparence. Au lieu de générer la vidéo directement, le processus est divisé en deux branches séquentielles :

A. Génération de la Structure (Branch Structure)

Objectif : Générer une séquence de mouvement 3D cohérente à partir d'une invite textuelle.
Architecture : Utilisation d'un Transformateur de Structure 3D pré-entraîné sur de vastes ensembles de données de mouvement 3D.
Processus :
1. L'invite textuelle est filtrée pour ne conserver que les informations relatives au mouvement ( $p'$ ).
2. Le modèle génère une séquence de points clés (keypoints) 3D humains.
3. Ces points 3D sont projetés en une séquence de squelettes 2D ( $g_s$ ).
Avantage clé : Travailler en 3D permet d'exploiter les informations de profondeur implicites pour maintenir la cohérence structurelle même en cas d'occlusion de membres, ce que les méthodes 2D directes ne peuvent pas faire.

B. Génération de l'Apparence (Branch Appearance)

Objectif : Synthétiser la vidéo visuelle réaliste guidée par la séquence structurelle générée.
Architecture : Basée sur un modèle de diffusion Transformer (DiT), ici CogVideoX-5B.
Contrôle Dynamique Conscient de l'Humain (HADC) :
- Pour pallier le fait que les squelettes sont des guidages structurels "rares" (sparse), un module HADC est inséré entre les blocs DiT.
- Il utilise des prédicteurs de poids dynamiques apprenables pour créer des cartes de poids ( $w_k$ ) qui propagent le guidage du squelette sur toute la région du mouvement.
- Une perte de masque (mask loss) contraint ces poids pour s'assurer que le guidage structurel est appliqué efficacement aux zones pertinentes.
Contraintes d'Entraînement :
- Perte de suivi dense (Dense Tracking Loss) : Utilise CoTracker3 pour extraire des trajectoires de points et pénalise les incohérences temporelles, améliorant la fluidité du mouvement sur de longues séquences.
- Contrainte de contact (Contact Constraint) : Une perte 3D qui pénalise les inter-pénétrations entre l'humain et l'environnement (ex: marcher sur un objet), garantissant des interactions physiquement plausibles.

3. Contributions Clés

Cadre de Découplage Structure-Apparence : Une approche originale qui sépare la génération de la cohérence structurelle (mouvement) de la synthèse de l'apparence, permettant un contrôle plus fin et une meilleure plausibilité physique.
Modules Innovants :
- HADC : Pour un contrôle granulaire fin des mouvements à partir de squelettes épars.
- Perte de suivi dense et Contrainte de contact : Pour assurer la cohérence temporelle et l'interaction réaliste avec l'environnement.
Ensemble de Données MoVid : Création d'un nouveau jeu de données à grande échelle (30 000 vidéos) contenant des mouvements humains complexes et diversifiés (mouvements complets, interactions variées), surpassant les limites des jeux de données existants (souvent limités aux visages ou aux danses).

4. Résultats Expérimentaux

Les auteurs ont comparé MOSA à des modèles de génération vidéo généraux (Mochi 1, Wan 2.1, HunyuanVideo), des modèles de génération vidéo humaine et des modèles d'animation.

Métriques Quantitatives : MOSA surpasse systématiquement les méthodes de l'état de l'art sur la majorité des métriques :
- FVD (Fréchet Video Distance) : 1093 (le plus bas, indiquant une meilleure qualité).
- CLIPSIM : 0.3035 (meilleure correspondance sémantique texte-vidéo).
- VBench : Scores supérieurs en cohérence du sujet, fluidité du mouvement et qualité d'imagerie.
Études Qualitatives : Les comparaisons visuelles montrent que MOSA génère des structures corporelles raisonnables et des mouvements fluides, là où les autres modèles échouent souvent sur des actions complexes (ex: patinage, interactions avec des objets).
Études d'Ablation :
- Le découplage 3D/2D est crucial pour éviter les erreurs anatomiques (membres manquants).
- Les modules HADC et la perte de suivi dense améliorent significativement la cohérence temporelle.
- L'utilisation du jeu de données MoVid est essentielle pour la génération de mouvements complexes.

5. Signification et Impact

Ce travail représente une avancée significative dans le domaine de la génération vidéo centrée sur l'humain. En reconnaissant que la structure (mouvement) et l'apparence (texture, environnement) nécessitent des paradigmes de génération différents, MOSA résout le problème fondamental de l'incohérence physique.

Applications potentielles : Création de contenu pour le cinéma, les jeux vidéo, la réalité virtuelle et la simulation, où la plausibilité physique des mouvements humains est critique.
Futur : Les auteurs notent que l'architecture est compatible avec l'intégration de points clés plus denses (comme les mains) pour améliorer encore les interactions fines, bien que cela nécessite des données d'entraînement supplémentaires.

En résumé, MOSA établit un nouvel état de l'art en combinant une génération de mouvement 3D robuste, un contrôle dynamique fin et un jeu de données riche, permettant de créer des vidéos humaines réalistes et physiquement cohérentes à partir de simples descriptions textuelles.