MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film wil maken over een mens die hard loopt, springt of danset. Tot nu toe waren de "AI-regisseurs" (de bestaande videomodellen) heel goed in het schilderen van het gezicht en de kleding van die persoon. Maar als die persoon begon te rennen of met iemand anders te interageren, ging het vaak mis: de benen verdwenen, de armen draaiden op onnatuurlijke manieren, of de persoon liep door een muur heen alsof het geest was.

Deze paper introduceert MoSA, een nieuwe manier om menselijke video's te maken die dit probleem oplost. Hier is hoe het werkt, vertaald naar simpele taal en met een paar creatieve vergelijkingen:

1. Het Probleem: De "Schilder" die de "Architect" mist

Bestaande modellen werken vaak als een schilder die alleen naar de verf (de kleuren en details) kijkt. Ze proberen de hele video in één keer te "dromen" vanuit een tekst. Het resultaat? Prachtige gezichten, maar als de persoon gaat rennen, wordt het een chaotische soep van ledematen. Het ontbreekt aan een stevig skelet.

2. De Oplossing: MoSA (Scheiding van Bouw en Sier)

MoSA maakt een slimme scheiding, alsof je een huis bouwt in twee stappen:

Stap 1: De Architect (Structuur): Eerst bouwt een AI-systeem een onzichtbaar, driedimensionaal skelet van de beweging. Dit is puur de "bewegingslogica". Waar gaan de benen heen? Hoe buigt de rug? Dit gebeurt in 3D, zodat de AI weet wat er achter de andere ledematen zit (zoals een arm die voor de borst staat).
Stap 2: De Schilder (Uiterlijk): Pas als dat stevige skelet klaar is, begint de "schilder" aan de video. Hij kleurt het skelet in met huid, kleding en de achtergrond, maar hij moet zich strikt houden aan de lijnen van het skelet.

De metafoor: Stel je voor dat je een poppenkast maakt. De oude methoden probeerden de poppen direct uit klei te vormen terwijl ze bewogen; ze vielen vaak uit elkaar. MoSA maakt eerst een onbreekbaar metalen frame (het skelet) en trekt dan pas de mooie poppenkleren en het gezicht over dat frame.

3. De Slimme Trucs (De "Magische" Hulpmiddelen)

Om ervoor te zorgen dat dit frame niet alleen goed staat, maar ook echt voelt als een mens, gebruikt MoSA drie speciale hulpmiddelen:

De "Dynamische Regisseur" (Human-Aware Dynamic Control):
Een skelet is vaak dun en spaarzaam (alleen lijnen). Hoe zorg je dat de AI weet waar precies de huid moet zitten? Deze module werkt als een slimme spotlichtregisseur. Hij zegt tegen de AI: "Hier, waar het been is, moet je heel precies schilderen. Hier, waar de lucht is, mag je rustig zijn." Hij zorgt dat de dunne lijnen van het skelet zich uitbreiden naar de volledige, realistische beweging.
De "Vaste Kijker" (Dense Tracking):
Soms bewegen mensen niet soepel, maar huppelen ze als een robot. MoSA gebruikt een "vaste kijker" die elke pixel in de video volgt. Als een vlekje op een shirt ineens springt, zegt de AI: "Nee, dat moet soepel gaan." Dit zorgt voor een vloeiende, natuurlijke beweging.
De "Aardse Grond" (Contact Constraint):
Dit is misschien wel het coolste deel. Als iemand over een boomstam loopt, mag hij er niet doorheen zakken. Bestaande modellen laten mensen vaak door objecten lopen. MoSA heeft een speciale regel: "Als je voet de grond raakt, moet je erboven blijven." Het zorgt ervoor dat mensen echt met hun omgeving interageren, zonder door muren of meubels te lopen.

4. De Nieuwe Bibliotheek (MoVid Dataset)

Om deze nieuwe regisseur te leren, hadden ze meer dan alleen de oude films nodig. Bestaande datasets waren vaak vol met alleen maar gezichten of mensen die alleen maar dansen.
De auteurs hebben dus MoVid gemaakt: een enorme bibliotheek van 30.000 video's met complexe bewegingen. Denk aan mensen die rennen, springen, dansen in een park, of met elkaar om een bal vechten. Het is als het verschil tussen een boek met alleen maar portretten en een boek met avontuurlijke verhalen.

Conclusie

Kortom: MoSA is een nieuwe manier om AI-video's te maken door eerst de "bewegingslogica" (het skelet) te plotten en daarna pas de "schoonheid" (de video) toe te voegen.

Het resultaat? Video's waar mensen niet meer door muren lopen, waar hun ledematen niet verdwijnen, en waar de bewegingen eruitzien als iets dat een echte mens zou doen. Het is alsof je van een tekeningetje in een klei-model bent gegaan naar een echte, levendige film.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande modellen voor het genereren van video's uit tekst of afbeeldingen (text-to-video) focussen voornamelijk op de visuele authenticiteit (appearance fidelity). Ze hebben echter grote moeite om complexe menselijke bewegingen te synthetiseren die fysiek plausibel en structureel coherent zijn. Dit leidt vaak tot onrealistische resultaten, zoals:

Onmogelijke lichaamshoudingen (bijv. ledematen die door elkaar lopen).
Gebrek aan consistentie bij lange bewegingen of dynamische acties.
Onrealistische interacties tussen het menselijk lichaam en de omgeving (bijv. het lichaam dat door objecten heen gaat).

De huidige aanpak traint modellen vaak met een doelstelling voor ruisreconstructie in pixelruimte, wat leidt tot een overgewicht op uiterlijk ten koste van de structurele logica van het menselijk lichaam.

Methodologie: MoSA

De auteurs stellen MoSA (Motion-Coherent Human Video Generation via Structure-Appearance Decoupling) voor. De kern van deze methode is het ontleden van het generatieproces in twee gescheiden, maar gekoppelde takken: Structuurgeneratie en Uiterlijksgeneratie.

1. Structuur-Appearance Decoupling

In plaats van direct video te genereren, volgt MoSA een twee-staps proces:

Structuurgeneratie Tak ( $G_s$ ): Eerst wordt een 3D-structuur van het menselijk lichaam gegenereerd op basis van de tekstprompt. Hiervoor wordt een 3D Structure Transformer gebruikt die is voorgetraind op grote datasets met menselijke bewegingen. Deze transformer genereert een sequentie van 3D-sleutelpunten (keypoints), die vervolgens worden geprojecteerd naar een 2D-skelet.
- Voordeel: Door in 3D te werken, kan het model impliciete diept informatie gebruiken om consistentie te behouden bij occlusies (bijv. wanneer een been achter een ander wordt verduisterd), wat bij directe 2D-generatie vaak faalt.
Uiterlijksgeneratie Tak ( $G_a$ ): Vervolgens wordt de daadwerkelijke video (de visuele textuur en achtergrond) gegenereerd onder leiding van de gegenereerde skeletstructuur. Deze tak gebruikt een Diffusion Transformer (DiT) als backbone.

2. Human-Aware Dynamic Control (HADC)

Omdat een skelet een "spaarzaam" (sparse) signaal is dat niet genoeg detail biedt voor fijne controle over de video, introduceert MoSA de HADC-modules.

Deze modules voorspellen dynamische gewichtskaarten die bepalen hoe het skeletsignaal wordt doorgegeven naar verschillende ruimtelijke locaties in de video-latenties.
Hierdoor kan het model fijne bewegingen beter controleren en zorgt het ervoor dat de bewegingsinformatie zich over het hele menselijke gebied verspreidt, niet alleen op de botpunten.

3. Training Objectives & Constraints

Om de coherentie en fysieke plausibiliteit te verbeteren, worden drie specifieke verliesfuncties (loss functions) toegevoegd:

Dense Tracking Loss ( $L_{track}$ ): Deze loss vergelijkt de beweging van punten in de gegenereerde video met die in de grondwaarheid (ground truth) over tijd. Het moedigt het model aan om lange-termijn bewegingsafhankelijkheden te leren en zorgt voor vloeiende beweging.
Contact Constraint ( $L_{cont}$ ): Een 3D-contactverlies dat fysiek onmogelijke situaties straft, zoals het doordringen van het menselijk lichaam in objecten of de omgeving. Het gebruikt een Signed Distance Function (SDF) om te controleren of het lichaam correct met de achtergrond interacteert.
Mask Loss: Zorgt ervoor dat de HADC-modules effectief werken door de voorspelde maskers te beperken tot de daadwerkelijke menselijke regio's.

Belangrijkste Bijdragen

Novel Framework: MoSA is een origineel raamwerk dat de structuur en het uiterlijk van menselijke video's ontkoppelt. Experimenten tonen aan dat dit leidt tot fysiek plausibele bewegingen die bestaande methoden niet kunnen bereiken.
Geavanceerde Modules: De introductie van Human-Aware Dynamic Control, dense tracking loss en contact constraints lost specifieke problemen op rondom fijne controle, tijdscoherentie en mens-omgeving interacties.
MoVid Dataset: De auteurs hebben een nieuwe, grote dataset genaamd MoVid samengesteld (30.000 video's). In tegenstelling tot bestaande datasets die zich vaak beperken tot gezichten, bovenlichamen of simpele dansbewegingen, bevat MoVid complexe, diverse bewegingen (zoals hardlopen, springen, interactie met objecten) in verschillende omgevingen.

Resultaten

MoSA is uitgebreid getest en vergeleken met state-of-the-art modellen, waaronder:

Algemene video-generatiemodellen (bijv. Wan 2.1, CogVideoX, Mochi 1, HunyuanVideo).
Specifieke menselijke video-generatiemodellen en animatiemodellen.

Kernresultaten:

Kwantitatief: MoSA presteert significant beter op de meeste evaluatiemetrics, waaronder FVD (Fréchet Video Distance, lager is beter), CLIP Similarity, en scores van VBench (zoals subject consistentie, bewegingssmoothness en dynamiek).
Kwalitatief: Visuele vergelijkingen tonen aan dat MoSA realistische bewegingen genereert met een logische lichaamsstructuur, zelfs bij complexe acties zoals schaatsen of het beklimmen van trappen, terwijl concurrenten vaak vervormde ledematen of onrealistische houdingen produceren.
Robuustheid: De methode werkt goed bij occlusies (onderdelen van het lichaam die worden bedekt) en bij interacties met de omgeving (geen "doordringen" door objecten).

Betekenis en Impact

Deze paper is significant omdat het een fundamentele beperking in huidige video-generatiemodellen aanpakt: het gebrek aan fysieke en structurele logica bij menselijke beweging. Door de scheiding tussen "hoe het eruit ziet" en "hoe het beweegt", biedt MoSA een nieuwe richting voor het creëren van realistische menselijke video's.

De publicatie van de MoVid dataset is eveneens cruciaal, aangezien de beperkingen van bestaande datasets vaak de vooruitgang in dit veld belemmerden. De code en dataset worden openbaar gemaakt, wat de reproduceerbaarheid en verdere ontwikkeling in de gemeenschap zal stimuleren. De methode is ook schaalbaar en kan worden toegepast op bestaande modellen (zoals Wan 2.1) om hun prestaties direct te verbeteren.