PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film maakt met een virtuele acteur. Je wilt dat deze acteur precies doet wat je zegt: "Loop naar de deur, buig door de knieën en spring." Maar tot nu toe was het alsof je de acteur een onleesbare, rommelige brief gaf. De acteur moest eerst raden wat je bedoelde, probeerde het, maakte een foutje, en toen werd de volgende zin nog verwarrender. Het resultaat? Een acteur die struikelde, door de vloer zakte of plotseling verstarde.

Het paper PRISM komt met een oplossing die dit probleem op twee slimme manieren oplost. Laten we het uitleggen alsof we in een keuken staan.

1. De "Losse Ingrediënten" (Per-Joint Latent Decomposition)

Het oude probleem:
Stel je voor dat je een recept hebt voor een taart, maar in plaats van de ingrediënten apart te zetten (bloem, suiker, eieren), heb je alles in één grote, plakkerige bal gemengd. Als je nu wilt weten hoeveel suiker erin zit, moet je die hele bal weer uit elkaar halen. Dat is wat de oude AI-modellen deden met beweging. Ze pakten elke seconde van een dans of loopbeweging en propten alles (de positie van de heup, de draaiing van de knie, de snelheid van de voet) in één grote, ondoorzichtige "data-bol". De AI moest die bol eerst ontrafelen voordat hij kon beginnen met dansen.

De PRISM-oplossing:
PRISM doet het anders. Het behandelt elk gewricht in het lichaam als een eigen, apart ingrediënt.

De linkerknie heeft zijn eigen "kaartje".
De rechterelleboog heeft zijn eigen "kaartje".
De heup heeft zijn eigen "kaartje".

In plaats van één grote bal, hebben we nu een georganiseerd rooster (een soort ruitjespapier) waar elk gewricht zijn eigen plekje heeft. Omdat de AI nu direct ziet: "Ah, de knie moet hierheen en de elleboog daarheen", hoeft hij niet meer te gissen. Hij kan direct de beweging van elk gewricht perfectioneren. Dit zorgt voor bewegingen die veel natuurlijker zijn en minder "trillen" of "glijden".

2. De "Onvervalste Voorzet" (Noise-Free Condition Injection)

Het oude probleem:
Stel je voor dat je een lange dansroutine moet maken. Je begint met een tekst: "Doe een salto." De AI doet dat. Dan wil je: "Loop daarna naar rechts." De AI moet nu op basis van het einde van het salto (dat misschien al een klein beetje fout was) de volgende stap bedenken. Omdat de AI op zijn eigen fouten verder bouwt, stapelen de fouten zich op. Na tien stappen is de danser misschien helemaal verdwenen of loopt hij door de vloer. Dit heet "drift" (afwijken).

De PRISM-oplossing:
PRISM introduceert een slim trucje: de "Onvervalste Voorzet".
Stel je voor dat je een lange ketting van bewegingen maakt. Bij elke nieuwe link in de ketting, geeft de AI de eerste paar seconden van de vorige link niet als een "ruisig, onzeker antwoord", maar als een perfect, scherp en helder startpunt.

Hoe werkt het? De AI krijgt een tijdstip mee. De beweging die al bestaat (de "voorzet") krijgt tijdstip 0 (perfect scherp). De beweging die nog gemaakt moet worden, krijgt een tijdstip met "ruis" (die de AI moet wegpoetsen).
Het resultaat: De AI hoeft niet te raden wat de vorige beweging was; hij krijgt het perfect op een dienblad. Hierdoor kan hij eindeloos lang doorgaan met bewegen zonder dat de kwaliteit verslechtert. Je kunt een verhaal van 10 minuten laten dansen, en de danser blijft perfect op zijn plek en in zijn houding.

3. De "Zelf-Lerende Regisseur" (Self-Forcing)

Om zeker te weten dat dit ook in de echte wereld werkt, trainen ze de AI op een speciale manier. Normaal gesproken leert een AI door te kijken naar het perfecte antwoord van de leraar. Maar in de praktijk moet de AI op zijn eigen antwoorden verder bouwen.

PRISM doet alsof het een repetitie is. De AI maakt een stukje beweging, kijkt naar zijn eigen resultaat (zelfs als het niet perfect is), en gebruikt dat als startpunt voor de volgende oefening. Hierdoor leert de AI om foutjes te corrigeren en stabiel te blijven, zelfs als hij langere tijd moet dansen dan hij ooit in de les heeft gezien.

Samenvatting: Waarom is dit cool?

Met PRISM kun je nu:

Tekst naar Dans: Zeg "Een krijger die schuivend loopt en dan springt", en de AI maakt het.
Positie naar Dans: Geef de AI een startpositie (bijv. "zit op een stoel") en een tekst ("staat op en loopt weg"), en hij vult het in.
Oneindige Verhalen: Vertel een lang verhaal ("Hij loopt naar de markt, koopt fruit, rent weg van een hond, en valt neer"), en de AI maakt één lange, vloeiende video zonder haperingen of vreemde sprongen.

Kortom: PRISM is als het geven van een perfect georganiseerd recept en een onvervalste startpositie aan een virtuele danser. Het resultaat is dat de danser niet meer struikelt, maar soepel, natuurlijk en eindeloos kan bewegen op basis van wat jij zegt.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Bestaande methoden voor tekst-naar-beweging (Text-to-Motion) generatie ondervinden twee fundamentele beperkingen:

Ongestructureerde Latente Representatie: Huidige motion autoencoders comprimeren elk frame in één monolithische (samengevoegde) latente vector. Hierdoor worden de globale trajecten, rotaties per gewricht en andere signalen verward in een ongeordende representatie. De generatieve modellen moeten deze heterogene signalen (met verschillende fysieke eenheden en schalen) impliciet ontrafelen, wat capaciteit kost die beter gebruikt zou kunnen worden voor semantisch begrip.
Fragmentatie van Taken en Foutopstapeling: Taken zoals tekst-naar-beweging, pose-geconditioneerde generatie en lange-horizon sequentiële synthese vereisen vaak aparte modellen of specifieke mechanismen (zoals inpainting-netwerken). Autoregressieve methoden die segmenten aan elkaar koppelen, lijden onder ernstige foutopstapeling (error accumulation), wat leidt tot afwijkingen in het traject (drift), degradatie van de beweging en instabiliteit bij lange rollouts.

2. Methodologie: PRISM

PRISM (Per-joint Representation for Infinite Streaming Motion) lost deze problemen op met twee kerncomponenten die samenwerken in één enkel foundation model.

A. Joint-Factorized Motion Latent Space (Per-Gewricht Latente Decompositie)

In plaats van één vector per frame, deconstrueert PRISM de beweging langs de kinematische boom:

Tokenisatie: Elk lichaamsgewricht (inclusief de wortel-positie en globale oriëntatie) krijgt zijn eigen token. Dit vormt een gestructureerd 2D-rooster van dimensie Tijd × Gewrichten.
Causale VAE: Een causale ruimtetijd-VAE comprimeert dit rooster. De encoder gebruikt strikt causale temporale convoluties (alleen kijken naar het verleden) en ruimtelijke joint-attention lagen om kinematische koppelingen te leren.
Forward-Kinematics (FK) Supervisie: Omdat de VAE in de native rotatieruimte (SMPL) werkt, introduceert het paper een speciaal verliesmechanisme. Kleine rotatiefouten bij proximale gewrichten (bijv. schouder) kunnen leiden tot grote positiesfouten bij distale gewrichten (bijv. pols). PRISM lost dit op door niet alleen rotaties te optimaliseren, maar ook de afgeleide 3D-gewrichtsposities en het cumulatieve traject te superviseren.

B. Noise-Free Condition Injection (Ruisvrije Conditionering)

Deze techniek unificatie verschillende generatietaken in één model:

Per-Token Tijdstap: In tegenstelling tot standaard diffusion/flow-matching waar elke token dezelfde tijdstap heeft, draagt elke token in PRISM zijn eigen tijdstap-embedding.
Mechanisme: Conditioneringsframes (bijv. een start-pose of het einde van een eerder gegenereerd segment) worden ingebracht als "schone" tokens met tijdstap $t=0$ . De resterende tokens worden gedenoised ( $t>0$ ).
Voordeel: Dit elimineert de noodzaak voor aparte inpainting-netwerken of gespecialiseerde posities-coderingen. Het model leert tijdens training het onderscheid tussen context (schone tokens) en generatiedoelen (ruis).

C. Self-Forcing voor Streaming

Om drift bij lange autoregressieve rollouts te onderdrukken, gebruikt PRISM Self-Forcing:

Tijdens training wordt een segment gegenereerd, gedecodeerd, opnieuw gecodeerd en gebruikt als conditionering voor het volgende segment.
Dit simuleert de daadwerkelijke inferentie-pijplijn en sluit de kloof tussen training (waar vaak 'teacher forcing' met ground truth wordt gebruikt) en inferentie, waardoor stabiele generatie mogelijk is over 10+ segmenten (ver voorbij de trainingshorizon van ~360 frames).

3. Belangrijkste Bijdragen

Gestructureerde Latente Ruimte: Het introduceren van een per-gewricht gefactoriseerde 2D latente grid. Dit verbetert de kwaliteit aanzienlijk zonder de generator-architectuur zelf te hoeven wijzigen, omdat de generator nu direct per-gewricht dynamiek kan modelleren.
Unificatie van Taken: Door noise-free condition injection kunnen tekst-naar-beweging, pose-geconditioneerde generatie en onbeperkt lange streaming synthese allemaal worden uitgevoerd door één enkel Flow-Matching DiT-model.
Stabiele Lange-Horizon Synthese: De combinatie van noise-free chaining en self-forcing training stelt het model in staat om coherente bewegingen te genereren die vele malen langer zijn dan de trainingsdata, zonder drift of instabiliteit.

4. Resultaten

PRISM werd getest op HumanML3D, MotionHub, BABEL en een gebruikersstudie met 50 scenario's.

State-of-the-Art (SOTA) Prestaties: PRISM behaalt de beste resultaten op HumanML3D en MotionHub voor tekst-naar-beweging. De FID-scores verbeteren met 55% ten opzichte van de beste concurrenten (bijv. ViMoGen).
Reconstructiekwaliteit: De joint-factorized VAE toont een 18x verbetering in MPJPE (Mean Per Joint Position Error) en een 20x reductie in rFID ten opzichte van monolithische baselines.
Sequentiële Generatie: Op de BABEL-dataset (lange sequenties) overtreft PRISM methoden zoals MotionStreamer en FlowMDM significant, zowel in kwaliteit van sub-sequenties als in de gladheid van overgangen (transities).
Narratieve Samenstelling: In een gebruikersstudie werd PRISM in meer dan 70% van de gevallen verkozen boven concurrenten voor het genereren van complexe, meervoudige acties uit vrije teksten, met name vanwege de soepele overgangen en fysieke plausibiliteit.

5. Betekenis en Conclusie

De paper demonstreert dat de ontwerp van de latente ruimte even belangrijk is als de schaal van de generator zelf. Door de inherente structuur van menselijke beweging (de kinematische boom) te respecteren in de latente representatie, kan het generatieve model veel efficiënter leren.

PRISM biedt een unificerend raamwerk dat de barrières tussen verschillende bewegingstaken doorbreekt en een oplossing biedt voor het eeuwenoude probleem van drift bij lange autoregressieve generatie. Dit maakt het mogelijk om realistische, fysiek plausibele bewegingen te genereren voor lange video's, games en virtuele werelden, gebaseerd op eenvoudige tekstuele instructies of narratieven. De code wordt open-source beschikbaar gesteld.

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

1. De "Losse Ingrediënten" (Per-Joint Latent Decomposition)

2. De "Onvervalste Voorzet" (Noise-Free Condition Injection)

3. De "Zelf-Lerende Regisseur" (Self-Forcing)

Samenvatting: Waarom is dit cool?

1. Het Probleem

2. Methodologie: PRISM

A. Joint-Factorized Motion Latent Space (Per-Gewricht Latente Decompositie)

B. Noise-Free Condition Injection (Ruisvrije Conditionering)

C. Self-Forcing voor Streaming

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes