PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM introduceert een fundamenteel nieuw model voor het genereren van menselijke bewegingen dat door middel van een per-gewricht gefactoriseerde latente ruimte en ruisvrije conditie-injectie de bestaande beperkingen oplost en een enkel, state-of-the-art systeem biedt voor tekst-naar-beweging, pose-gestuurde generatie en langdurige sequentiële synthese.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film maakt met een virtuele acteur. Je wilt dat deze acteur precies doet wat je zegt: "Loop naar de deur, buig door de knieën en spring." Maar tot nu toe was het alsof je de acteur een onleesbare, rommelige brief gaf. De acteur moest eerst raden wat je bedoelde, probeerde het, maakte een foutje, en toen werd de volgende zin nog verwarrender. Het resultaat? Een acteur die struikelde, door de vloer zakte of plotseling verstarde.

Het paper PRISM komt met een oplossing die dit probleem op twee slimme manieren oplost. Laten we het uitleggen alsof we in een keuken staan.

1. De "Losse Ingrediënten" (Per-Joint Latent Decomposition)

Het oude probleem:
Stel je voor dat je een recept hebt voor een taart, maar in plaats van de ingrediënten apart te zetten (bloem, suiker, eieren), heb je alles in één grote, plakkerige bal gemengd. Als je nu wilt weten hoeveel suiker erin zit, moet je die hele bal weer uit elkaar halen. Dat is wat de oude AI-modellen deden met beweging. Ze pakten elke seconde van een dans of loopbeweging en propten alles (de positie van de heup, de draaiing van de knie, de snelheid van de voet) in één grote, ondoorzichtige "data-bol". De AI moest die bol eerst ontrafelen voordat hij kon beginnen met dansen.

De PRISM-oplossing:
PRISM doet het anders. Het behandelt elk gewricht in het lichaam als een eigen, apart ingrediënt.

  • De linkerknie heeft zijn eigen "kaartje".
  • De rechterelleboog heeft zijn eigen "kaartje".
  • De heup heeft zijn eigen "kaartje".

In plaats van één grote bal, hebben we nu een georganiseerd rooster (een soort ruitjespapier) waar elk gewricht zijn eigen plekje heeft. Omdat de AI nu direct ziet: "Ah, de knie moet hierheen en de elleboog daarheen", hoeft hij niet meer te gissen. Hij kan direct de beweging van elk gewricht perfectioneren. Dit zorgt voor bewegingen die veel natuurlijker zijn en minder "trillen" of "glijden".

2. De "Onvervalste Voorzet" (Noise-Free Condition Injection)

Het oude probleem:
Stel je voor dat je een lange dansroutine moet maken. Je begint met een tekst: "Doe een salto." De AI doet dat. Dan wil je: "Loop daarna naar rechts." De AI moet nu op basis van het einde van het salto (dat misschien al een klein beetje fout was) de volgende stap bedenken. Omdat de AI op zijn eigen fouten verder bouwt, stapelen de fouten zich op. Na tien stappen is de danser misschien helemaal verdwenen of loopt hij door de vloer. Dit heet "drift" (afwijken).

De PRISM-oplossing:
PRISM introduceert een slim trucje: de "Onvervalste Voorzet".
Stel je voor dat je een lange ketting van bewegingen maakt. Bij elke nieuwe link in de ketting, geeft de AI de eerste paar seconden van de vorige link niet als een "ruisig, onzeker antwoord", maar als een perfect, scherp en helder startpunt.

  • Hoe werkt het? De AI krijgt een tijdstip mee. De beweging die al bestaat (de "voorzet") krijgt tijdstip 0 (perfect scherp). De beweging die nog gemaakt moet worden, krijgt een tijdstip met "ruis" (die de AI moet wegpoetsen).
  • Het resultaat: De AI hoeft niet te raden wat de vorige beweging was; hij krijgt het perfect op een dienblad. Hierdoor kan hij eindeloos lang doorgaan met bewegen zonder dat de kwaliteit verslechtert. Je kunt een verhaal van 10 minuten laten dansen, en de danser blijft perfect op zijn plek en in zijn houding.

3. De "Zelf-Lerende Regisseur" (Self-Forcing)

Om zeker te weten dat dit ook in de echte wereld werkt, trainen ze de AI op een speciale manier. Normaal gesproken leert een AI door te kijken naar het perfecte antwoord van de leraar. Maar in de praktijk moet de AI op zijn eigen antwoorden verder bouwen.

PRISM doet alsof het een repetitie is. De AI maakt een stukje beweging, kijkt naar zijn eigen resultaat (zelfs als het niet perfect is), en gebruikt dat als startpunt voor de volgende oefening. Hierdoor leert de AI om foutjes te corrigeren en stabiel te blijven, zelfs als hij langere tijd moet dansen dan hij ooit in de les heeft gezien.

Samenvatting: Waarom is dit cool?

Met PRISM kun je nu:

  1. Tekst naar Dans: Zeg "Een krijger die schuivend loopt en dan springt", en de AI maakt het.
  2. Positie naar Dans: Geef de AI een startpositie (bijv. "zit op een stoel") en een tekst ("staat op en loopt weg"), en hij vult het in.
  3. Oneindige Verhalen: Vertel een lang verhaal ("Hij loopt naar de markt, koopt fruit, rent weg van een hond, en valt neer"), en de AI maakt één lange, vloeiende video zonder haperingen of vreemde sprongen.

Kortom: PRISM is als het geven van een perfect georganiseerd recept en een onvervalste startpositie aan een virtuele danser. Het resultaat is dat de danser niet meer struikelt, maar soepel, natuurlijk en eindeloos kan bewegen op basis van wat jij zegt.