Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Deze paper introduceert een drie-traps framework met de MoTok-tokenizer, die diffusion-modellen en discrete tokens combineert om menselijke bewegingen te genereren die zowel semantisch nauwkeurig als kinematisch controleerbaar zijn met een aanzienlijk hogere kwaliteit en efficiëntie dan bestaande methoden.

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu

Gepubliceerd 2026-03-20
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een danser moet laten bewegen. Je hebt twee dingen nodig:

  1. Het verhaal: Wat doet de danser? (Bijvoorbeeld: "Hij loopt naar links, pakt een kopje op en draait zich om.")
  2. De exacte beweging: Waar moet zijn hand precies zijn op seconde 3? Hoe moet zijn voet precies landen?

Tot nu toe hadden computerprogramma's moeite om deze twee dingen goed te combineren. Als je te veel focuste op het verhaal, werd de beweging vaag. Als je te veel focuste op de exacte coördinaten, leek de danser als een robot en verloor hij de "menselijke" sfeer.

Deze paper introduceert MoTok, een slimme nieuwe manier om dit probleem op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Te Dichte" Pakketjes

Stel je voor dat je een film moet versturen via een oude, trage postdienst.

  • Oude methode: Je probeert elke minuut van de film in één pakketje te proppen. Om dat te doen, moet je de film extreem comprimeren. Het resultaat? De film is wel te zien, maar het beeld is wazig, de bewegingen zijn houterig, en als je wilt dat de acteur op een specifieke plek staat, lukt dat niet goed.
  • Het dilemma: Om de beweging perfect te maken, heb je duizenden pakketjes nodig (te veel data). Om het snel te maken, heb je maar één pakketje nodig, maar dan is de kwaliteit slecht.

2. De Oplossing: MoTok (De Slimme Regisseur)

MoTok splitst de taak op in drie duidelijke stappen, zoals een professionele filmproductie:

Stap 1: De Regisseur (Perception & Planning)

In plaats van elke beweging te beschrijven, schrijft de "Regisseur" (het AI-model) alleen het script in korte, krachtige woorden.

  • Hij zegt niet: "Arm 1 gaat 5 cm omhoog, dan 2 cm naar rechts..."
  • Hij zegt: "Loop, pak op, draai."
  • Dit zijn de tokens (de pakketjes). Omdat het script kort en krachtig is, zijn er heel weinig pakketjes nodig (slechts 1/6e van wat andere methoden nodig hebben). De Regisseur zorgt voor de betekenis en het verhaal.

Stap 2: De Danser met een Magische Hoed (The Diffusion Decoder)

Hier komt de magie van MoTok. De Regisseur geeft het script door aan een Danser (de decoder).

  • Bij oude methoden moest de Danser het script letterlijk uitvoeren, wat lastig was als het script niet elke details bevatte.
  • Bij MoTok heeft de Danser een magische hoed (een Diffusion-model). Hij krijgt het korte script, maar hij is ook een expert in het improviseren van vloeiende, natuurlijke bewegingen.
  • De Danser vult de gaten in het script in met zijn eigen kennis van hoe mensen bewegen. Hij zorgt dat het eruitziet als een echte mens, niet als een robot.

Stap 3: De Choreograaf die bijstuurt (Control)

Wat als je wilt dat de danser precies op een bepaalde lijn loopt?

  • Oude methode: Je probeerde de Regisseur te dwingen om in het script de exacte coördinaten te zetten. Dat verwarde de Regisseur en het verhaal werd slecht.
  • MoTok methode: De Regisseur schrijft gewoon "Loop naar links". De Danser begint te dansen. Tijdens het dansen (terwijl de beweging wordt gegenereerd), komt er een Choreograaf (de controle-mechanisme) die fluistert: "Nee, je voet moet hier landen."
  • De Danser past zijn beweging terwijl hij dansen aan, zonder het verhaal te vergeten. Hij houdt het verhaal vast, maar past de details aan.

Waarom is dit zo cool? (De Analogie van de Bouw)

Stel je voor dat je een huis bouwt:

  • Oude methoden: Je probeert elke baksteen, elke muur en elk raam in één grote blauwdruk te tekenen. Als je de blauwdruk te klein maakt, wordt het huis scheef. Als je hem te groot maakt, duurt het eeuwen om te tekenen.
  • MoTok:
    1. Je tekent eerst een snel schets van het huis (het script/tokens): "Hier de woonkamer, daar de slaapkamer." Dit is heel klein en snel.
    2. Een meesterbouwer (de Diffusion-decoder) neemt die schets en bouwt het huis. Hij weet precies hoe je metselwerk moet doen, hoe je ramen plaatst, zodat het er strak uitziet.
    3. Als de klant zegt: "Ik wil dat de deur precies 10 cm naar links staat," past de meesterbouwer dat direct aan terwijl hij bouwt, zonder de hele schets opnieuw te hoeven tekenen.

De Resultaten in het Kort

  • Minder data: Het systeem werkt met 6 keer minder "pakketjes" (tokens) dan de beste bestaande systemen.
  • Beter verhaal: De bewegingen passen perfect bij wat er gezegd wordt (bijv. "dansend" ziet er echt uit als dansen).
  • Precieze controle: Je kunt eisen stellen aan specifieke lichaamsdelen (bijv. "de linkerhand moet deze lijn volgen") en het AI-model haalt die lijn perfect, zonder dat de rest van het lichaam er rot uitziet.
  • Geen compromis: Bij andere systemen ging de kwaliteit omlaag als je te veel eisen stelde. Bij MoTok wordt de kwaliteit zelfs beter als je meer controle hebt, omdat de "Regisseur" zich kan focussen op het verhaal en de "Bouwer" zich kan focussen op de details.

Kortom: MoTok is de slimme regisseur die het verhaal vertelt, en de magische danser die het verhaal perfect, natuurlijk en precies uitvoert, zelfs als je hem heel specifieke instructies geeft.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →