ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

ExGes is een nieuw retrieval-gebaseerd diffusion-framework dat de expressiviteit en semantische nauwkeurigheid van audio-gedreven menselijke gebaren verbetert door een gebarenbibliotheek, een precisie-retrievalmodule en een controlemechanisme voor flexibele aansturing te integreren.

Xukun Zhou, Fengxin Li, Ming Chen, Yan Zhou, Pengfei Wan, Di Zhang, Yeying Jin, Zhaoxin Fan, Hongyan Liu, Jun He

Gepubliceerd 2026-04-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale pop (een "avatar") hebt die in een video praat. Vaak gebeuren er twee dingen: ofwel bewegen de handen van de pop als een robot, ofwel bewegen ze heel willekeurig en niet echt bij wat er gezegd wordt. Het is alsof iemand een tekst leest terwijl hij met zijn handen een ander verhaal vertelt.

Deze paper introduceert ExGes, een slimme nieuwe manier om die digitale pop te laten bewegen. Het doel is simpel: de handen moeten niet alleen bewegen, maar ze moeten precies passen bij de emotie en de betekenis van wat er gezegd wordt.

Hier is hoe het werkt, uitgelegd met een paar creatieve vergelijkingen:

1. Het probleem: De "Gemiddelde" Danser

Bestaande methoden zijn vaak als een danser die alleen de gemiddelde beweging kent. Als iemand zegt "Ik ben heel blij!", doet de pop misschien een klein zwaaije. Maar als iemand schreeuwt "IK BEN ZOOO BLY!", zou de pop wild moeten springen. De oude methoden weten dit onderscheid niet goed te maken; ze doen allemaal hetzelfde, saaie zwaaije. Ze missen de "ziel" in de beweging.

2. De oplossing: ExGes als een Slimme Regisseur

ExGes werkt als een regisseur die niet alleen luistert naar de tekst, maar ook een grote bibliotheek met voorbeelden heeft. Het proces bestaat uit drie stappen:

Stap 1: De Bibliotheek (Motion Base)

Stel je voor dat je een enorme kast hebt vol met duizenden video's van mensen die praten en bewegen. In deze kast zijn de bewegingen perfect gelabeld: "hier is iemand die enthousiast is," "hier is iemand die iets uitlegt," "hier is iemand die boos is."
ExGes bouwt eerst deze kast op. Het is de verzameling van alle mogelijke, expressieve bewegingen die er bestaan.

Stap 2: De Zoeker (Motion Retrieval)

Dit is het magische deel. Als de digitale pop een zin moet zeggen (bijvoorbeeld: "Dit is heel belangrijk!"), gaat ExGes niet raden welke beweging hij moet maken. In plaats daarvan zoekt hij in zijn bibliotheek naar de perfecte beweging die bij dat woord past.

  • Vergelijking: Het is alsof je een zoekmachine gebruikt. Je typt "belangrijk" in, en de computer toont je niet willekeurige plaatjes, maar precies de foto van iemand die met een ernstig gebaar zijn vinger opsteekt.
  • ExGes gebruikt slimme wiskunde (zoals een "momentum" systeem) om te leren welke beweging bij welk geluid hoort, zelfs als het heel subtiel is.

Stap 3: De Precieze Regisseur (Precision Control)

Nu heeft ExGes de perfecte beweging gevonden, maar hoe zorgt hij ervoor dat de pop die beweging ook echt uitvoert zonder dat het eruitziet als een glitch?
Hier gebruikt ExGes een techniek die lijkt op schilderen met een masker.

  • Stel je voor dat je een schilderij maakt van een danser. Je wilt dat de linkerhand precies doet wat je wilt, maar de rest van het lichaam mag vrij bewegen om natuurlijk te lijken.
  • ExGes "maskert" (bedekt) bepaalde delen van de beweging en laat ze precies zo zijn als in de gevonden voorbeeldbeweging. De rest van de beweging wordt dan door de computer "ingevuld" om het soepel te laten overlopen. Dit zorgt ervoor dat de pop niet vastloopt, maar wel die specifieke, expressieve beweging uitvoert.

Waarom is dit beter?

In tests hebben ze gekeken of mensen de bewegingen van ExGes leuker vonden dan die van andere systemen.

  • Resultaat: Mensen vonden de bewegingen van ExGes 71% natuurlijker en beter passend bij de tekst.
  • Het voelt niet meer als een robot die tekst voorleest, maar als een mens die echt communiceert.

Samenvattend

Vroeger was het maken van een bewegende digitale pop als het proberen om een dans te bedenken zonder muziek. Met ExGes is het alsof je een dansmeester hebt die:

  1. Duizenden dansen kent (de bibliotheek).
  2. Luistert naar de muziek en de perfecte dansstap kiest (de zoekmachine).
  3. Zorgt dat de danser die stap precies uitvoert, maar het er natuurlijk uitziet (de regisseur).

Het resultaat? Digitale mensen die eindelijk echt "menselijk" bewegen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →