Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Dit artikel introduceert Ditto, een diffusion-gebaseerd framework voor het real-time genereren van controleerbare praatkoppen met fijne expressies en lage vertraging, door middel van een geoptimaliseerde motion-space diffusiemodel en diverse conditionele signalen.

Tianqi Li, Ruobing Zheng, Minghui Yang, Jingdong Chen, Ming Yang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale poppetje wilt maken die precies doet wat jij zegt: hij praat, glimlacht, knipoogt en draait zijn hoofd, allemaal in real-time. Vroeger was dit als een poppenkast waar de poppen soms vastzaten in hun bewegingen of heel onnatuurlijk oogden. Nieuwere technieken maakten de poppen wel levendiger, maar ze waren zo traag dat je uren moest wachten voor ze iets gezegd hadden, en je had geen controle over hoe ze hun hoofd bewogen.

Deze paper introduceert Ditto, een nieuwe manier om die digitale poppen tot leven te wekken. Het is als het bouwen van een super-snel, slimme robot-acteur die je direct kunt aansturen.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Geheim: Een "Bewegings-Taal" in plaats van een "Beeld-Taal"

De meeste oude methoden proberen direct een nieuw filmpje te tekenen, pixel voor pixel. Dat is als proberen een heel schilderij te maken terwijl je blind bent; het duurt lang en het resultaat is vaak rommelig.

Ditto doet het slimmer. In plaats van direct naar het beeld te kijken, leert het eerst een "bewegings-taal" (de Motion Space).

  • De Analogie: Stel je voor dat je een danser wilt laten dansen op muziek. In plaats van elke spier van de danser direct te programmeren, geef je de danser een set van danspasjes (bewegingen) en laat je de danser die pasjes uitvoeren op zijn eigen lichaam.
  • Hoe het werkt: Ditto leert eerst alleen de bewegingen van de mond, ogen en hoofd te voorspellen op basis van de geluidsgolven. Pas op het allerlaatste moment, net voordat het beeld verschijnt, wordt die beweging "gekleed" in het gezicht van de specifieke persoon. Hierdoor is het veel sneller en kun je de bewegingen veel preciezer sturen.

2. De Regisseur: Controle over elke beweging

Bij oude methoden was het een beetje gokken: je gaf een geluidsbestand, en hoopte dat de pop het goed deed. Als de pop zijn hoofd te veel draaide, moest je het hele filmpje opnieuw genereren.

Ditto heeft een regisseur die de hele show aanstuurt.

  • De Analogie: Stel je voor dat je een toneelstuk speelt. Bij de oude methoden moesten de acteurs improviseren. Bij Ditto heb je een regisseur die zegt: "Oké, nu glimlach je een beetje meer, nu kijk je recht in de camera, en nu draai je je hoofd niet te hard."
  • De Controle: Je kunt bijvoorbeeld instellen dat de pop niet naar links kijkt, of dat hij verdrietig moet lijken, zelfs als de stem vrolijk klinkt. Je kunt ook de grootte van een beweging aanpassen (bijvoorbeeld: "glimlach niet te breed, anders zien je tanden er raar uit").

3. De Ogen die niet dwalen (De "Gaze" Probleem)

Een groot probleem bij eerdere methoden was dat als de pop zijn hoofd draaide, zijn ogen ook meedraaiden, alsof hij naar de grond staarde. Dat zag er heel onnatuurlijk uit.

Ditto lost dit op met een slimme truc.

  • De Analogie: Stel je voor dat je in een auto zit en naar buiten kijkt. Als je hoofd draait, draaien je ogen niet automatisch mee; je houdt je blik op een punt vast.
  • De Oplossing: Ditto leert dat de ogen losgekoppeld moeten zijn van het hoofd. Zelfs als de pop zijn hoofd draait, blijven de ogen gericht op de camera (of waar jij wilt dat ze kijken). Dit maakt het contact met de kijker veel natuurlijker.

4. Snelheid: Real-time in plaats van "Even Wachten"

De grootste kracht van Ditto is dat het snel is.

  • De Analogie: Oude methoden waren als het sturen van een brief per post; je moest dagen wachten op een antwoord. Ditto is als een video-oproep. Je zegt iets, en de pop reageert direct, zonder vertraging.
  • Hoe? Ze hebben de "rekenmachine" (het model) zo geoptimaliseerd dat hij in één keer een beweging kan bedenken, in plaats van 50 keer te proberen en te wissen. Het is alsof je van het leren van een danspasje door vallen en opstaan, bent gegaan naar het direct uitvoeren van de perfecte pas.

Samenvattend

Ditto is als het geven van een superkracht aan een digitale pop:

  1. Snel: Het werkt direct, perfect voor virtuele assistenten of live streams.
  2. Stuurbaar: Jij bepaalt of de pop verdrietig, blij of serieus is, en waar hij naartoe kijkt.
  3. Natuurlijk: De bewegingen zijn soepel en de ogen kijken echt naar de kijker, niet mee met het hoofd.

Kortom: het maakt het mogelijk om in de toekomst met een digitale assistent te praten die eruitziet en beweegt als een echt mens, zonder dat je uren hoeft te wachten op het resultaat.