Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale poppetje wilt maken die precies doet wat jij zegt: hij praat, glimlacht, knipoogt en draait zijn hoofd, allemaal in real-time. Vroeger was dit als een poppenkast waar de poppen soms vastzaten in hun bewegingen of heel onnatuurlijk oogden. Nieuwere technieken maakten de poppen wel levendiger, maar ze waren zo traag dat je uren moest wachten voor ze iets gezegd hadden, en je had geen controle over hoe ze hun hoofd bewogen.

Deze paper introduceert Ditto, een nieuwe manier om die digitale poppen tot leven te wekken. Het is als het bouwen van een super-snel, slimme robot-acteur die je direct kunt aansturen.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Geheim: Een "Bewegings-Taal" in plaats van een "Beeld-Taal"

De meeste oude methoden proberen direct een nieuw filmpje te tekenen, pixel voor pixel. Dat is als proberen een heel schilderij te maken terwijl je blind bent; het duurt lang en het resultaat is vaak rommelig.

Ditto doet het slimmer. In plaats van direct naar het beeld te kijken, leert het eerst een "bewegings-taal" (de Motion Space).

De Analogie: Stel je voor dat je een danser wilt laten dansen op muziek. In plaats van elke spier van de danser direct te programmeren, geef je de danser een set van danspasjes (bewegingen) en laat je de danser die pasjes uitvoeren op zijn eigen lichaam.
Hoe het werkt: Ditto leert eerst alleen de bewegingen van de mond, ogen en hoofd te voorspellen op basis van de geluidsgolven. Pas op het allerlaatste moment, net voordat het beeld verschijnt, wordt die beweging "gekleed" in het gezicht van de specifieke persoon. Hierdoor is het veel sneller en kun je de bewegingen veel preciezer sturen.

2. De Regisseur: Controle over elke beweging

Bij oude methoden was het een beetje gokken: je gaf een geluidsbestand, en hoopte dat de pop het goed deed. Als de pop zijn hoofd te veel draaide, moest je het hele filmpje opnieuw genereren.

Ditto heeft een regisseur die de hele show aanstuurt.

De Analogie: Stel je voor dat je een toneelstuk speelt. Bij de oude methoden moesten de acteurs improviseren. Bij Ditto heb je een regisseur die zegt: "Oké, nu glimlach je een beetje meer, nu kijk je recht in de camera, en nu draai je je hoofd niet te hard."
De Controle: Je kunt bijvoorbeeld instellen dat de pop niet naar links kijkt, of dat hij verdrietig moet lijken, zelfs als de stem vrolijk klinkt. Je kunt ook de grootte van een beweging aanpassen (bijvoorbeeld: "glimlach niet te breed, anders zien je tanden er raar uit").

3. De Ogen die niet dwalen (De "Gaze" Probleem)

Een groot probleem bij eerdere methoden was dat als de pop zijn hoofd draaide, zijn ogen ook meedraaiden, alsof hij naar de grond staarde. Dat zag er heel onnatuurlijk uit.

Ditto lost dit op met een slimme truc.

De Analogie: Stel je voor dat je in een auto zit en naar buiten kijkt. Als je hoofd draait, draaien je ogen niet automatisch mee; je houdt je blik op een punt vast.
De Oplossing: Ditto leert dat de ogen losgekoppeld moeten zijn van het hoofd. Zelfs als de pop zijn hoofd draait, blijven de ogen gericht op de camera (of waar jij wilt dat ze kijken). Dit maakt het contact met de kijker veel natuurlijker.

4. Snelheid: Real-time in plaats van "Even Wachten"

De grootste kracht van Ditto is dat het snel is.

De Analogie: Oude methoden waren als het sturen van een brief per post; je moest dagen wachten op een antwoord. Ditto is als een video-oproep. Je zegt iets, en de pop reageert direct, zonder vertraging.
Hoe? Ze hebben de "rekenmachine" (het model) zo geoptimaliseerd dat hij in één keer een beweging kan bedenken, in plaats van 50 keer te proberen en te wissen. Het is alsof je van het leren van een danspasje door vallen en opstaan, bent gegaan naar het direct uitvoeren van de perfecte pas.

Samenvattend

Ditto is als het geven van een superkracht aan een digitale pop:

Snel: Het werkt direct, perfect voor virtuele assistenten of live streams.
Stuurbaar: Jij bepaalt of de pop verdrietig, blij of serieus is, en waar hij naartoe kijkt.
Natuurlijk: De bewegingen zijn soepel en de ogen kijken echt naar de kijker, niet mee met het hoofd.

Kortom: het maakt het mogelijk om in de toekomst met een digitale assistent te praten die eruitziet en beweegt als een echt mens, zonder dat je uren hoeft te wachten op het resultaat.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Recente vooruitgang in diffusiemodellen heeft de synthese van pratende hoofden (talking heads) aanzienlijk verbeterd wat betreft subtiele expressies en levendige hoofdbewegingen. Echter, twee kritieke beperkingen belemmeren de brede toepassing van deze methoden, vooral voor interactieve scenario's zoals AI-assistenten:

Gebrek aan controle: Bestaande methoden bieden geen fijne-granulariteitscontrole over gezichtsbewegingen, basisemoties of hoofdrotaties. Gebruikers kunnen resultaten alleen beïnvloeden door het generatieproces volledig te herhalen, wat inefficiënt is.
Trage inferentiesnelheid: De meeste huidige methoden halen geen real-time prestaties op één GPU. Dit is een cruciale vereiste voor live-toepassingen. Bestaande real-time methoden (zoals VASA-1) gebruiken vaak impliciete bewegingsrepresentaties die geen directe controle toelaten, of ze zijn niet open-source.

Methodologie

Ditto is een diffusie-gebaseerd framework dat specifiek is ontworpen om real-time inferentie en fijne controle te combineren. De kern van de methode ligt in het genereren van beweging in een gespecialiseerde "bewegingsruimte" (motion space) in plaats van direct in de pixelruimte of een algemene VAE-ruimte.

1. Bewegingsruimte (Motion Space):

In plaats van te werken met een redundante, impliciete latent space, gebruikt Ditto een bewegingsruimte gebaseerd op LivePortrait.
Een bestaande bewegingsextractor (Motion Extractor) verwerkt een frame en extrahert canonieke sleutelpunten (canonical keypoints), expressie-deformaties en hoofdposities.
Deze representatie ( $m = \{\delta, R, t\}$ ) is identiteitsongebonden. Het diffusiemodel leert dus universele bewegingen te genereren, terwijl de identiteit pas tijdens het renderen wordt toegevoegd. Dit lost het probleem van onvoldoende ontkoppeling tussen beweging en identiteit op.

2. Conditional Diffusion Transformer (DiT):

Het model gebruikt een Conditional Diffusion Transformer om audio naar beweging te vertalen.
Conditionele Signalen: Om de kwaliteit en controle te verhogen, worden diverse signalen gebruikt:
- Audio-features: Via HuBERT.
- Canonieke sleutelpunten ( $c_{ref}$ ): Om de beweging aan te passen aan de specifieke gezichtsgeometrie van de doelidentiteit.
- Emotielabels: Voor directe controle over de emotionele toon.
- Oogtoestand: Voor controle over knipperen en blik.
- Referentie-beweging ( $m_{ref}$ ): Voor continuïteit tussen clips en het voorkomen van foutopbouw in lange sequenties.
Trainingsstrategie:
- Horizontale flip: Om onbalans in hoofdoriëntatie in de trainingsdata te corrigeren.
- Adaptieve verliesgewichten: Dynamische aanpassing van de gewichten voor verschillende bewegingscomponenten (bijv. lippen vs. hoofdrotatie) tijdens het trainen.
- Verliesfunctie: Naast de standaard denoising loss, worden ook snelheid en versnelling van bewegingen geregresseerd om temporale stabiliteit te garanderen.

3. Bewegingscontrole en Correctie:

Fijne-granulariteitscontrole: Er wordt een directe mapping gelegd tussen de deformatie-vector en semantische gezichtsgebieden (vergelijkbaar met blendshapes). Dit stelt gebruikers in staat om specifieke gebieden (bijv. alleen de mond of ogen) te manipuleren of de grootte van de vervorming te beperken om artefacten te voorkomen.
Blikcorrectie (Gaze Correction): Een veelvoorkomend probleem is dat de blik van de avatar meebeweegt met het hoofd. Ditto lost dit op door een regressiemodel te trainen dat de relatie tussen hoofdrotatie en blikrichting leert, gebaseerd op een template-video. Hierdoor kan de blik onafhankelijk van het hoofd worden gestuurd om contact met de camera te behouden.

4. Real-time Streaming Inferentie:

Het systeem is geoptimaliseerd voor streaming:
- Audio: Gebruik van KV-cache en causale masking in HuBERT voor real-time verwerking van korte audiofragmenten.
- Motion Generation: Reductie van denoising-stappen van 50 naar 10 zonder kwaliteitsverlies, en gebruik van segment-gewijze fusie in plaats van progressieve latent fusion.
- Rendering: Een TensorRT-geoptimaliseerde renderer voor snelle GPU-inferentie.

Belangrijkste Bijdragen

Motion-Space Diffusion: Introductie van een framework dat diffusie toepast op een expliciete, identiteitsongebonden bewegingsrepresentatie, wat leidt tot betere ontkoppeling en snellere inferentie.
Fijne Controle: Een uniek systeem voor het manipuleren van specifieke gezichtsgebieden en emoties, evenals het corrigeren van visuele defecten zoals de blikrichting.
Real-time Prestaties: Het bereiken van real-time inferentie (RTF < 1) met een lage eerste-frame vertraging (FFD < 400ms), wat essentieel is voor interactieve toepassingen.
Open Source: De publicatie van de broncode om de gemeenschap verder te helpen.

Resultaten

Experimentele resultaten op de Talk9 en HDTF100 datasets tonen aan dat Ditto superieur is aan bestaande SOTA-methoden (zoals EchoMimic, Hallo, Hallo2):

Kwaliteit: Het behaalt de beste scores op FID (framekwaliteit), FVD (videokwaliteit) en lip-sync (Sync-C en Sync-D).
Identiteit: Het behoudt de identiteit beter dan andere methoden (hoge CSIM-score) dankzij de ontkoppeling van beweging en identiteit.
Snelheid: De inferentie is 30-50 keer sneller dan traditionele diffusiemethoden en zelfs sneller dan niet-diffusie methoden zoals MuseTalk. De RTF is 0,635 voor offline en 0,895 voor online streaming.
User Study: In een blind onderzoek gaven gebruikers Ditto de voorkeur in visuele kwaliteit (84%) en lip-sync (80,7%) ten opzichte van concurrenten.

Significantie

Ditto markeert een doorbraak in het veld van pratende hoofden door de traditionele afweging tussen kwaliteit/controle en snelheid op te heffen. Door te werken in een gespecialiseerde bewegingsruimte en het framework te optimaliseren voor streaming, maakt het real-time, interactieve AI-assistenten met hoogwaardige, controleerbare gezichtsuitdrukkingen mogelijk. De mogelijkheid om de blikrichting onafhankelijk te sturen en specifieke gezichtsgebieden te manipuleren, opent nieuwe deuren voor toepassingen in virtuele presentatoren, gaming en telepresence.

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

1. Het Geheim: Een "Bewegings-Taal" in plaats van een "Beeld-Taal"

2. De Regisseur: Controle over elke beweging

3. De Ogen die niet dwalen (De "Gaze" Probleem)

4. Snelheid: Real-time in plaats van "Even Wachten"

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Safety-Aware Performance Boosting for Constrained Nonlinear Systems

Experimental Analysis of Microbubble Propagation for In-Body Data Transmission

TuLaBM: Tumor-Biased Latent Bridge Matching for Contrast-Enhanced MRI Synthesis

Bridging Conformal Prediction and Scenario Optimization: Discarded Constraints and Modular Risk Allocation

String stable platoons of all-electric aircraft with operating costs and airspace complexity trade-off