Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen digitalen Avatar erschaffen, der nicht nur spricht, sondern auch lebendig wirkt: Er lacht, runzelt die Stirn, schaut dich direkt an und bewegt den Kopf im Takt der Musik. Bisher war das wie das Zaubern mit einer schweren, langsamen Zauberstab-Technologie – es funktionierte gut, aber es dauerte ewig und man konnte den Zauber nicht genau steuern.

Das Papier stellt Ditto vor, eine neue Technologie, die dieses Problem löst. Hier ist die Erklärung, wie ein einfaches, aber geniales Rezept:

1. Das Problem: Der langsame und sture Zauberer

Bisherige Methoden (die auf "Diffusionsmodellen" basieren) sind wie ein Künstler, der jedes Bild von Grund auf neu malt. Das Ergebnis ist wunderschön und realistisch, aber es dauert lange. Außerdem ist der Künstler stur: Wenn du sagst "Lächle mehr", muss er das ganze Bild neu malen, statt nur den Mund zu bewegen. Für eine echte Unterhaltung (wie einen KI-Assistenten, der sofort antwortet) ist das viel zu langsam.

2. Die Lösung: Die "Bewegungs-Bausteine" (Motion Space)

Ditto macht etwas Cleveres: Statt das ganze Bild zu malen, baut es erst nur die Bewegung nach.

Die Analogie: Stell dir vor, du willst einen Puppenkünstler (den Avatar) animieren. Früher hat man versucht, die Haut der Puppe zu modellieren. Ditto hingegen baut erst ein Gerüst aus unsichtbaren Drähten (die "Bewegungs-Bausteine"), das genau beschreibt, wie sich der Mund öffnet oder der Kopf dreht.
Der Trick: Diese Drähte sind "identitätslos". Das bedeutet, sie funktionieren für jeden Menschen gleich. Erst ganz am Ende, wenn die Bewegung feststeht, wird die Haut (das Gesicht) des spezifischen Menschen darübergelegt. Das macht den Prozess extrem schnell und präzise.

3. Der Dirigent: Kontrolle in Echtzeit

Ein großes Problem bei alten Methoden war, dass man nicht genau sagen konnte, was der Avatar tun soll.
Ditto hat einen Dirigenten, der viele Instrumente bedient:

Die Musik (Audio): Der Avatar spricht im Takt.
Die Emotion (Gefühl): Du kannst dem Dirigenten sagen: "Sei heute traurig" oder "Sei fröhlich". Der Avatar passt seine Mimik sofort an, ohne dass man das ganze Video neu generieren muss.
Der Blick (Gaze): Das ist ein besonderer Clou. Früher schaute der Avatar immer dorthin, wo sein Kopf war. Wenn er den Kopf drehte, sah es aus, als würde er wegsehen. Ditto hat eine spezielle Korrektur eingebaut: Der Avatar kann den Kopf drehen, aber die Augen bleiben fest auf dich (die Kamera) gerichtet. Das wirkt viel natürlicher und einladender.

4. Der Sprinter: Echtzeit-Performance

Das ist vielleicht das Beeindruckendste: Ditto ist so schnell, dass es in Echtzeit läuft.

Die Analogie: Stell dir vor, du sprichst mit einem Freund am Telefon. Früher musste der Freund warten, bis er den ganzen Satz gehört hat, dann hat er lange überlegt (generiert) und erst dann geantwortet. Ditto ist wie ein Gesprächspartner, der während du noch sprichst, schon mit dem Lächeln oder Nicken reagiert. Es gibt keine spürbare Verzögerung.

5. Warum ist das wichtig?

Dadurch, dass Ditto so schnell und kontrollierbar ist, kann man es für Dinge nutzen, die wir alle lieben:

KI-Assistenten: Die nicht nur reden, sondern auch wirklich "da" wirken.
Live-Streaming: Ein digitaler Nachrichtensprecher, der sofort auf aktuelle Nachrichten reagiert.
Spiele: Charaktere, die wirklich mit dir interagieren können.

Zusammengefasst:
Ditto ist wie ein hochmodernes Theaterstück. Statt dass jeder Schauspieler sein eigenes Skript auswendig lernen und langsam proben muss, gibt es ein perfektes Puppenspiel-System. Die Bewegungen werden in Echtzeit berechnet, der Regisseur (du) kann jederzeit eingreifen ("Lächle!", "Schau mich an!"), und das Ergebnis sieht so echt aus, dass man vergisst, dass es nur ein Computerprogramm ist. Und das Beste: Es passiert alles sofort, ohne Wartezeit.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz der Fortschritte bei Diffusionsmodellen für die Synthese sprechender Köpfe (Talking Heads) bestehen zwei kritische Hindernisse für den breiten Einsatz, insbesondere in interaktiven Szenarien wie KI-Assistenten:

Mangelnde Kontrolle: Bestehende Methoden bieten oft keine feingranulare Steuerung von Gesichtsbewegungen, Emotionen oder Kopfdrehungen. Nutzer können Ergebnisse nur durch erneute Generierung anpassen, was ineffizient ist.
Langsame Inferenzgeschwindigkeit: Die meisten aktuellen Ansätze erreichen keine Echtzeit-Inferenz auf einer einzelnen GPU. Dies ist jedoch eine Grundvoraussetzung für interaktive Anwendungen.
Ineffiziente Repräsentation: Viele Methoden nutzen latente Räume von VAEs, die redundant sind und Bewegung mit Textur/Identität vermischen, was die Lernkomplexität erhöht und die Geschwindigkeit verringert.

2. Methodik: Das Ditto-Framework

Ditto ist ein Diffusions-basiertes Framework, das eine Motion-Space-Diffusion (Bewegungsraum-Diffusion) nutzt, um feingranulare Kontrolle und Echtzeit-Leistung zu ermöglichen.

A. Motion Space (Bewegungsraum)

Anstatt Bilder direkt im Pixelraum oder in einem allgemeinen VAE-Latenzraum zu generieren, nutzt Ditto einen expliziten Bewegungsraum, der auf LivePortrait basiert.

Extraktion: Ein Motion Extractor wandelt Eingabebilder in kanonische Schlüsselpunkte ( $c$ ), Expressions-Deformationen ( $\delta$ ), Kopfhaltungen ( $R$ ) und Translationen ( $t$ ) um.
Entkopplung: Die Bewegung ( $m = \{\delta, R, t\}$ ) wird als identitätsunabhängig behandelt. Die Identität wird erst im Rendering-Schritt durch eine Referenz-Porträt-Foto hinzugefügt. Dies löst das Problem der unzureichenden Entkopplung von Bewegung und Identität.
Rendering: Ein One-Shot Face Renderer (Appearance Feature Extractor + Renderer) synthetisiert das Video, indem er die generierten Bewegungen auf die Referenz-Identität überträgt.

B. Conditional Diffusion Transformer (DiT)

Für die Audio-zu-Bewegung-Generierung wird ein bedingter Diffusion Transformer eingesetzt.

Bedingungssignale (ECS & ICS): Neben Audio-Features (HuBERT) werden diverse Signale integriert:
- Kanonical Key Points ( $c_{ref}$ ): Als Identitäts-Feature zur Führung der Bewegung.
- Emotionen ( $s$ ): Klare Emotionslabels auf Clip-Ebene.
- Augenzustand ( $e$ ): Für Blinken und Blickrichtung (unabhängig von Audio).
- Referenz-Bewegung ( $m_{ref}$ ): Als Initial-Signal für Kontinuität.
Trainingsstrategie:
- Horizontal Flip: Ausgleich von Kopforientierungen in den Trainingsdaten.
- Adaptive Loss Weights: Dynamische Anpassung der Gewichtung für verschiedene Bewegungsgruppen (z. B. Lippen vs. Kopfdrehung), da diese unterschiedlich stark von Audio abhängen.
- Zusätzliche Loss-Terme: Regression von Geschwindigkeit und Beschleunigung für zeitliche Stabilität sowie ein Initial-Motion-Loss.

C. Feingranulare Kontrolle & Korrektur

Semantische Abbildung: Es wird eine direkte Abbildung zwischen den Deformationsvektoren und Gesichtssymbolen (Blendshapes) hergestellt. Dies ermöglicht die Steuerung spezifischer Bereiche (z. B. nur Mund oder Augen) und die Begrenzung von Deformationswerten zur Vermeidung von Artefakten.
Blickkorrektur (Gaze Adjustment): Um zu verhindern, dass der Blick des Avatars starr mit dem Kopf mitdreht, wird eine Regression zwischen Kopfhaltung und Blickrichtung gelernt. Dies ermöglicht es, dass der Avatar die Kamera fixiert, auch wenn der Kopf sich bewegt.

D. Echtzeit-Streaming-Inferenz

Das gesamte Framework ist für Streaming optimiert:

Audio: HuBERT mit KV-Cache und kausalen Masken für Echtzeit-Verarbeitung kurzer Audio-Segmente.
Motion Generation: Reduktion der Denoising-Schritte von 50 auf 10 ohne signifikanten Qualitätsverlust. Nutzung von Segment-Fusion statt progressiver Latent-Fusion.
Rendering: TensorRT-optimierter Renderer für GPU-Inferenz.
Pipelining: Asynchrone Verarbeitung von Audio, Bewegung und Rendering ermöglicht eine niedrige First-Frame-Delay (FFD).

3. Wichtige Beiträge

Motion-Space-Diffusion: Einführung eines spezifischen Bewegungsraums, der Identität und Bewegung trennt und die Generierung effizienter macht als VAE-basierte Ansätze.
Feingranulare Kontrolle: Ein Mechanismus zur direkten Steuerung von Emotionen, Blickrichtung und lokalen Gesichtsbereichen durch semantische Abbildung der latenten Bewegung.
Echtzeit-Leistung: Erreichung von Echtzeit-Inferenz (RTF < 1) mit niedriger Latenz (FFD < 400 ms) auf einer einzelnen GPU, was für interaktive Anwendungen entscheidend ist.
Open Source: Bereitstellung des Quellcodes zur Förderung der Community.

4. Ergebnisse

Die Evaluation erfolgte auf den Datensätzen Talk9 und HDTF100 sowie durch Benutzerstudien.

Quantitative Metriken: Ditto übertrifft State-of-the-Art-Methoden (wie EchoMimic, Hallo, Hallo2) in allen Metriken:
- FID/FVD: Deutlich bessere Bild- und Videofqualität (niedrigere Werte).
- Sync-C/D: Höhere Audio-Visuelle Synchronisation (nahe an Ground Truth).
- CSIM: Bessere Identitätskonsistenz durch die Entkopplung von Bewegung und Identität.
- Geschwindigkeit: Mit nur 10 Denoising-Schritten erreicht Ditto eine RTF von 0,635 (Offline) bzw. 0,895 (Online Streaming), was schneller als viele nicht-diffusionsbasierte Methoden ist.
Qualitative Ergebnisse:
- Stabilere Ergebnisse bei verschiedenen Porträt-Stilen (keine Artefakte wie verzerrte Zähne oder verschwommene Texturen im Zeitverlauf).
- Natürlichere Blickkontakt-Steuerung durch die Gaze-Korrektur.
- Nahtlose Integration in Ganzkörper-Animationen.
Benutzerstudie: In einer blinden Studie mit 10 Teilnehmern wurde Ditto in den Kategorien „Visuelle Qualität" (84,0 %) und „Lipsync" (80,7 %) deutlich bevorzugt. Die Bewertung für „Natürlichkeit" war etwas niedriger, was auf den Verlust hochfrequenter Bewegungsdaten im Motion Space zurückgeführt wird.

5. Bedeutung und Ausblick

Ditto adressiert die Hauptlimitationen aktueller Diffusionsmodelle für sprechende Köpfe: Geschwindigkeit und Kontrollierbarkeit. Durch die Verschiebung der Diffusion in einen expliziten Bewegungsraum und die Optimierung des gesamten Pipelines für Streaming-Anwendungen macht Ditto hochqualitative, interaktive KI-Avatare für Echtzeitanwendungen (z. B. virtuelle Assistenten, Live-Streaming) praktikabel. Die Offenlegung des Codes und die feingranulare Steuerungsebene bieten einen wichtigen Baustein für die weitere Entwicklung von digitalen Avataren.