Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
El artículo presenta Ditto, un marco de síntesis de cabezas parlantes basado en difusión que logra inferencia en tiempo real y un control fino mediante la generación de representaciones en un espacio de movimiento específico, optimizando la arquitectura y la estrategia de entrenamiento para superar las limitaciones de velocidad y control de los modelos anteriores.