Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
O artigo apresenta o Ditto, um framework de síntese de cabeças falantes baseado em difusão que, ao gerar representações em um espaço de movimento específico e otimizar sua arquitetura para processamento em streaming, permite a criação de vídeos realistas com controle fino e inferência em tempo real.