UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling
L'article UniTAF propose un cadre modulaire unifiant la synthèse vocale et la génération faciale à partir de l'audio pour faciliter le transfert de caractéristiques internes et améliorer la cohérence entre la parole et les expressions faciales, en validant ainsi la faisabilité de cette approche d'unification plutôt qu'en se concentrant sur la qualité de génération.