UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben zwei sehr talentierte, aber völlig getrennte Handwerker in einer Werkstatt:

Der Sprecher (TTS): Ein Meister, der Texte in eine lebendige, emotionale Stimme verwandelt. Er weiß genau, wie man eine Geschichte erzählt, wo man Pausen macht und wie man vor Freude lacht oder traurig klingt.
Der Schauspieler (A2F): Ein Meister, der nur auf die Stimme hört und dazu das perfekte Gesicht macht. Wenn er hört, dass die Stimme zittert, bewegt er die Augenbrauen; wenn sie lacht, lächelt er.

Das Problem bisher:
In der Vergangenheit arbeiteten diese beiden Handwerker oft nebeneinander, aber nicht miteinander. Der Sprecher erzählte eine Geschichte, und der Schauspieler versuchte, das Gesicht dazu zu erfinden. Das Ergebnis war manchmal etwas „schief": Die Stimme klang vielleicht sehr traurig, aber das Gesicht sah verwirrt aus, weil die beiden nicht denselben „Gedanken" teilten. Es war, als würde der Sprecher auf Deutsch reden und der Schauspieler auf Französisch zuhören – sie verstanden die Nuancen nicht ganz gleich.

Die Lösung von UniTAF:
Das Papier stellt eine neue, modulare Werkstatt vor, die wir UniTAF nennen. Statt zwei getrennte Handwerker zu haben, bauen wir eine Super-Werkstatt, in der beide Handwerker denselben Arbeitsplan und dieselben Werkzeuge nutzen.

Der gemeinsame „Gedankenfluss": Die Idee ist, dass der Sprecher seine Gedanken (die Merkmale der Stimme) direkt an den Schauspieler weitergibt, bevor er das fertige Ergebnis liefert. Es ist, als würde der Sprecher dem Schauspieler nicht nur das fertige Audio geben, sondern ihm flüstern: „Pass auf, hier kommt jetzt eine Wut-Emotion, mach das Gesicht dazu!"
Emotionen teilen: Früher musste der Schauspieler raten, welche Emotion gemeint war. Jetzt übernimmt er die Emotionen direkt vom Sprecher. Wenn der Sprecher sagt: „Ich bin so glücklich!", weiß das Gesicht sofort, wie es aussehen muss, weil es denselben „Emotions-Chip" nutzt.

Was ist das Ziel?
Die Autoren sagen ganz offen: „Wir wollen hier nicht den absolut perfekten Hollywood-Film produzieren." Das Ziel ist eher wie ein Ingenieur-Prototyp. Sie wollen beweisen, dass diese Idee funktioniert: Dass man die Zwischenschritte eines Sprachmodells nutzen kann, um Gesichter besser zu steuern.

Es ist wie ein Bauplan für Architekten: Sie zeigen nicht das fertige Haus, sondern beweisen, dass die neuen Fundamente stabil sind und dass man die Leitungen für Wasser und Strom (die Daten) effizienter verlegen kann. Das soll anderen Ingenieuren helfen, in Zukunft noch bessere Systeme zu bauen, bei denen Stimme und Gesicht perfekt harmonieren.

Zusammengefasst:
UniTAF ist wie ein neuer Kommunikationskanal zwischen einem Sprecher und einem Schauspieler. Statt dass sie sich gegenseitig zuhören müssen, teilen sie denselben inneren Monolog. Das macht die Verbindung zwischen dem, was wir hören, und dem, was wir sehen, viel natürlicher und konsistenter.

Der Code für dieses Experiment ist bereits öffentlich verfügbar, damit jeder die Baupläne einsehen und weiterentwickeln kann.

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Technische Zusammenfassung: UniTAF

Mehr davon

X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

A Learnable SIM Paradigm: Fundamentals, Training Techniques, and Applications

FED-HARGPT: A Hybrid Centralized-Federated Approach of a Transformer-based Architecture for Human Context Recognition

MuViS: Multimodal Virtual Sensing Benchmark

Coronary artery calcification assessment in National Lung Screening Trial CT images (DeepCAC2)