MIBURI: Towards Expressive Interactive Gesture Synthesis

Each language version is independently generated for its own context, not a direct translation.

🎭 Das Problem: Der steife Roboter

Stell dir vor, du unterhältst dich mit einem sehr klugen Chatbot. Er kann super reden, Witze erzählen und Fragen beantworten. Aber wenn er spricht, bewegt er sich gar nicht. Er ist wie eine stille Statue, die nur Text spuckt.

Wenn echte Menschen sprechen, bewegen sie sich: Sie winken mit den Händen, neigen den Kopf, lachen oder runzeln die Stirn. Diese Gesten sind wie der „Gewürz" in der Kommunikation – ohne sie wirkt das Gespräch steif und unnatürlich.

Bisherige Versuche, diesen Robotern Bewegungen zu geben, hatten zwei große Probleme:

Der „Zukunfts-Wissende": Viele Systeme mussten wissen, was der Roboter gleich sagen wird, bevor er sich bewegen konnte. Das ist wie ein Schauspieler, der das Ende des Films schon kennt, bevor er den ersten Satz sagt. Das geht in Echtzeit nicht.
Der „Zögernde": Andere Systeme waren schnell, aber die Bewegungen waren langweilig, wiederholend und nicht ausdrucksstark.

🚀 Die Lösung: MIBURI – Der tanzende Gesprächspartner

Die Forscher haben MIBURI entwickelt. Stell dir MIBURI wie einen perfekten Tanzpartner vor, der nicht nur auf deine Worte hört, sondern sie fühlt und sofort darauf reagiert.

Hier ist, wie es funktioniert, mit ein paar einfachen Vergleichen:

1. Der direkte Draht (Kein Umweg)

Normalerweise muss ein Computer erst einen Text schreiben, diesen in Sprache umwandeln, die Sprache analysieren und dann die Bewegungen planen. Das ist wie ein Briefträger, der den Brief erst schreibt, dann in die Postbox legt, dann jemand anders ihn liest und erst dann die Antwort formuliert. Viel zu langsam!

MIBURI macht es anders: Es nutzt die „Gedanken" des Sprachmodells (Moshi) direkt. Es ist, als würde der Roboter die Worte im selben Moment denken, in dem er sie spricht, und gleichzeitig die passende Geste ausführen. Kein Umweg, keine Verzögerung.

2. Der Körper als Orchester (Körperteile-Codecs)

Ein menschlicher Körper ist komplex. Die Hände machen etwas anderes als die Füße, und das Gesicht wieder etwas anderes.
Stell dir MIBURI wie einen Dirigenten vor, der ein Orchester aus drei separaten Gruppen leitet:

Das Gesicht: Für Mimik (Lächeln, Stirnrunzeln).
Der Oberkörper: Für Handgesten und Armwinken.
Der Unterkörper: Für Haltung und Schritte.

MIBURI trainiert für jede dieser Gruppen einen eigenen kleinen Spezialisten (einen „Codec"), der die Bewegungen in kleine digitale Bausteine (Tokens) zerlegt. So kann das System feine Details wie ein leichtes Zucken des Fingers oder eine große Armbewegung unterscheiden.

3. Die zwei-Ebenen-Strategie (Zeit und Form)

Um die Bewegungen vorherzusagen, nutzt MIBURI zwei intelligente Schichten:

Die Zeit-Schicht: Sie fragt: „Was passiert als Nächstes?" (Wie ein Taktgeber).
Die Form-Schicht: Sie fragt: „Wie sieht die Bewegung genau aus?" (Wie ein Maler, der die Details hinzufügt).

Diese beiden arbeiten zusammen, aber getrennt, damit das System nicht überfordert wird und trotzdem schnell bleibt.

4. Der „Lebendigkeits-Boost"

Ein häufiges Problem bei KI ist, dass sie sich langweilt und immer die gleiche, mittlere Bewegung macht (wie ein Roboter, der nur nickt).
MIBURI hat einen speziellen Trick: Es bekommt eine Bestrafung, wenn es zu langweilig wird. Es wird gezwungen, kreativ zu sein und verschiedene Gesten auszuprobieren, genau wie ein echter Mensch, der nicht immer das Gleiche tut.

🌟 Das Ergebnis

Das Ergebnis ist ein digitaler Gesprächspartner, der:

In Echtzeit reagiert (keine Verzögerung).
Natürlich wirkt (wie ein echter Mensch).
Ausdrucksstark ist (zeigt Emotionen durch Gesten).
Keine Zukunft kennt (er muss nicht wissen, was als Nächstes kommt, um sich jetzt schon passend zu bewegen).

Kurz gesagt: MIBURI verwandelt den stummen, steifen Chatbot in einen lebendigen, tanzenden Gesprächspartner, mit dem man sich wirklich verbunden fühlt – ganz ohne zu warten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Derzeitige gesprächsbasierte KI-Agenten (z. B. auf Basis von Large Language Models, LLMs) fehlen die körperliche Präsenz („Embodiment"), die für natürliche menschliche Interaktionen entscheidend ist. Menschliche Kommunikation umfasst nicht nur Sprache, sondern auch nonverbale Elemente wie Gesten und Gesichtsausdrücke.
Bestehende Lösungen für „Embodied Conversational Agents" (ECAs) leiden unter zwei Hauptproblemen:

Starre und wenig ausdrucksstarke Bewegungen: Viele regelbasierte oder frühe datengetriebene Ansätze erzeugen repetitive, wenig vielfältige Gesten.
Fehlende Echtzeitfähigkeit und Kausalität: Moderne generative Methoden (z. B. Diffusionsmodelle oder Transformer mit Maskierung) erzeugen zwar natürliche Gesten, benötigen jedoch den Kontext zukünftiger Sprachdaten (nicht-kausal) und haben lange Laufzeiten. Dies verhindert eine parallele Generierung von Gesten zur live gesprochenen Sprache, was für flüssige, interaktive Dialoge essenziell ist.

Das Ziel ist es, ein System zu schaffen, das online, kausal (nur basierend auf vergangenen Eingaben) und in Echtzeit ausdrucksstarke Ganzkörpergesten und Gesichtsausdrücke synchron zur gesprochenen Sprache generiert.

2. Methodik: MIBURI Framework

MIBURI ist ein kausales, generatives Framework, das auf dem Sprach-Text-Grundmodell Moshi aufbaut. Es nutzt die internen Token-Ströme von Moshi, um Gesten direkt zu synthetisieren, ohne den Umweg über eine separate Text-zu-Sprache- und dann Spracherkennung-Pipeline.

A. Architektur und Tokenisierung

Body-Part Aware Gesture Codecs: Der Körper wird in drei Bereiche unterteilt: Oberkörper (inkl. Hände), Unterkörper (inkl. globaler Translation und Fußkontakt) und Gesicht (FLAME-Parameter). Jeder Bereich wird durch einen separaten Residual VQ-VAE (Vector Quantized Variational Autoencoder) kodiert.
- Dies ermöglicht eine hierarchische Tokenisierung, bei der grobe Bewegungen und feine kinematische Details (z. B. Fingerbewegungen) in verschiedenen Residual-Leveln ( $K$ ) erfasst werden.
- Die Token repräsentieren ein kurzes Zeitfenster (2 Frames), um die Latenz gering zu halten.
Zweidimensionale Kausale Generierung: Anstatt alle Token in einem einzigen Stream zu modellieren, verwendet MIBURI zwei Transformer, die temporal und kinematisch entkoppelt sind:
1. Temporal Transformer: Vorhersage des ersten Token-Levels ( $g_{(t,1)}$ ) basierend auf der zeitlichen Dynamik und den bisherigen Sprach-/Text-Embeddings.
2. Kinematic Transformer: Vorhersage der nachfolgenden kinematischen Level ( $g_{(t,k)}$ ) für denselben Zeitpunkt $t$ , basierend auf dem vorherigen Level und dem zeitlichen Kontext.
- Dieser Ansatz vermeidet die Notwendigkeit, riesige Kontextfenster für alle kinematischen Ebenen gleichzeitig zu verarbeiten, was die Effizienz steigert.

B. Trainingsziele und Verlustfunktionen

Um zu verhindern, dass das autoregressive Modell in statische Posen konvergiert (Mean-Pose-Problem) und um die Vielfalt zu erhöhen, werden zusätzliche Ziele eingeführt:

Contrastive InfoNCE Loss: Fördert die Ähnlichkeit zwischen vorhergesagten und Ground-Truth-Latents, während falsche Paare im Batch getrennt werden. Dies erhöht die Expressivität.
Voice Activation Loss: Ein binärer Klassifikationskopf unterscheidet zwischen „Zuhören" und „Sprechen". Dies verhindert „Phantom-Gesten" während der Zuhörphase und sorgt für sprachsynchronisierte Gesten während des Sprechens.
Gesamtverlust: $L = L_{CE} + \alpha L_{con} + \beta L_{va}$ .

C. Echtzeit-Implementierung

Das System nutzt KV-Caches für effiziente Attention-Berechnungen.
Es wird Top-P Sampling (Nucleus Sampling) und Classifier-Free Guidance (CFG) verwendet, um die Vielfalt und die Ausrichtung auf die Semantik von Moshi zu verbessern.
Die Latenz beträgt ca. 36 ms pro Frame auf einer RTX 3090, was eine flüssige Interaktion ermöglicht.

3. Hauptbeiträge

Neues Paradigma: Der erste Online-Framework für kausale, echtzeitfähige Gestengenerierung, der die internen Token-Ströme eines Sprach-LLMs (Moshi) direkt nutzt.
Architektur: Ein sorgfältig entworfenes, zweidimensionales Transformer-Design (Temporal + Kinematic) und eine körperteilbewusste Tokenisierung, die Kausalität ohne Einbußen bei der Expressivität ermöglicht.
Umfassende Analyse: Eine detaillierte Untersuchung von Designentscheidungen (z. B. Codebook-Größe, Verlustfunktionen) und ein Nachweis, dass MIBURI den State-of-the-Art bei ECAs vorantreibt.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf dem BEAT2-Datensatz (Single- und Multi-Speaker-Szenarien) sowie dem Embody3D-Datensatz.

Perzeptuelle Bewertung: In User-Studies wurde MIBURI gegenüber State-of-the-Art-Baselines (wie EMAGE, GestureLSM, RAG-Gesture) bevorzugt. Die Teilnehmer bewerteten die Bewegungen als natürlicher und besser an die Sprache angepasst, insbesondere im Vergleich zu nicht-kausalen Methoden, die oft starre Muster aufweisen.
Quantitative Metriken:
- FGD (Fréchet Gesture Distance): MIBURI erreicht wettbewerbsfähige bis führende Werte, besonders im Multi-Speaker-Szenario, was die Skalierbarkeit ohne Seed-Sequenzen zeigt.
- BeatAlign: Hohe Übereinstimmung zwischen Gesten und Sprachrhythmus (Prosodie).
- Diversität (L1-Div): Das Modell erzeugt eine hohe Vielfalt an Gesten.
Latenz: Im Vergleich zu Diffusionsmodellen oder nicht-kausalen Transformern ist MIBURI deutlich schneller (Echtzeit), da es keine zukünftigen Kontextdaten benötigt und nur 2 Frames pro Schritt generiert.
Ablationsstudien:
- Die Nutzung der internen Moshi-Token ist überlegen gegenüber herkömmlichen Wav2Vec-Encodings (bessere Metriken, geringere Rechenzeit).
- Die zweidimensionale Transformer-Architektur ist entscheidend; ein einzelner Transformer führt zu schlechterer Konvergenz und höherer Latenz.
- Der Contrastive Loss verbessert die Gestenqualität signifikant im Vergleich zur reinen Kreuzentropie.

5. Bedeutung und Ausblick

MIBURI schließt eine kritische Lücke zwischen der Sprachgenerierung durch LLMs und der körperlichen Interaktion. Es demonstriert, dass es möglich ist, ausdrucksstarke, menschliche Gesten in Echtzeit und kausal zu generieren, ohne auf zukünftige Sprachdaten zurückzugreifen. Dies ist ein fundamentaler Schritt hin zu wirklich interaktiven, embodied conversational agents, die natürliche, face-to-face-ähnliche Dialoge führen können.

Einschränkungen: Das aktuelle System modelliert nur die Bewegung des Agenten und berücksichtigt nicht die Körperdynamik des Gesprächspartners (dyadischer Kontext). Zukünftige Arbeiten sollen dies erweitern, um auf Gesten des Partners reagieren zu können.