MIBURI: Towards Expressive Interactive Gesture Synthesis

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous parlez à un assistant virtuel. Aujourd'hui, il vous répond avec une voix, mais son corps reste figé, comme une statue de cire. C'est étrange, n'est-ce pas ? Quand nous parlons entre humains, nous ne nous contentons pas de mots : nous gesticulons, nous hochons la tête, nous sourions ou fronçons les sourcils. Ces mouvements disent souvent autant que les mots eux-mêmes.

Le papier de recherche que vous avez soumis, MIBURI, propose une solution révolutionnaire pour donner vie à ces assistants numériques. Voici une explication simple, imagée, de comment cela fonctionne.

1. Le Problème : Le "Robot" qui attend trop

Actuellement, il existe deux types d'assistants :

Les robots rigides : Ils bougent, mais de manière répétitive et ennuyeuse, comme un mécano qui répète toujours le même geste.
Les artistes géniaux (mais lents) : D'autres systèmes créent des mouvements très naturels, mais ils ont un gros défaut : ils doivent lire tout le texte à l'avance avant de commencer à bouger. C'est comme un acteur qui doit lire tout le script d'une pièce avant de pouvoir dire sa première réplique. Dans une vraie conversation en direct, c'est impossible ! Vous ne pouvez pas attendre que l'autre personne ait fini de parler pour commencer à réagir.

2. La Solution MIBURI : Le "Duo de Jazz" en Temps Réel

MIBURI (le nom du projet) est conçu pour être un joueur de jazz. Il n'attend pas la fin de la chanson pour improviser. Il écoute, réagit et bouge en même temps que vous parlez.

Voici comment il fait, avec trois astuces principales :

A. L'oreille interne (Le secret de la rapidité)

La plupart des systèmes actuels fonctionnent comme un traducteur en trois étapes :

Ils écoutent votre voix.
Ils la transcrivent en texte.
Ils lisent le texte pour décider du mouvement.
C'est long et cela crée du retard (comme un écho).

MIBURI, lui, a une "oreille interne". Il se connecte directement au cerveau du système de parole (un modèle appelé Moshi). Au lieu d'attendre le texte écrit, il capte les pensées brutes (les tokens) du système de parole pendant qu'il les génère. C'est comme si le danseur entendait la musique directement dans la tête du musicien, sans passer par les haut-parleurs. Résultat : zéro délai.

B. Le découpage du corps (La boîte à outils)

Le corps humain est complexe. Vos mains bougent vite, vos jambes bougent lentement, et votre visage change d'expression en une fraction de seconde.
MIBURI ne traite pas le corps comme un bloc unique. Il le découpe en trois équipes spécialisées :

Le visage (pour les sourires et les grimaces).
Le haut du corps (pour les gestes des mains et des épaules).
Le bas du corps (pour la posture et les pieds).

Chaque équipe a son propre "chef d'orchestre" (un petit codeur) qui transforme le mouvement en une série de petits symboles (des jetons). Cela permet de gérer la complexité sans se perdre.

C. Les deux cerveaux (Le tempo et le style)

Pour générer ces mouvements, MIBURI utilise deux intelligences artificielles qui travaillent en tandem, comme un chef d'orchestre et un soliste :

Le Chef d'Orchestre (Transformateur Temporel) : Il regarde l'histoire de la conversation. Il dit : "On est dans une phase calme, ou c'est une explosion de joie ?" Il fixe le rythme général.
Le Soliste (Transformateur Cinématique) : Il prend le rythme du chef et ajoute les détails précis : "Maintenant, je lève la main gauche, puis je tourne la tête."

Cette séparation permet au système d'être à la fois rapide (il ne doit pas tout recalculer à chaque fois) et expressif (il peut ajouter des détails subtils).

3. Pourquoi c'est magique ?

Grâce à MIBURI, l'assistant virtuel ne semble plus être un robot qui lit un script. Il semble vivre la conversation.

Si vous posez une question, il penche la tête (il écoute).
Si vous racontez une blague, il rit et bouge les mains (il réagit).
Il ne se fige jamais, même si vous faites des pauses.

En résumé

Imaginez que MIBURI est le premier assistant virtuel capable de danser en rythme avec votre voix, sans jamais avoir besoin de regarder la partition à l'avance. Il utilise une technique ingénieuse pour écouter vos pensées (via le système de parole) et diviser son corps en équipes spécialisées, le tout en temps réel.

C'est un pas de géant vers des robots qui ne parlent pas seulement, mais qui communiquent vraiment, avec toute la richesse du langage corporel humain.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Agents Conversationnels Incarnés (ECA) visent à reproduire les interactions humaines en face à face en utilisant la parole, les gestes et les expressions faciales. Cependant, les solutions actuelles souffrent de limitations majeures :

Manque d'expressivité et de diversité : Les méthodes basées sur des règles ou des modèles génératifs rigides produisent des mouvements peu naturels et peu variés.
Latence et non-causalité : Les approches génératives récentes (basées sur la diffusion ou le masked modeling) produisent des gestes naturels mais nécessitent un contexte de parole futur (non-causal) et des temps de calcul longs, les rendant incompatibles avec une interaction en temps réel.
Pipeline complexe : Les méthodes existantes utilisent souvent un pipeline lourd où la parole est générée par un LLM, convertie en audio, puis tokenisée pour conditionner un modèle de gestes, introduisant des délais inutiles.

L'objectif est de combler ce fossé en créant un système causal (ne dépendant que du passé), en temps réel (faible latence) et expressif, capable de générer des gestes corporels complets et des expressions faciales synchronisés avec un dialogue parlé en direct.

2. Méthodologie

MIBURI propose un cadre génératif en ligne et entièrement causal, s'appuyant sur le modèle de fondation de dialogue parlé Moshi.

A. Architecture et Flux de Données

Source de contexte : Au lieu de convertir la parole en audio puis en tokens, MIBURI exploite directement le flux de tokens internes (texte et parole) du modèle Moshi. Cela élimine les étapes de latence induites par les pipelines conventionnels.
Codage des gestes (Gesture Codecs) :
- Le corps est découpé en trois régions : haut du corps (mains), bas du corps (translation globale, pieds) et visage (paramètres FLAME).
- Chaque région est encodée séparément via des Residual VQ-VAE (Vector Quantized Variational Autoencoders). Cela permet de capturer des détails kinématiques fins (des mouvements de bras larges aux gestes subtils des doigts) en plusieurs niveaux de tokens discrets.
- Les tokens sont générés sur une fenêtre temporelle courte (2 images) pour minimiser la latence.

B. Générateur Causal à Deux Dimensions

Pour générer les tokens de gestes de manière causale et efficace, l'architecture utilise deux transformateurs distincts qui décomposent la prédiction en deux dimensions :

Transformateur Temporel : Prédit le premier niveau de token ( $g_{t,1}$ ) en se basant sur le contexte temporel passé et les embeddings de parole/texte/Moshi. Il gère la dynamique globale dans le temps.
Transformateur Kinématique : Prédit les niveaux de détails suivants ( $g_{t,k}$ ) pour chaque pas de temps $t$ , conditionné par le contexte temporel et les niveaux précédents. Il gère la hiérarchie des détails corporels.

Cette séparation évite d'avoir à modéliser une fenêtre de contexte trop large ( $T \times K$ ), réduisant ainsi la complexité computationnelle.

C. Objectifs d'Entraînement et Expressivité

Pour éviter que le modèle ne converge vers des poses statiques ou répétitives (un problème courant des modèles autoregressifs), MIBURI intègre des objectifs auxiliaires :

Perte de contraste (InfoNCE) : Appliquée sur les latents générés via une réparamétrisation Gumbel-Softmax, elle encourage la diversité des gestes en rapprochant les paires vrai/prédit et en éloignant les paires fausses.
Perte d'activation vocale (Voice Activation Loss) : Une tête de classification binaire force le modèle à distinguer les états "écoute" et "parole", évitant les gestes fantômes lors de l'écoute et assurant une synchronisation lors de la parole.
Inférence : Utilisation de l'échantillonnage top-p (nucleus sampling) et de la Classifier-Free Guidance (CFG) pour maintenir la diversité et l'alignement sémantique.

3. Contributions Clés

Nouveau paradigme causal : Premier cadre en ligne et entièrement causal générant des gestes corporels complets et des expressions faciales synchronisés avec un dialogue en temps réel, sans contexte futur ni séquences de départ (seed).
Architecture innovante : Une approche de tokenisation hiérarchique (RVQ) couplée à une génération à deux dimensions (temporelle et kinématique) qui préserve l'expressivité tout en garantissant la causalité.
Intégration directe avec Moshi : Utilisation des tokens internes d'un modèle de fondation de dialogue pour conditionner la génération de gestes, éliminant les goulots d'étranglement de latence des pipelines traditionnels.
Analyse complète : Une évaluation approfondie des choix de conception (encodage, architecture, pertes) démontrant l'avancement de l'état de l'art.

4. Résultats

Les évaluations ont été menées sur le dataset BEAT2 (single et multi-locuteurs) et comparées à des méthodes de l'état de l'art (EMAGE, GestureLSM, MambaTalk, etc.).

Qualité et Naturalité (Évaluation Perceptuelle) : Dans une étude utilisateur, MIBURI a été préféré aux méthodes non causales (comme EMAGE) et aux méthodes temps réel existantes pour sa naturalité et son adéquation au discours.
Métriques Quantitatives :
- FGD (Fréchet Gesture Distance) : MIBURI obtient les meilleurs scores (0.480 en multi-locuteurs), surpassant les méthodes causales naïves et rivalisant avec les méthodes non causales.
- BeatAlign : Mesure l'alignement prosodique. MIBURI atteint des scores élevés (0.461), montrant une bonne synchronisation avec la parole.
- Diversité : Les scores de diversité (L1-Div) sont supérieurs à la plupart des baselines.
Latence : Le système atteint une latence de 36 ms par image sur une RTX 3090. Contrairement aux méthodes non-autoregressives (diffusion) qui doivent attendre la génération complète du contexte, MIBURI génère 2 images par pas de temps, permettant une interaction fluide.
Évolutivité : Le modèle fonctionne bien sur des configurations multi-locuteurs sans nécessiter de réentraînement spécifique par locuteur ni de séquences de départ.

5. Signification

MIBURI représente une avancée significative pour les Agents Conversationnels Incarnés (ECA). En résolvant le compromis traditionnel entre la qualité expressive (souvent réservée aux modèles hors ligne) et la réactivité temps réel (souvent au détriment de la qualité), ce travail rend possible la création d'agents numériques capables d'interactions humaines naturelles et fluides.

L'approche démontre qu'il est possible de construire des systèmes génératifs complexes en exploitant directement les représentations internes des grands modèles de langage (LLM) et de parole, ouvrant la voie à des interfaces plus immersives où le langage non-verbal est généré dynamiquement et en parfaite synchronisation avec la parole.