Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes assis dans une pièce sombre. Devant vous, un écran projette des silhouettes en mouvement. Parfois, c'est un humain qui court, saute ou danse. Parfois, c'est un robot humanoïde (un robot qui a l'air humain) qui fait la même chose.

La question est simple : Pouvez-vous dire lequel est l'humain et lequel est le robot, uniquement en regardant leurs mouvements, sans voir leur visage ni leur corps ?

C'est l'idée géniale derrière ce papier de recherche, qu'ils appellent le « Test de Turing du Mouvement ».

Voici une explication simple de ce qu'ils ont fait, avec quelques images pour aider à visualiser :

1. Le Problème : Les robots sont trop « métalliques »

Aujourd'hui, les robots sont de plus en plus impressionnants. Ils peuvent marcher, courir et même faire de la gymnastique. Mais si on les regarde, on voit souvent des joints métalliques, des câbles ou des formes étranges. Si on leur demande de passer le test de Turing (le test classique pour voir si une machine est intelligente), ils échouent parce qu'on les reconnaît à leur apparence.

Les chercheurs se sont dit : « Et si on enlevait le "déguisement" ? »
Pour cela, ils ont créé une salle de jeu virtuelle. Ils ont pris des vidéos de vrais robots et de vrais humains, et ils ont transformé tout le monde en mannequins 3D nus (appelés SMPL-X). Imaginez que vous enlevez les vêtements et la peau de tout le monde pour ne garder que le squelette qui bouge.

Résultat : Plus de visage, plus de couleur, plus de métal. Juste des lignes qui bougent. C'est le seul moyen de juger la qualité du mouvement lui-même.

2. La Collection de Données : Le « Musée des Mouvements »

Pour faire ce test, ils ont créé une énorme bibliothèque appelée HHMotion.

Ils ont filmé des robots lors de grands événements internationaux (comme des Jeux Olympiques de robots).
Ils ont filmé 10 humains faisant exactement les mêmes mouvements.
Ils ont même demandé à des humains d'essayer de mimer des robots (pour voir si on peut tromper le test en faisant des mouvements rigides).

Au total, ils ont 1 000 petites vidéos de 5 secondes chacune, couvrant 15 activités : marcher, sauter, boxer, danser, jouer au ping-pong, etc.

3. Le Jury Humain : Les « Juges de la Naturel »

Ils ont recruté 30 personnes pour regarder ces vidéos de squelettes et donner une note de 0 à 5 :

0 : « C'est clairement un robot, ça bouge comme une machine. »
5 : « C'est indiscernable d'un humain, c'est fluide et naturel. »

Ce qu'ils ont découvert (La Surprise) :
Même si les robots sont très avancés, ils ne trompent pas encore les humains !

Les mouvements faciles : Pour marcher ou se tenir debout, les robots sont assez proches des humains (note moyenne autour de 2,6/5). C'est comme un bon danseur qui suit le rythme.
Les mouvements difficiles : Pour des actions rapides et complexes comme boxer, sauter ou jouer au ping-pong, les robots échouent lamentablement (note autour de 1,2/5).
- L'analogie : Imaginez un robot qui essaie de faire un saut périlleux. Il atterrit un peu trop lourdement, comme un sac de sable qui tombe, alors qu'un humain atterrit avec une souplesse de chat. Les humains remarquent immédiatement cette « lourdeur » mécanique.

4. Le Défi pour l'Intelligence Artificielle : Les Robots ne savent pas juger

Les chercheurs ont ensuite demandé à des super-intelligences artificielles (des modèles de langage géants comme Gemini ou Qwen) de faire le travail des juges humains. Ils leur ont montré les vidéos et ont demandé : « Quelle note donneriez-vous ? »

Le verdict est sans appel : Les IA sont mauvaises dans ce domaine.

Même avec des instructions très précises, les IA se trompent souvent. Elles ne semblent pas comprendre la « fluidité » ou la « grâce » d'un mouvement. C'est comme demander à un robot de juger la qualité d'un vin : il peut analyser la chimie, mais il ne peut pas goûter la saveur.

5. La Solution : Un Nouveau « Juge Robotique »

Puisque les grosses IA échouent, les chercheurs ont créé un petit modèle spécial, qu'ils appellent PTR-Net.

C'est comme un entraîneur de danse très attentif. Au lieu de regarder tout le corps d'un coup, il analyse comment les articulations se coordonnent dans le temps.
Ce petit modèle est beaucoup plus performant que les géants de l'IA pour prédire si un mouvement semble humain ou non. Il arrive à deviner la note que donnerait un humain avec une grande précision.

En Résumé

Ce papier nous dit trois choses importantes :

Les robots ne sont pas encore parfaits : Même sans leur apparence, leurs mouvements trahissent leur nature mécanique, surtout dans les actions dynamiques.
L'IA actuelle est aveugle au mouvement : Les modèles de langage les plus avancés ne savent pas encore juger la beauté ou le naturel d'un mouvement.
Nous avons une nouvelle règle du jeu : Avec ce nouveau test et ce nouveau modèle de jugement, les chercheurs peuvent maintenant mesurer exactement où en sont les robots et comment les améliorer pour qu'ils bougent vraiment comme nous.

C'est un pas de géant vers le jour où un robot pourra entrer dans une pièce et nous faire oublier qu'il est une machine, simplement par la façon dont il danse ou marche.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Bien que les robots humanoïdes aient réalisé des progrès significatifs dans la génération et le contrôle du mouvement, il manque actuellement une méthode standardisée et quantitative pour évaluer leur « ressemblance humaine » (human-likeness) du point de vue de l'observateur. Les évaluations existantes se concentrent souvent sur des métriques orientées vers la tâche (taux de réussite, efficacité, robustesse), qui ne reflètent pas nécessairement la perception humaine de la naturalité du mouvement.

De plus, les tests visuels directs sont biaisés par l'apparence physique des robots (coques métalliques, articulations exposées), ce qui permet aux humains de distinguer facilement un robot d'un humain sans même analyser la cinématique. L'objectif de cet article est de proposer un cadre d'évaluation centré exclusivement sur le mouvement, inspiré du Test de Turing, pour déterminer si un observateur humain peut distinguer un mouvement de robot d'un mouvement humain basé uniquement sur l'information cinématique.

2. Méthodologie

L'approche proposée repose sur trois piliers principaux : la création d'un jeu de données, la définition d'une tâche d'évaluation, et le développement d'un modèle de baseline.

A. Le Jeu de Données HHMotion (Human-Humanoid Motion)

Les auteurs ont créé le premier dataset dédié à l'évaluation de la ressemblance humaine des mouvements :

Contenu : 1 000 séquences de mouvement de 5 secondes chacune, couvrant 15 catégories d'actions (marche, course, boxe, danse, etc.).
Sources : Les données proviennent de 11 modèles de robots humanoïdes (réels et simulés) et de 10 sujets humains effectuant les mêmes actions. Les sources incluent des événements majeurs (World Robot Conference, World Humanoid Robot Games) et des environnements simulés.
Représentation : Pour éliminer les biais liés à l'apparence visuelle, toutes les vidéos (humaines et robotiques) sont converties en représentations SMPL-X (un modèle corporel paramétrique sans texture). Cela force l'évaluateur à se concentrer uniquement sur la cinématique.
Annotation : 30 annotateurs humains ont noté chaque séquence sur une échelle de Likert de 0 à 5 (0 = « totalement robotique », 5 = « indiscernable d'un humain »). Cela a généré plus de 500 heures d'annotation.

B. Le Benchmark du « Motion Turing Test »

La tâche consiste à prédire automatiquement le score de ressemblance humaine (0-5) à partir d'une séquence de poses 3D (SMPL-X).

Objectif : Évaluer si un modèle peut approximer le jugement humain concernant la naturalité du mouvement.

C. Le Modèle de Baseline : PTR-Net

Pour répondre à cette tâche, les auteurs proposent le Pose-Temporal Regression Network (PTR-Net) :

Architecture :
1. Encodeur Temporel : Une LSTM bidirectionnelle à deux couches pour capturer les dépendances temporelles à long terme.
2. Convolution Graphique Spatio-Temporelle (ST-GCN) : Traite la séquence comme un graphe du corps humain pour extraire les motifs de coordination entre les articulations et les frames. Contrairement aux GCN classiques, il utilise une conception d'adjacence sans paramètres pour une agrégation plus adaptative.
3. Pooling par Attention et Tête de Régression : Un module d'attention met en évidence les segments de mouvement saillants, suivis d'un MLP léger pour prédire le score scalaire.
Fonction de perte : Une perte de régression L2 combinée à un terme de régularisation ( $L_{reg}$ ) pour encourager la stabilité et la douceur des scores prédits dans le temps.

3. Résultats Clés

A. Analyse des Données Humaines

L'analyse des annotations révèle que, malgré les avancées récentes, les mouvements des robots humanoïdes présentent encore des écarts notables par rapport aux mouvements humains :

Actions dynamiques : Les mouvements complexes et rapides (sauts, boxe, course, ping-pong) obtiennent les scores les plus bas pour les robots, indiquant des difficultés dans la coordination à haute fréquence et les transitions rapides.
Actions cycliques : Les mouvements plus lisses et répétitifs (marche, station debout) montrent une meilleure convergence entre les scores humains et robotiques.
Simulation vs Réalité : Les mouvements simulés obtiennent généralement de meilleurs scores que les mouvements de robots réels, soulignant le fossé « sim-to-real ».

B. Performance des Modèles

Les auteurs ont comparé PTR-Net à plusieurs modèles d'état de l'art, y compris des Modèles de Langage Multimodaux (VLM) comme Gemini 2.5 Pro et Qwen3-vl-plus :

Échec des VLM : Même avec des stratégies de prompt avancées (Chain-of-Thought, exemples few-shot), les VLM peinent à évaluer la ressemblance humaine du mouvement, affichant des erreurs élevées (MAE > 1.2) et une faible corrélation de rang (Spearman's $\rho$ < 0.24).
Supériorité de PTR-Net : Le modèle proposé surpasse tous les autres, y compris MotionBERT (finetuné) et des baselines Transformer.
- MAE (Erreur Absolue Moyenne) : 0.5813 (le plus bas).
- RMSE : 0.7926.
- Corrélation de Spearman : 0.6841 (le plus élevé).
Généralisation (OOD) : PTR-Net a été testé sur un robot non vu lors de l'entraînement (XPeng IRON) et a prédit un score de 4.25, très proche de la moyenne humaine de 4.36, démontrant une bonne capacité de généralisation.

4. Contributions Principales

Concept du Motion Turing Test : Introduction d'un cadre d'évaluation centré sur la cinématique pure, débarrassé des indices visuels d'apparence, pour mesurer la naturalité des mouvements des robots.
Dataset HHMotion : Le premier jeu de données à grande échelle contenant des mouvements humains et robotiques convertis en SMPL-X, annotés par des humains avec des scores de ressemblance quantitative.
Modèle PTR-Net : Une architecture simple mais efficace qui dépasse les modèles VLM complexes pour cette tâche spécifique, prouvant que des modèles spécialisés sur la structure temporelle et spatiale sont nécessaires.
Analyse des limites actuelles : Mise en évidence du fait que les robots humanoïdes actuels excellent dans les mouvements rythmiques mais échouent encore dans les actions dynamiques complexes, et que l'imitation humaine de mouvements robotiques peut brouiller les frontières de l'évaluation.

5. Signification et Impact

Ce travail fournit une fondation rigoureuse et centrée sur l'humain pour le développement futur des robots humanoïdes.

Pour la génération de mouvement : Le dataset et le modèle PTR-Net peuvent servir de fonction de récompense (reward model) dans l'apprentissage par renforcement pour optimiser la synthèse de mouvements plus naturels.
Pour l'évaluation : Il offre un standard objectif pour comparer les différents robots et algorithmes de contrôle, au-delà des simples métriques de réussite de tâche.
Pour la communauté : Le code, le dataset et le benchmark sont rendus publics, facilitant la recherche future sur l'expressivité et la fluidité des mouvements robotiques.

En conclusion, l'article démontre que si les robots humanoïdes ont fait des progrès impressionnants, ils ne sont pas encore capables de passer le « Test de Turing du Mouvement » dans des scénarios dynamiques, et propose des outils pour combler cet écart.