Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous devez transporter un objet très long et fragile (comme un grand tableau ou une poutre) avec un robot humanoïde. Vous êtes tous les deux en train de marcher dans un couloir, passant par des portes étroites, en faisant des virages. Si l'un de vous trébuche ou tire dans la mauvaise direction, l'objet tombe ou vous vous cognez.

C'est exactement le défi que cette recherche tente de résoudre : comment faire en sorte qu'un humain et un robot travaillent ensemble comme une seule équipe soudée, sans avoir besoin de se parler ni de se donner des ordres précis ?

Voici l'explication de leur solution, appelée C2C (Cognition vers Contrôle), expliquée simplement avec des analogies.

Le Problème : Le Robot "Réfléchi" vs Le Robot "Réactif"

Jusqu'à présent, les robots avaient deux modes de fonctionnement qui ne se mélangeaient pas bien :

Le mode "Réflexe" (Système 1) : Très rapide, comme un gardien de but qui attrape un ballon. C'est bien pour éviter de tomber, mais le robot ne comprend pas pourquoi il tourne ou où il va.
Le mode "Réflexion" (Système 2) : Lent et intelligent, comme un capitaine de navire qui regarde la carte. Il sait qu'il doit traverser la porte, mais il est trop lent pour ajuster ses pieds à chaque instant.

Le problème, c'est que pour transporter un objet avec un humain, il faut les deux en même temps : comprendre la stratégie globale (traverser la porte) tout en ajustant les mouvements à la milliseconde près pour ne pas faire tomber l'objet.

La Solution : Une Équipe en Trois Couches (Le "Cerveau", le "Cervelet" et le "Muscle")

Les chercheurs ont créé une architecture en trois étages, comme un être humain avec un cerveau, un cervelet et des muscles.

1. Le Cerveau (La Couche Cognitive) : Le Capitaine

Ce que ça fait : C'est le stratège. Il utilise une intelligence artificielle visuelle (comme un chatbot très intelligent qui voit) pour regarder la scène.
L'analogie : Imaginez un capitaine de navire qui regarde la carte. Il ne dit pas "mouvez votre bras gauche de 2 cm". Il dit : "On va devoir passer par cette porte étroite, donc on doit se rapprocher un peu et faire un demi-tour."
Son rôle : Il transforme la vision du monde en points de repère (des "ancres" virtuelles). Il dit au robot : "L'objectif est de passer par là-bas."

2. Le Cervelet (La Couche de Compétence) : Le Chef d'Orchestre

Ce que ça fait : C'est la couche d'apprentissage par renforcement multi-agents. C'est ici que la magie de la collaboration opère.
L'analogie : Imaginez un couple de danseurs qui ne se sont jamais rencontrés avant. Au lieu de se dire "je suis le leader, tu suis", ils apprennent à s'adapter mutuellement en temps réel.
- Si vous tirez un peu vers la gauche, le robot comprend instinctivement que vous voulez tourner à gauche et s'ajuste.
- Si vous ralentissez, il ralentit aussi.
- Il n'y a pas de "chef" fixe. Parfois c'est l'humain qui mène, parfois le robot. Ils trouvent un équilibre naturel, comme deux amis marchant côte à côte sans se cogner.
Son rôle : Il traduit les ordres du "Capitaine" (le point de repère) en mouvements précis pour s'assurer que vous et le robot avancez ensemble sans heurts.

3. Les Muscles (La Couche de Contrôle) : Le Corps

Ce que ça fait : C'est le contrôleur physique ultra-rapide.
L'analogie : C'est votre système nerveux qui gère l'équilibre. Quand vous marchez sur une planche de surf, votre cerveau ne pense pas "contracte le muscle du mollet gauche". Votre corps le fait automatiquement pour ne pas tomber.
Son rôle : Il exécute les ordres du "Chef d'Orchestre" des centaines de fois par seconde pour garantir que le robot ne tombe pas, que ses genoux ne se plient pas bizarrement et que l'objet reste stable.

Pourquoi c'est génial ? (Les Résultats)

Dans les expériences, ils ont mis ce robot (un Unitree G1) à transporter des objets avec des humains dans des situations difficiles :

Passer par des portes étroites.
Faire des virages serrés.
Porter des objets très longs qui nécessitent une synchronisation parfaite.

Les résultats :

Moins de chutes : Le système est beaucoup plus stable que les robots programmés avec des règles rigides (qui tombent dès que l'humain fait un mouvement imprévu).
Pas besoin de se parler : Le robot comprend l'intention de l'humain sans qu'il ait besoin de crier "Tourne à gauche !".
Adaptabilité : Si l'humain change de stratégie au milieu du chemin, le robot s'adapte instantanément, comme un partenaire de danse qui suit le mouvement.

En résumé

Cette recherche a réussi à créer un robot qui ne se contente pas de suivre des ordres, mais qui comprend ce que vous faites et s'adapte à vous. C'est comme passer d'un robot qui est un "outil rigide" à un robot qui est un "partenaire de danse" capable de penser à long terme (où aller) tout en réagissant instantanément (comment bouger les pieds).

C'est un pas de géant vers des robots qui pourront vraiment nous aider dans nos maisons ou nos usines, en travaillant avec nous de manière fluide et naturelle.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Cognition to Control – Multi-Agent Learning for Human-Humanoid Collaborative Transport", rédigé en français.

1. Problématique et Contexte

La collaboration physique humain-robot (HRC) pour le transport d'objets lourds ou complexes nécessite de concilier deux exigences contradictoires :

Planification cognitive à long terme : Comprendre l'intention humaine, naviguer dans des environnements encombrés et gérer des tâches à horizon lointain (système de type "Système 2" : délibératif).
Contrôle physique réactif : Maintenir la stabilité du contact, synchroniser les mouvements et réagir en temps réel aux variations comportementales du partenaire humain (système de type "Système 1" : réactif).

Les approches existantes souffrent de plusieurs limitations :

Les systèmes VLA (Vision-Language-Action) end-to-end sont souvent trop réactifs et manquent de capacité de délibération à long terme.
Les méthodes basées sur des scripts ou des rôles explicites (leader-suiveur) sont rigides, ne généralisent pas bien aux environnements non structurés et créent des non-stationnarités lors de l'apprentissage.
Il existe un fossé ("gap") entre la raison sémantique (où aller) et l'exécution physique (comment bouger), particulièrement critique dans les tâches de transport en contact où la stabilité est primordiale.

2. Méthodologie : L'Architecture C2C (Cognition-to-Control)

Les auteurs proposent une hiérarchie à trois couches, nommée C2C, qui découple explicitement le cheminement de la délibération vers le contrôle. Cette architecture est illustrée comme une analogie biologique (Cortex cérébral, Lobes cérébraux, Cervelet).

A. Couche Cognitive (Grounding Layer) - Le "Cortex"

Fonction : Génère une spécification de tâche partagée à partir d'observations visuelles multi-vues.
Technologie : Utilisation de Modèles de Langage et de Vision (VLM) décentralisés.
Mécanisme : Chaque agent (humain et robot) observe l'environnement sous son point de vue égo-centrique. Les VLM proposent des "ancres" (waypoints) pour le centre de masse (CoM) de l'objet. Ces propositions sont réconciliées pour former une séquence d'ancres consensus ( $T = \{w_k\}$ ) qui définit la trajectoire globale de l'objet.
Avantage : Permet un raisonnement sémantique ouvert (open-vocabulary) et une compréhension des contraintes d'environnement (portes, couloirs) sans script préétabli.

B. Couche de Compétence / Coordination (Skill Policy Layer) - Les "Lobes Cérébraux"

Fonction : Traduit les ancres stratégiques en commandes tactiques de coordination.
Formulation : Le problème est modélisé comme un Jeu de Markov Potentiel Centrée sur la Tâche (Task-Centric Markov Potential Game).
- Au lieu d'assigner des rôles fixes (leader/suiveur), les agents apprennent des politiques décentralisées indépendantes ( $\pi_i$ ).
- Une fonction de potentiel partagée ( $\Phi$ ) aligne les incitations des agents vers l'objectif commun (réduire la distance à la trajectoire cible).
- Cela permet l'émergence naturelle de comportements leader-suiveur selon les besoins de la tâche, sans encodage explicite.
Apprentissage : Utilisation de l'apprentissage par renforcement multi-agents (MARL) avec entraînement centralisé et exécution décentralisée (CTDE). La politique est formulée comme une politique résiduelle par rapport à un contrôleur nominal, permettant des ajustements tactiques fins (synchronisation verticale, compliance) tout en respectant la cinématique.

C. Couche de Contrôle du Corps Entier (Whole-Body Control Layer) - Le "Cervelet"

Fonction : Exécute les commandes tactiques à haute fréquence.
Mécanisme : Un contrôleur WBC (Whole-Body Control) transforme les commandes de l'espace des tâches (issues du MARL) en couples articulaires ( $\tau$ ).
Contraintes : Garantit la stabilité du contact, la faisabilité cinématique/dynamique et la sécurité, en filtrant les perturbations rapides que la couche MARL (plus lente) ne peut gérer directement.

3. Contributions Clés

Architecture Hiérarchique C2C : Une structure qui découple le raisonnement sémantique (VLM) de la coordination tactique (MARL) et de l'exécution physique (WBC), comblant le fossé entre la navigation à long terme et le contrôle à haute fréquence.
Formulation par Jeu de Markov Potentiel : Une approche unifiée pour la HRC qui élimine le besoin d'assignation de rôle explicite ou d'inférence d'intention complexe. La coordination émerge naturellement de l'optimisation d'un potentiel de tâche partagé, favorisant l'adaptation mutuelle.
Robustesse et Adaptabilité : La méthode internalise la dynamique du partenaire humain comme une propriété intrinsèque du système d'apprentissage, plutôt que comme une estimation externe, réduisant ainsi les risques d'instabilité (oscillations) lors de l'interaction.

4. Résultats Expérimentaux

Les expériences ont été menées sur une plateforme de simulation (Isaac Lab) et déployées sur un robot humanoïde Unitree G1 collaborant avec un humain pour transporter des objets (bâtons longs, objets lourds).

Scénarios : 9 scénarios couvrant le transport sensible à l'orientation (OSP), le transport en espace confiné (SCT) et la manipulation d'objets super-longs (SLH).
Performance Globale :
- L'architecture C2C a dépassé les baselines à script (robot-script) et les approches end-to-end.
- Gain de performance global de +45,6% par rapport à la baseline scriptée.
- Taux de réussite moyen supérieur à 80% pour les trois algorithmes MARL testés (HAPPO, HATRPO, PCGrad) intégrés dans la couche tactique.
Déploiement Réel (Unitree G1) :
- Comparé à une baseline RL mono-agent, la version multi-agent (PCGrad) a atteint un taux de réussite de 100% sur les tâches SCT et SLH (contre 40% pour le mono-agent).
- Réduction significative du temps de complétion de la tâche et du taux d'inclinaison de l'objet ( $\dot{\alpha}$ ), indiquant une meilleure stabilité et synchronisation.
Étude d'Abalation : La suppression de la couche cognitive (VLM) ou de la couche tactique (MARL) a entraîné un échec complet des tâches complexes, confirmant la nécessité des trois couches.

5. Signification et Impact

Ce travail démontre qu'une collaboration humain-robot fluide et robuste peut être obtenue en séparant explicitement le raisonnement sémantique de la coordination tactique.

Innovation Théorique : La formulation du problème HRC comme un jeu de Markov potentiel centré sur la tâche permet une adaptation mutuelle émergente sans hypothèses rigides sur les rôles, résolvant le problème de la non-stationnarité dans l'apprentissage multi-agent.
Impact Pratique : La méthode permet aux robots humanoïdes de fonctionner dans des environnements non structurés avec des humains, en gérant des tâches de transport complexes qui nécessitent à la fois une intelligence situationnelle (VLM) et une réactivité physique fine (MARL + WBC).
Futur : Cette approche ouvre la voie à des systèmes de collaboration plus généraux capables de s'adapter à des partenaires humains variés et à des environnements dynamiques sans réapprentissage coûteux.