Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tout le monde, sans jargon technique.

Imaginez que vous essayez d'apprendre à un ami à conduire une voiture dans un quartier très encombré. Vous ne voulez pas prendre le volant à sa place (ce qui serait frustrant pour lui), mais vous ne pouvez pas non plus le laisser conduire seul s'il est fatigué ou incertain. C'est exactement le défi que ce papier aborde, mais avec un robot de rééducation qui aide un patient à bouger son bras.

Voici comment fonctionne leur solution, expliquée avec des métaphores du quotidien :

1. Le Duo : Le Patient et le Robot (Les deux agents)

Dans la plupart des systèmes actuels, le robot et le patient se battent pour savoir qui commande, ou le robot essaie de tout faire, ce qui crée des mouvements saccadés.

Ici, ils ont divisé les tâches comme dans un tango :

Le Patient (L'agent humain) : Il ne décide que de la direction principale. C'est comme si le patient disait simplement : « On y va vers le haut » ou « On y va vers le bas ». Il ne s'occupe pas des détails.
Le Robot (L'agent machine) : Il gère tout le reste. Il corrige les petits écarts latéraux (gauche/droite, avant/arrière) pour que le mouvement soit droit et fluide. Il agit comme un co-pilote expert qui ajuste le volant pour que la voiture reste dans sa voie, même si le conducteur tire un peu trop sur le volant.

2. Le Problème du « Tic-Tac » (Le contrôle à fréquence fixe)

Les robots traditionnels fonctionnent comme un métronome : ils donnent des ordres toutes les 0,1 seconde, qu'ils en aient besoin ou non.

L'analogie : Imaginez un cuisinier qui coupe des carottes. S'il coupe toutes les 2 secondes, peu importe si la carotte est déjà coupée ou non, il risque de couper ses doigts ou de faire des éclaboussures. En robotique, cela crée des vibrations (des allers-retours rapides) quand le robot arrive près de l'objectif, car il essaie de corriger alors qu'il est déjà presque là.

3. La Solution : Le « Cercle d'Admission » (Le contrôle déclenché par événement)

Au lieu de regarder l'horloge, le robot regarde la position.

L'analogie : Imaginez un gardien de but qui ne bouge que lorsque le ballon entre dans une zone spécifique devant lui.
Le robot a défini une sphère invisible (un cercle 3D) autour de l'objectif. Il ne fait rien tant que le bout du robot (l'effecteur) n'est pas entré dans ce cercle. Une fois dedans, il valide le mouvement et passe à la suite.
Résultat : Plus de vibrations inutiles. Le robot attend d'être sûr d'être stable avant de faire le prochain pas. C'est comme attendre que la voiture soit parfaitement garée avant de couper le moteur.

4. L'Intelligence Artificielle : Le Duo qui Apprend Ensemble (DAMMRL)

C'est la partie la plus ingénieuse. Chaque personne est différente : certains sont rapides mais imprécis, d'autres sont lents mais précis. Le robot doit s'adapter à chaque personne.

Ils utilisent une méthode d'apprentissage appelée DAMMRL (Apprentissage par Renforcement à Double Agent et Modèles Multiples).

L'analogie du jeu de cartes : Imaginez que le robot et le patient jouent à un jeu où ils doivent choisir une carte ensemble pour réussir.
- Le Patient choisit une carte de « Vitesse » (Je veux aller vite, donc je suis prêt à faire plus d'erreurs) ou de « Précision » (Je veux être sûr, donc je vais lentement).
- Le Robot a un jeu de cartes de « Pas » (Petits pas prudents ou grands pas rapides).
L'apprentissage : Au début, ils essaient des combinaisons au hasard dans une simulation (comme un jeu vidéo). Le robot apprend très vite quelle carte de « Pas » fonctionne le mieux avec la carte de « Vitesse » du patient.
- Si le patient choisit « Vitesse », le robot apprend à faire de grands pas pour aller vite, même si ça risque de rater un peu.
- Si le patient choisit « Précision », le robot fait de tout petits pas pour viser juste.

5. L'Entraînement en Trois Étages

Pour être sûrs que ça marche dans la vraie vie, ils ont suivi un entraînement progressif :

Le Monde Virtuel (Sim-Sim) : Le robot et un « patient virtuel » s'entraînent dans un simulateur informatique (MuJoCo). C'est comme un simulateur de vol pour pilotes.
Le Monde Mixte (Humain-Sim) : Un vrai humain appuie sur un bouton physique (un capteur de pression), mais le robot est toujours virtuel. Cela permet de voir comment les vrais humains réagissent.
Le Monde Réel (Humain-Robot) : L'objectif final est de mettre ce système sur un vrai bras robotisé pour aider de vrais patients. (Le papier note que cette dernière étape est prévue pour le futur, car l'entraînement est très long).

En Résumé

Ce papier propose une nouvelle façon de faire travailler ensemble un humain et un robot :

On sépare les rôles : L'humain donne la direction, le robot gère la stabilité.
On arrête de regarder l'horloge : Le robot ne bouge que quand il est sûr d'être au bon endroit (grâce au « cercle d'admission »), ce qui élimine les tremblements.
On s'adapte : Grâce à l'intelligence artificielle, le robot apprend à connaître le style de l'humain (rapide ou lent) et ajuste sa propre façon de bouger pour que tout le monde soit heureux.

C'est comme passer d'un robot rigide qui vous tire par le bras, à un partenaire de danse qui vous guide, vous écoute, et ajuste son rythme pour que vous puissiez réussir votre mouvement ensemble.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces », rédigé en français.

1. Problématique

La rééducation robotisée des membres supérieurs vise à offrir un entraînement intensif et orienté vers des tâches, mais elle se heurte à deux goulots d'étranglement majeurs :

Décodage de l'intention : Il est difficile de concevoir des pipelines capables de décoder l'intention humaine en temps réel tout en restant légers computationnellement.
Instabilité du contrôle : Les stratégies de contrôle à fréquence fixe (échantillonnage temporel constant) provoquent souvent des oscillations (« chatter ») et des hésitations autour des points de passage (waypoints). Cela est dû au fait que le temps d'exécution de la cinématique inverse (IK) varie, créant un décalage entre la commande et l'action physique réelle du robot.

L'objectif est donc de développer une politique de contrôle partagé qui préserve l'agence de l'utilisateur tout en assurant la stabilité et l'efficacité du mouvement, en particulier pour les tâches de saisie d'objets ou de pression de boutons.

2. Méthodologie

L'article propose une architecture innovante combinant une décomposition axiale des tâches, un contrôle déclenché par des événements et un apprentissage par renforcement multi-modèle.

A. Décomposition Axiale et Rôles Décentralisés

Le système décompose l'espace de tâche en axes découplés pour un robot manipulateur à 6 degrés de liberté (6-DoF) :

Agent Humain (Agent 0) : L'utilisateur ne contrôle que l'axe principal de l'atteinte (ex: axe Z, haut/bas) via une commande binaire ( $u_h \in \{-1, +1\}$ ). Il sélectionne également le rayon de la « sphère d'admission » ( $\varepsilon$ ), ce qui reflète son compromis vitesse-précision (choix entre une grande sphère pour la vitesse ou une petite pour la précision).
Agent Robot (Agent 1) : Le robot gère de manière autonome les mouvements correctifs sur les axes orthogonaux et détermine la magnitude des pas cartésiens ( $\delta_x, \delta_y, \delta_z$ ) pour chaque axe, s'adaptant dynamiquement à l'état cognitif de l'utilisateur.

B. Stratégie de Progression Déclenchée par Événement (Event-Triggered)

Pour éliminer les oscillations dues aux temps d'exécution variables de la cinématique inverse, le système abandonne l'échantillonnage temporel fixe.

Condition de déclenchement : Une nouvelle action de contrôle n'est exécutée que lorsque l'effecteur terminal entre dans une « sphère d'admission » centrée sur le waypoint cible actuel ET que la dérivée d'une fonction de Lyapunov (surrogate énergétique) est négative ( $\dot{V} \le 0$ ).
Avantage : Cela agit comme une bande morte spatiale, assurant que le robot a physiquement atteint une stabilité suffisante avant de passer à l'étape suivante, supprimant ainsi les micro-vibrations.

C. Apprentissage par Renforcement Multi-Agent et Multi-Modèle (DAMMRL)

Pour gérer la variabilité inter-individuelle sans adaptation continue lourde, les auteurs introduisent le cadre DAMMRL (Dual Agent Multiple Model Reinforcement Learning).

Modélisation discrète : Le système quantifie les capacités humaines et robotiques dans un ensemble fini de modèles $M = \{M_{i,j}\}$ $M = {M_{i, j}}$ .
- $i$ : État cognitif de l'humain (choix du rayon $\varepsilon$ : grand ou petit).
- $j$ : Vecteur de magnitude des pas du robot (combinaisons de pas petits/grands sur les 3 axes).
Apprentissage : Un algorithme DQN (Deep Q-Network) apprend à associer le modèle humain optimal au modèle robotique correspondant pour maximiser la récompense (précision, temps, effort, stabilité).
Curriculum d'entraînement : L'apprentissage se déroule en trois étapes :
1. Virtual (Sim-Sim) : Entraînement complet dans MuJoCo.
2. Semi-Virtual (Human-Sim) : Humain réel contrôlant un robot simulé via un capteur de pression.
3. Real (Human-Real) : Déploiement sur le matériel physique (prévu pour une étude future).

D. Contrôle Dynamique

Le système utilise une stratégie « cinématique-dynamique cohérente » :

Décomposition du mouvement en micro-pas cartésiens.
Résolution de la cinématique inverse par optimisation numérique (bibliothèque ikpy).
Calcul des couples articulaires via le Computed Torque Control (CTC) et la dynamique inverse pour compenser les forces de Coriolis, l'inertie et la gravité, garantissant une interaction physique fluide et sûre.

3. Contributions Clés

Allocation de rôle axiale : Réduction du décodage d'intention à des décisions binaires robustes tout en préservant l'agence de l'utilisateur sur la progression de la tâche.
Critère de progression événementiel : Utilisation de sphères d'admission pour supprimer les oscillations de waypoints, un problème récurrent avec les mises à jour à fréquence fixe.
Cadre DAMMRL : Un système DQN qui mappe discrètement les rayons de sphère d'erreur (choisis par l'humain) avec les magnitudes de pas cartésiens (choisis par le robot), équilibrant ainsi précision spatiale et efficacité temporelle.
Pipeline de déploiement progressif : Une approche structurée allant de la simulation pure à l'environnement semi-virtuel puis physique, simplifiant le réglage matériel.

4. Résultats Expérimentaux

Les expériences ont été menées principalement dans l'environnement virtuel MuJoCo (S1) et validées partiellement en mode semi-virtuel (S2).

Réduction des oscillations : La comparaison entre le contrôle à fréquence fixe et le contrôle déclenché par événement montre une suppression drastique des oscillations (« chatter ») près des cibles. Le contrôle événementiel synchronise les commandes avec la progression physique réelle du robot.
Convergence des modèles : Les courbes d'apprentissage montrent que les deux agents (humain et robot) convergent rapidement vers des stratégies optimales.
Impact de la fonction de récompense :
- Avec une récompense axée uniquement sur la précision (Reward 1), le robot adopte des pas très petits et prudents, éliminant l'erreur mais augmentant le temps d'exécution.
- Avec une récompense équilibrée (Reward 2), le robot apprend à ajuster dynamiquement la taille de ses pas (grands pas pour accélérer, petits pour la précision finale), optimisant le compromis vitesse-précision selon l'état de l'utilisateur.
Validation Semi-Virtuelle : L'interaction humain-robot via un capteur de pression a confirmé la stabilité du système pour atteindre des points cibles malgré les erreurs de commande humaines simulées.

5. Signification et Conclusion

Cette recherche propose une avancée significative dans le domaine de la rééducation robotique en résolvant le conflit entre la nécessité d'une interaction fluide et les limitations dynamiques des robots.

Stabilité : En remplaçant le temps par l'espace comme déclencheur de contrôle, le système élimine les instabilités inhérentes aux variations de temps de calcul de la cinématique inverse.
Adaptabilité : Le cadre DAMMRL permet une personnalisation efficace sans nécessiter une adaptation en ligne complexe et risquée, en sélectionnant le meilleur couple de modèles pré-entraînés.
Efficacité : Le système améliore les taux de réussite des tâches de saisie d'objets et réduit l'effort mécanique et le temps de tâche par rapport aux méthodes de contrôle partagé conventionnelles.

Bien que la validation clinique sur des patients neurologiquement atteints soit une étape future nécessaire, cette étude démontre la faisabilité d'une co-adaptation humain-robot sûre, précise et efficace pour la rééducation des membres supérieurs.