PeRoI: A Pedestrian-Robot Interaction Dataset for Learning Avoidance, Neutrality, and Attraction Behaviors in Social Navigation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous marchez dans un centre commercial bondé. Soudain, un robot arrive. Comment réagissez-vous ?

Option A : Vous faites un grand écart pour éviter de le toucher (c'est l'évitement).
Option B : Vous continuez votre chemin comme si de rien n'était, sans même le regarder (c'est la neutralité).
Option C : Vous vous arrêtez, intrigué, pour regarder le robot passer (c'est l'attraction).

Jusqu'à présent, les robots qui apprennent à se déplacer dans la rue ne connaissaient que l'Option A. Ils pensaient que tous les humains avaient peur d'eux et voulaient fuir. C'est comme si un nouveau conducteur apprenait à conduire en pensant que tous les piétons sont des obstacles immobiles à éviter à tout prix, sans jamais comprendre qu'un enfant pourrait courir vers lui par curiosité.

Voici comment cette recherche change la donne, expliquée simplement :

1. Le Problème : La "Cécité" des Robots

Les chercheurs ont réalisé que les robots actuels sont un peu "aveugles" aux nuances sociales. Les anciennes bases de données (les livres de recettes pour les robots) ne contenaient que des humains qui marchent entre eux. Elles ignoraient complètement comment les humains réagissent quand un robot est là. Résultat : les robots sont soit trop timides, soit trop brusques, car ils ne comprennent pas la diversité des réactions humaines.

2. La Solution : Le "PeRoI" (La Grande Bibliothèque des Réactions)

Les auteurs de l'article ont créé une nouvelle base de données appelée PeRoI. Imaginez que c'est une immense bibliothèque de vidéos où ils ont filmé des milliers de personnes marchant dans deux endroits différents (un campus universitaire et un passage entre des bureaux).

Mais ils n'ont pas juste filmé. Ils ont joué un rôle de metteur en scène avec trois scénarios :

Scénario 1 : Pas de robot (juste des humains).
Scénario 2 : Un robot immobile au milieu du chemin (comme une statue).
Scénario 3 : Un robot qui se déplace (comme un chien ou un petit chariot).

Ils ont utilisé trois types de robots très différents : un bras mécanique sur roues, un chien-robot à quatre pattes, et une base mobile industrielle.

Le résultat ? Ils ont pu étiqueter chaque personne : "Ah, celle-ci a fait un détour (évitement)", "Celle-ci est passée sans broncher (neutralité)", "Et celle-ci s'est approchée pour regarder (attraction)". C'est la première fois qu'on a une carte complète de ces trois réactions.

3. L'Innovation : Le "NeuRoSFM" (Le Cerveau du Robot)

Avoir les vidéos, c'est bien, mais il faut apprendre au robot à les comprendre. Les chercheurs ont donc inventé un nouveau modèle mathématique appelé NeuRoSFM.

Pour faire une analogie simple :

L'ancien modèle (le "Social Force Model") était comme un conducteur de train : il ne voit que des rails et des obstacles. S'il y a un obstacle, il freine. Point.
Le nouveau modèle (NeuRoSFM) est comme un conducteur de taxi expérimenté. Il utilise une intelligence artificielle (un cerveau numérique) pour sentir l'ambiance.
- Si le robot est un chien-robot (Unitree Go1), le modèle sait que les gens sont curieux et peuvent s'approcher (Attraction).
- Si le robot est une grosse machine industrielle, le modèle sait que les gens vont s'éloigner (Évitement).
- Il sait aussi que les gens marchent souvent en groupes et qu'ils ne veulent pas se séparer de leurs amis (Force de groupe).

Au lieu de programmer des règles rigides ("Si robot à 2 mètres, freine"), le modèle apprend à partir des vidéos de la bibliothèque PeRoI. Il comprend que la force qui pousse un humain à s'éloigner ou à s'approcher dépend du type de robot et de la situation.

4. Les Résultats : Pourquoi c'est important ?

Quand ils ont testé ce nouveau "cerveau" sur d'autres données, il a été beaucoup plus précis pour prédire où iront les gens.

Avant : Le robot prédisait que tout le monde s'éloignerait.
Maintenant : Il prédit que 30 % des gens vont s'éloigner, 60 % vont passer sans rien dire, et 10 % vont s'approcher par curiosité.

Cela permet aux robots de devenir de meilleurs citoyens. Ils peuvent naviguer dans les hôpitaux, les centres commerciaux ou les rues sans effrayer les gens, sans les bloquer inutilement, et en respectant leurs espaces personnels ou leur curiosité.

En Résumé

Cette recherche, c'est comme passer d'un robot qui dit "Je suis un robot, fuyez !" à un robot qui dit "Je suis un robot, je vois que vous êtes curieux, je vais passer doucement, ou peut-être que vous allez me regarder, et c'est normal".

Grâce à cette nouvelle "bibliothèque" de données et à ce nouveau "cerveau" d'apprentissage, les robots de demain seront enfin capables de se fondre harmonieusement dans la vie de tous les jours, en comprenant que les humains ne sont pas tous pareils face à une machine.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La navigation sociale des robots dans des espaces publics (centres commerciaux, trottoirs, hôpitaux) nécessite une anticipation précise des réactions des piétons. Cependant, les travaux existants souffrent de limitations majeures :

Absence de diversité comportementale : La plupart des jeux de données (comme ETH, UCY) se concentrent uniquement sur les interactions humain-humain ou supposent une réaction uniforme des piétons face aux robots (généralement une évitement/repulsion).
Modélisation simpliste : Les modèles actuels, qu'ils soient basés sur des règles (comme le Modèle de Force Sociale - SFM) ou sur l'apprentissage profond, ne capturent pas la gamme complète des réactions humaines, qui inclut non seulement l'évitement, mais aussi la neutralité (passage sans déviation) et l'attraction (approche par curiosité).
Manque de données annotées : Il existe un manque critique de grands ensembles de données réels annotant explicitement ces trois types de comportements induits par la présence d'un robot.

2. Méthodologie

L'article propose une approche en deux volets : la création d'un nouveau jeu de données et le développement d'un modèle de prédiction amélioré.

A. Le Jeu de Données PeRoI (Pedestrian-Robot Interaction)

Les auteurs ont collecté des données dans deux environnements extérieurs non structurés (un passage entre des bâtiments et une place universitaire) sous trois conditions contrôlées :

PD (Pedestrians only) : Comportement de base sans robot.
PD–SR (Pedestrians + Stationary Robot) : Réactions à trois robots statiques de morphologies différentes (Toyota HSR, Unitree Go1, Neobotix MPO700).
PD–MR (Pedestrians + Moving Robot) : Réactions à un robot mobile (Unitree Go1) suivant un chemin prédéfini.

Caractéristiques clés :

Annotations comportementales : Chaque trajectoire piétonne en présence d'un robot est étiquetée manuellement selon trois catégories :
- Évitement (Avoidance) : Déviation pour maintenir une distance.
- Neutralité : Changement négligeable de trajectoire ou de vitesse.
- Attraction : Approche ou orientation vers le robot.
Échelle : 18 669 trajectoires au total, dont 16,45 % impliquent une interaction robot-piéton (un taux bien supérieur aux jeux de données existants comme JRDB ou ETH).
Capteurs : Enregistrement par caméra RGB aérienne (vue de dessus) à 15 Hz, avec détection et suivi en temps réel via YOLOv11.

B. Le Modèle NeuRoSFM (Neural Robot Social Force Model)

Pour exploiter ces données, les auteurs proposent une extension du Modèle de Force Sociale (SFM) classique, nommé NeuRoSFM.

Concept : Au lieu d'utiliser des formules mathématiques rigides et des paramètres ajustés manuellement, le modèle remplace les composantes de force par des réseaux de neurones (MLP) entraînés sur les données.
Architecture : Le modèle calcule la force totale agissant sur un piéton ( $\vec{F}$ $F$ ) comme la somme de plusieurs forces apprises :
- Force d'attraction vers l'objectif ( $\vec{f}_a$ ).
- Répulsion des obstacles ( $\vec{f}_o$ ) et des autres piétons ( $\vec{f}_p$ ).
- Force induite par le robot ( $\vec{f}_r$ ) : Apprise pour modéliser la répulsion, mais capable de gérer les cas de neutralité (traitement comme un obstacle standard) ou d'attraction (changement temporaire de l'objectif du piéton).
- Force de cohésion de groupe ( $\vec{f}_{gr}$ ).
Avantage : Cette approche permet d'apprendre les dynamiques complexes et contextuelles (morphologie du robot, mouvement statique vs dynamique) sans ajustement manuel fastidieux des paramètres.

3. Résultats Principaux

Analyse du Jeu de Données PeRoI

Impact de la morphologie et du mouvement : Les résultats montrent que les réactions varient significativement selon le type de robot. Le robot quadrupède (Go1) suscite le plus d'attraction (7,82 % statique, 7,96 % mobile), tandis que la base industrielle (MPO700) provoque le plus d'évitement.
Dynamique : Les robots en mouvement génèrent une répulsion plus forte que les robots statiques.
Distribution des vitesses : Contrairement aux jeux de données ETH et JRDB qui montrent des distributions de vitesse biaisées vers le zéro (arrêts fréquents), PeRoI présente une distribution unimodale centrée autour de 1,5 m/s, reflétant un flux piétonnier plus naturel et continu.
Benchmark : L'ajout de PeRoI à l'entraînement d'un modèle de pointe (DDL) améliore les performances de prédiction de trajectoire sur les ensembles de données standards, prouvant la qualité et la pertinence des données.

Évaluation du Modèle NeuRoSFM

Précision : Sur les jeux de données ETH, JRDB et PeRoI, le NeuRoSFM obtient systématiquement l'erreur de déplacement moyenne (ADE) la plus faible par rapport au SFM classique et à ses extensions optimisées (SRFM).
Ablation : L'expérience confirme que l'intégration explicite de la force robotique ( $\vec{f}_r$ ) et de la force de groupe ( $\vec{f}_{gr}$ ) est cruciale pour améliorer la précision, en particulier dans les environnements mixtes.
Généralisation : Le modèle apprend à prédire des comportements diversifiés (y compris l'attraction) que les modèles traditionnels ne peuvent pas simuler.

4. Contributions Clés

PeRoI Dataset : Le premier jeu de données à grande échelle annotant explicitement les réponses piétonnes (évitement, neutralité, attraction) face à des robots statiques et mobiles de différentes morphologies.
Modèle NeuRoSFM : Une extension du SFM intégrant des réseaux de neurones pour apprendre les forces sociales et robotiques, permettant une prédiction de trajectoire plus réaliste et adaptable.
Validation Empirique : Démonstration que la prise en compte de la diversité des réactions humaines (au-delà de la simple évitement) est essentielle pour une navigation sociale robuste et acceptable.

5. Signification et Impact

Ce travail comble un vide majeur dans la recherche sur la navigation sociale des robots. En fournissant des données étiquetées sur la neutralité et l'attraction, il permet de dépasser l'hypothèse simplificatrice selon laquelle les humains évitent toujours les robots.

Pour la recherche : PeRoI offre une base pour entraîner des modèles capables de prédire des comportements sociaux complexes, favorisant le développement de robots plus sûrs et socialement acceptables.
Pour l'industrie : Le modèle NeuRoSFM offre un cadre interprétable (inspiré de la physique) mais flexible (entraîné par données) pour déployer des algorithmes de navigation dans des environnements réels où les interactions sont imprévisibles.
Perspectives futures : Les auteurs prévoient d'étendre le jeu de données à des environnements intérieurs et d'intégrer des capteurs 3D (LiDAR, caméras de profondeur) pour une représentation plus complète des interactions.