EgoCogNav: Cognition-aware Human Egocentric Navigation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous marchez dans une ville inconnue. Vous ne regardez pas seulement où mettre vos pieds ; vous scannez les panneaux, vous vous arrêtez pour réfléchir, vous vous retournez pour vérifier si vous êtes sur la bonne voie, et parfois, vous hésitez parce que vous ne savez pas trop où aller. C'est ce que les humains font naturellement : leur cerveau gère à la fois le mouvement et le doute.

Le papier que vous avez partagé, EgoCogNav, propose une nouvelle façon de faire faire cela à une intelligence artificielle. Voici une explication simple, avec des images pour mieux comprendre.

1. Le Problème : Les robots qui sont trop "bêtes"

Jusqu'à présent, la plupart des robots ou des voitures autonomes qui prévoient où les gens vont se déplacer fonctionnent comme des calculatrices froides. Ils regardent l'histoire du mouvement (où la personne était il y a 3 secondes) et disent : "Ah, elle va tout droit, donc elle va continuer tout droit."

Le problème ? Ils ignorent ce que la personne ressent. Ils ne savent pas si la personne est perdue, stressée, ou si elle est en train de chercher un indice. C'est comme si un GPS vous disait de tourner à gauche alors que vous avez l'impression d'être dans une impasse, sans jamais vous demander : "Hé, tu as l'air inquiet, tu veux vérifier ?"

2. La Solution : EgoCogNav, le "Super-Scanner"

Les chercheurs de l'Université Cornell ont créé EgoCogNav. Imaginez-le comme un chef d'orchestre très empathique. Au lieu de juste regarder les jambes de la personne, il écoute tout son corps et son cerveau.

Il utilise trois outils principaux pour comprendre la situation :

Les yeux (la caméra) : Il regarde ce que la personne voit (comme une caméra fixée sur son front).
Le regard (les yeux) : Il suit où la personne regarde. Si elle fixe un panneau pendant 2 secondes, c'est qu'elle lit ou qu'elle hésite.
Le corps (les mouvements) : Il sent si la personne accélère, ralentit, ou fait demi-tour.

3. La Magie : Le "Thermomètre du Doute"

C'est la partie la plus intéressante. Le modèle ne prédit pas seulement où la personne va aller, il prédit aussi son niveau de doute (ce qu'ils appellent "l'incertitude perçue").

Imaginez que le robot a un thermomètre invisible posé sur la tête de l'utilisateur.

Température basse (0) : La personne est sûre d'elle, elle marche d'un pas ferme dans un couloir vide. Le robot dit : "Ok, elle va continuer tout droit."
Température haute (1) : La personne est dans un carrefour complexe, elle regarde à gauche, à droite, puis recule. Le thermomètre monte en flèche. Le robot comprend : "Ah ! Elle est perdue. Elle va probablement s'arrêter, faire demi-tour ou chercher une information."

Grâce à ce thermomètre, le robot peut anticiper des comportements humains réels comme l'hésitation ou le fait de revenir en arrière, au lieu de simplement extrapoler une ligne droite.

4. La Mémoire : Le "Carnet de Voyage"

Pour être encore plus intelligent, le modèle possède une petite mémoire à long terme. C'est comme un carnet de voyage où il a noté : "La dernière fois que quelqu'un était dans ce genre de situation (un grand hall avec beaucoup de gens), il a eu peur et a regardé partout."

Quand le robot voit une situation similaire, il consulte son carnet : "Tiens, ça ressemble à la situation X. Je me souviens que dans ce cas, les gens hésitent." Cela l'aide à mieux prédire le futur, même s'il n'a jamais vu exactement cet endroit auparavant.

5. Le Résultat : Une Carte plus Humaine

Les chercheurs ont créé une nouvelle base de données (le jeu de données CEN) avec 6 heures de vidéos réelles de gens marchant dans des villes et des bâtiments, en notant à chaque seconde s'ils se sentaient perdus ou sûrs d'eux.

Les tests montrent que EgoCogNav est bien meilleur que les anciens modèles :

Il prédit mieux les trajectoires (où la personne va).
Il prédit mieux les mouvements de tête (où la personne regarde).
Surtout, il comprend pourquoi la personne s'arrête ou hésite.

En résumé

Imaginez que vous guidez un ami dans une ville inconnue. Un vieux GPS vous dirait : "Tournez à droite dans 50 mètres." Mais un ami qui vous comprendrait vous dirait : "Attends, tu as l'air perdu, tu regardes partout. On va s'arrêter un instant pour regarder la carte avant de continuer."

EgoCogNav, c'est ce genre d'ami pour les robots. Il ne se contente pas de voir le mouvement ; il comprend la pensée derrière le mouvement. Cela rendra les robots sociaux, les voitures autonomes et les systèmes d'aide à la navigation beaucoup plus sûrs et plus naturels pour nous, les humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La navigation humaine est un processus complexe qui ne dépend pas uniquement de la géométrie de l'environnement, mais aussi de facteurs cognitifs et expérientiels (comment une personne perçoit et réagit émotionnellement à l'espace).

Limites des approches existantes : La majorité des méthodes de prédiction de trajectoire se concentrent sur des scènes observées en troisième personne (vue aérienne ou BEV) et négligent les facteurs humains internes. Elles se basent souvent sur l'historique du mouvement et le contexte, sans modéliser l'état cognitif (incertitude, hésitation, stress).
Le défi : Il manque un cadre capable de prédire simultanément le mouvement physique (trajectoire, mouvement de la tête) et l'état cognitif (incertitude perçue) à partir d'une perspective égocentrique (vue à la première personne), en intégrant des signaux multimodaux (vidéo, regard, mouvement).
Objectif : Développer un système capable de comprendre non seulement où une personne va, mais pourquoi elle hésite, scanne l'environnement ou fait demi-tour, en quantifiant son incertitude perçue.

2. Méthodologie : EgoCogNav

Les auteurs proposent EgoCogNav, un cadre d'apprentissage multimodal qui prédit conjointement la trajectoire future, les poses de la tête et l'incertitude perçue.

A. Formulation du problème

Étant donné une fenêtre temporelle passée de :

Vidéos égocentriques ( $X$ ),
Mouvements du corps ( $S$ : décalages $\Delta x, \Delta y, \Delta \psi$ ),
Rotations de la tête ( $H$ ),
Points de regard ( $G$ ),
Objectif de navigation ( $q$ ),

Le modèle prédit :

La trajectoire future du corps ( $\hat{S}$ ).
La séquence future des poses de la tête ( $\hat{H}$ ).
L'état actuel d'incertitude perçue ( $\hat{U} \in [0, 1]$ ).

B. Architecture du modèle

L'architecture est modulaire et comprend trois flux principaux fusionnés tardivement :

Module de Perception : Utilise un transformateur de vision pré-entraîné (DINOv2) pour extraire des caractéristiques spatio-temporelles des vidéos RGB.
Module d'Action : Encode les signaux synchronisés (mouvement du corps, rotation de la tête, regard) et l'objectif de navigation via un encodeur Transformer.
Module de Cognition (Cœur du système) : Ce module est conçu pour capturer l'état interne du navigateur et guider la prédiction. Il intègre trois sous-composantes :
- Estimation d'incertitude couplée au gradient : Prédit l'incertitude $\hat{U}_t$ via un MLP. Cette prédiction est couplée au reste du réseau, forçant l'encodeur à apprendre des représentations sensibles aux états cognitifs.
- Prédiction augmentée par la mémoire : Utilise des vecteurs de motifs de navigation appris ( $M$ ) pour récupérer des contextes pertinents de situations passées similaires via un mécanisme d'attention croisée. Cela permet de pallier le manque de contexte immédiat.
- Décodage conditionné par l'incertitude (UCD) : Utilise la normalisation de couche adaptative pour moduler les caractéristiques latentes en fonction de l'incertitude prédite. Cela permet au modèle d'adapter son comportement de prédiction (plus prudent ou plus direct) selon le niveau de doute du sujet.

C. Objectifs d'entraînement

Le modèle est entraîné avec une perte multi-tâches combinant :

Une perte $\ell_1$ pondérée pour la trajectoire (avec régularisation de variance).
Une perte de distance matricielle de rotation pour la tête.
Une erreur quadratique moyenne (MSE) pour la régression de l'incertitude perçue (basée sur des rapports humains).

3. Contributions Clés

Tâche de prévision : Formalisation d'une nouvelle tâche de prévision égocentrique consciente de la cognition, prédisant conjointement trajectoire, mouvement de la tête et incertitude perçue.
Architecture EgoCogNav : Proposition d'un modèle novateur fusionnant la perception visuelle, les signaux moteurs et un module de mémoire/cognition pour générer des prévisions réalistes.
Dataset CEN (Cognition-aware Egocentric Navigation) : Introduction d'un nouveau jeu de données public (6 heures d'enregistrements, 17 participants, 42 sites) contenant des vidéos, du regard, des poses de tête et des annotations d'incertitude perçue en temps réel dans des environnements réels (intérieurs et extérieurs).

4. Résultats Expérimentaux

Les expériences ont été menées sur un ensemble de test avec des environnements non vus lors de l'entraînement.

Performance Quantitative :
- EgoCogNav surpasse les baselines (y compris des modèles basés sur des règles, des transformateurs standard et des méthodes adaptées comme EgoCast) en termes d'erreur de déplacement moyenne (ADE) et finale (FDE).
- Réduction de 3,8 % à 5,0 % de l'erreur de trajectoire par rapport à la meilleure baseline.
- Pour la prédiction d'incertitude, le modèle atteint un coefficient de corrélation de Spearman ( $\rho$ ) de 0,788, bien supérieur aux méthodes heuristiques ou basées sur l'entropie (qui sont proches du hasard).
Analyse par Ablation :
- L'ajout de la prédiction d'incertitude seule réduit l'erreur finale de trajectoire de 9,2 %, prouvant que l'apprentissage de l'état cognitif améliore la précision du mouvement.
- La combinaison du module de mémoire et du décodage conditionné (UCD) offre les meilleurs gains, car ils se complètent : la mémoire fournit du contexte, et l'UCD ajuste la façon de traiter ce contexte.
Analyse Qualitative :
- Le modèle capture correctement les comportements liés à la difficulté décisionnelle : augmentation de l'incertitude avant une hésitation, un balayage visuel (scanning) ou un demi-tour.
- Les échecs se produisent principalement lorsque des indices visuels sont hors champ ou fortement occlus, soulignant le besoin de mémoire à long terme.

5. Signification et Impact

Ce travail est significatif pour plusieurs domaines :

Robotique Sociale et Navigation Autonome : Permet aux robots de comprendre non seulement la trajectoire d'un humain, mais aussi son état de confusion ou d'hésitation, facilitant une interaction plus sûre et empathique (ex: un robot qui attend qu'un humain ait pris sa décision).
Systèmes d'Aide à la Navigation : Peut être utilisé pour créer des systèmes d'assistance qui détectent quand un utilisateur est perdu ou incertain et fournissent des indications proactives.
Conception Environnementale : En quantifiant l'incertitude perçue, les architectes et urbanistes peuvent identifier les points de confusion dans les bâtiments ou les villes et améliorer la signalétique ou la conception des espaces.
Avancée Scientifique : Le dataset CEN comble un vide majeur en fournissant des données multimodales réelles annotées avec des états cognitifs, ouvrant la voie à de futures recherches sur la modélisation de l'interaction humain-environnement au-delà de la simple géométrie.

En résumé, EgoCogNav démontre que l'intégration explicite de l'incertitude perçue et de la mémoire cognitive améliore significativement la fidélité des prédictions de mouvement humain en vue égocentrique.