EgoCogNav: Cognition-aware Human Egocentric Navigation

Ce papier présente EgoCogNav, un cadre de navigation égocentrique multimodal qui intègre l'incertitude perçue comme état latent pour prédire les trajectoires et les mouvements de tête, accompagné d'un nouveau jeu de données CEN pour capturer les comportements de navigation humains réalistes.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari

Publié 2026-03-09
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous marchez dans une ville inconnue. Vous ne regardez pas seulement où mettre vos pieds ; vous scannez les panneaux, vous vous arrêtez pour réfléchir, vous vous retournez pour vérifier si vous êtes sur la bonne voie, et parfois, vous hésitez parce que vous ne savez pas trop où aller. C'est ce que les humains font naturellement : leur cerveau gère à la fois le mouvement et le doute.

Le papier que vous avez partagé, EgoCogNav, propose une nouvelle façon de faire faire cela à une intelligence artificielle. Voici une explication simple, avec des images pour mieux comprendre.

1. Le Problème : Les robots qui sont trop "bêtes"

Jusqu'à présent, la plupart des robots ou des voitures autonomes qui prévoient où les gens vont se déplacer fonctionnent comme des calculatrices froides. Ils regardent l'histoire du mouvement (où la personne était il y a 3 secondes) et disent : "Ah, elle va tout droit, donc elle va continuer tout droit."

Le problème ? Ils ignorent ce que la personne ressent. Ils ne savent pas si la personne est perdue, stressée, ou si elle est en train de chercher un indice. C'est comme si un GPS vous disait de tourner à gauche alors que vous avez l'impression d'être dans une impasse, sans jamais vous demander : "Hé, tu as l'air inquiet, tu veux vérifier ?"

2. La Solution : EgoCogNav, le "Super-Scanner"

Les chercheurs de l'Université Cornell ont créé EgoCogNav. Imaginez-le comme un chef d'orchestre très empathique. Au lieu de juste regarder les jambes de la personne, il écoute tout son corps et son cerveau.

Il utilise trois outils principaux pour comprendre la situation :

  • Les yeux (la caméra) : Il regarde ce que la personne voit (comme une caméra fixée sur son front).
  • Le regard (les yeux) : Il suit où la personne regarde. Si elle fixe un panneau pendant 2 secondes, c'est qu'elle lit ou qu'elle hésite.
  • Le corps (les mouvements) : Il sent si la personne accélère, ralentit, ou fait demi-tour.

3. La Magie : Le "Thermomètre du Doute"

C'est la partie la plus intéressante. Le modèle ne prédit pas seulement la personne va aller, il prédit aussi son niveau de doute (ce qu'ils appellent "l'incertitude perçue").

Imaginez que le robot a un thermomètre invisible posé sur la tête de l'utilisateur.

  • Température basse (0) : La personne est sûre d'elle, elle marche d'un pas ferme dans un couloir vide. Le robot dit : "Ok, elle va continuer tout droit."
  • Température haute (1) : La personne est dans un carrefour complexe, elle regarde à gauche, à droite, puis recule. Le thermomètre monte en flèche. Le robot comprend : "Ah ! Elle est perdue. Elle va probablement s'arrêter, faire demi-tour ou chercher une information."

Grâce à ce thermomètre, le robot peut anticiper des comportements humains réels comme l'hésitation ou le fait de revenir en arrière, au lieu de simplement extrapoler une ligne droite.

4. La Mémoire : Le "Carnet de Voyage"

Pour être encore plus intelligent, le modèle possède une petite mémoire à long terme. C'est comme un carnet de voyage où il a noté : "La dernière fois que quelqu'un était dans ce genre de situation (un grand hall avec beaucoup de gens), il a eu peur et a regardé partout."

Quand le robot voit une situation similaire, il consulte son carnet : "Tiens, ça ressemble à la situation X. Je me souviens que dans ce cas, les gens hésitent." Cela l'aide à mieux prédire le futur, même s'il n'a jamais vu exactement cet endroit auparavant.

5. Le Résultat : Une Carte plus Humaine

Les chercheurs ont créé une nouvelle base de données (le jeu de données CEN) avec 6 heures de vidéos réelles de gens marchant dans des villes et des bâtiments, en notant à chaque seconde s'ils se sentaient perdus ou sûrs d'eux.

Les tests montrent que EgoCogNav est bien meilleur que les anciens modèles :

  • Il prédit mieux les trajectoires (où la personne va).
  • Il prédit mieux les mouvements de tête (où la personne regarde).
  • Surtout, il comprend pourquoi la personne s'arrête ou hésite.

En résumé

Imaginez que vous guidez un ami dans une ville inconnue. Un vieux GPS vous dirait : "Tournez à droite dans 50 mètres." Mais un ami qui vous comprendrait vous dirait : "Attends, tu as l'air perdu, tu regardes partout. On va s'arrêter un instant pour regarder la carte avant de continuer."

EgoCogNav, c'est ce genre d'ami pour les robots. Il ne se contente pas de voir le mouvement ; il comprend la pensée derrière le mouvement. Cela rendra les robots sociaux, les voitures autonomes et les systèmes d'aide à la navigation beaucoup plus sûrs et plus naturels pour nous, les humains.