Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Each language version is independently generated for its own context, not a direct translation.

Imaginez un chien de garde robotique (un robot à pattes) envoyé dans un immense entrepôt inconnu ou un jardin sauvage. Sa mission ? Trouver un objet spécifique, par exemple « une boîte rouge » ou « une chaise bleue », sans aucune carte préalable.

Le problème, c'est que les robots classiques sont comme des géants maladroits : ils essaient de dessiner une carte ultra-précise de chaque mur et de chaque pierre (une carte géométrique dense). Mais quand le robot court, saute ou trébuche, cette carte devient floue et inutile. De plus, dessiner une carte parfaite prend trop de temps et d'énergie.

Les auteurs de cette recherche proposent une approche différente, plus intelligente et plus humaine. Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : Trop de bruit, pas assez de sens

Les robots actuels voient le monde comme une foule de pixels. Ils voient une « chose rouge » ici, un « objet » là-bas, mais ils ne savent pas toujours si c'est fiable. C'est comme essayer de conduire une voiture en fermant les yeux et en écoutant des gens crier des directions contradictoires dans un stade bruyant. Le robot se perd ou fait des choix bêtes.

2. La Solution : Le « Chef de Chantier » Intelligents

Au lieu de dessiner une carte complète, ce nouveau système fonctionne comme un chef de chantier expérimenté qui ne se soucie pas de la couleur de la peinture, mais de l'objectif final. Il utilise trois astuces magiques :

A. Le « Juge de Paix » (Arbitrage des preuves)

Le robot a deux sources d'information :

Le Grand Visionnaire (IA de scène) : Il regarde l'ensemble de la pièce et dit : « Il y a probablement une zone avec des objets rouges quelque part. » C'est une bonne intuition, mais floue.
Le Détective (Détection d'objets) : Il pointe un objet précis et dit : « C'est une chaise ! » Mais il peut se tromper si la lumière change ou si l'objet est caché.

Souvent, ces deux sources se contredisent. Le système propose un « Juge de Paix ». Ce juge ne se contente pas d'additionner les avis. Il vérifie la confiance de chaque source. Si le détective est très sûr de lui mais que le grand visionnaire doute, le juge pondère les avis. Il filtre le bruit et ne garde que les cibles les plus fiables pour que le robot ne perde pas son temps à courir après des illusions.

B. Le « Carnet de Notes Topologique » (Mémoire contrôlée)

Au lieu de remplir un atlas de 500 pages (une carte dense), le robot tient un carnet de croquis rapide.

Il ne note que les endroits importants qu'il a visités (des « nœuds »).
À côté de chaque croquis, il écrit : « Ici, j'ai vu une chaise, et j'ai 80% de certitude. »
Si le robot revient au même endroit, il ne dessine pas une nouvelle page ; il met simplement à jour son carnet.
Si une page devient inutile (l'endroit est déjà exploré), il la raye pour garder le carnet léger.

C'est comme si vous exploriez une ville inconnue en notant seulement les carrefours clés sur un bout de papier, au lieu de dessiner chaque rue. C'est rapide, léger et parfait pour prendre des décisions.

C. Le « Compas de l'Utilité » (Choix de la prochaine étape)

Le robot ne choisit pas sa prochaine destination au hasard. Il utilise un compas magique qui calcule une « utilité » pour chaque point de son carnet. Ce compas prend en compte trois facteurs :

La pertinence : Est-ce que ce point correspond à ma mission ? (Ex: « Je cherche une chaise, ce point a une chaise. »)
La fiabilité : Suis-je sûr de ce que j'ai vu ?
Le coût : Est-ce que c'est trop loin ou trop difficile à atteindre ?

Le robot choisit toujours le point qui offre le meilleur équilibre entre « être utile » et « être facile à atteindre ». Il évite ainsi de courir après un objet qui est derrière un mur infranchissable.

3. Le Résultat : Un Robot Agile et Décideur

Grâce à cette méthode, le robot à pattes (comme un Go1, un petit chien robot) peut :

Courir vite sans avoir besoin de s'arrêter pour dessiner une carte parfaite.
Prendre des décisions rapides même dans des environnements chaotiques (bureaux, jardins, entrepôts).
S'adapter : Si une caméra est sale ou si la lumière change, le « Juge de Paix » ajuste la confiance et le robot continue sa mission sans paniquer.

En résumé

Imaginez que vous cherchez vos clés dans une maison en désordre.

L'approche classique : Vous dessinez un plan architectural précis de chaque pièce avant de bouger. C'est lent et si vous déplacez un meuble, votre plan est faux.
L'approche de ce papier : Vous gardez à l'esprit une liste mentale des endroits probables (« Peut-être sur la table », « Peut-être dans le salon »). Vous vérifiez chaque endroit avec un œil critique, vous notez ce que vous trouvez sur un petit carnet, et vous choisissez le prochain endroit à vérifier en fonction de la probabilité de trouver les clés et de la distance à parcourir.

C'est une approche orientée décision : le but n'est pas de connaître le monde parfaitement, mais de trouver l'objet le plus efficacement possible, même avec des informations imparfaites.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La navigation autonome des robots quadrupèdes (legged robots) dans des environnements ouverts et non structurés pose un défi majeur. Les pipelines de navigation conventionnels reposent souvent sur des représentations géométriques denses (SLAM), qui sont :

Fragiles lors de mouvements rapides ou d'impacts au sol typiques des robots marcheurs.
Coûteuses en ressources computationnelles et nécessitant des capteurs précis (LiDAR).
Peu adaptées à la prise de décision sémantique : construire une carte métrique globale cohérente n'est pas toujours nécessaire pour explorer des objets spécifiques.

Le problème central abordé par les auteurs est le suivant : Comment transformer des observations sémantiques bruitées et hétérogènes (issues de la vision) en décisions d'exploration stables et exécutables, sans dépendre d'une reconstruction géométrique dense ? L'objectif est de permettre au robot de trouver un objet cible basé sur une instruction textuelle dans un environnement inconnu.

2. Méthodologie Proposée

Les auteurs proposent une approche pilotée par la décision (decision-driven) qui remplace la cartographie dense par une mémoire topologique sémantique compacte. Le système fonctionne selon un pipeline en quatre étapes principales :

A. Arbitrage de Preuve Sémantique Calibrée par la Confiance

Pour gérer l'incertitude des perceptions, le système fusionne deux types de preuves visuelles :

Niveau Scène (Scene-level) : Utilisation d'un modèle Vision-Language (Qwen2.5-VL) pour obtenir un contexte global et des indices directionnels.
Niveau Objet (Object-level) : Utilisation d'un détecteur open-vocabulary (GroundingDINO) pour localiser des instances spécifiques.

Ces deux sources sont fusionnées via un mécanisme d'arbitrage :

Calibration de la confiance : Une fonction monotone ajuste les scores de confiance bruts pour supprimer le bruit à faible confiance.
Fusion postérieure : Un score final est calculé en pondérant la cohérence spatiale (IoU entre la région de scène et la boîte de détection), la profondeur (faisabilité) et les confiances calibrées.
Résultat : Une cible sémantique stable $(P_t, L_t, C_f)$ prête pour la prise de décision.

B. Mémoire Topologique Sémantique à Croissance Contrôlée

Au lieu d'une carte métrique dense, le robot maintient un graphe $G = (V, E)$ :

Nœuds : Représentent des lieux revisitable, stockant la position 3D, l'étiquette sémantique, la confiance fusionnée et un potentiel d'exploration.
Croissance contrôlée : Un nouveau nœud n'est inséré que si la distance euclidienne par rapport aux nœuds existants dépasse un seuil et si la confiance est suffisante. Sinon, les attributs du nœud le plus proche sont mis à jour (moyenne mobile exponentielle).
Élagage : Les nœuds avec un faible potentiel d'exploration et une faible confiance sont supprimés périodiquement pour maintenir la mémoire compacte.

C. Sélection de Sous-objectifs Pilotée par l'Utilité Sémantique

Le robot sélectionne le prochain sous-objectif ( $g_t$ ) en maximisant une fonction d'utilité $U(v)$ qui combine :

Pertinence sémantique : Évaluée par un LLM (Large Language Model) comparant l'étiquette du nœud à l'instruction de la tâche.
Fiabilité de la preuve : La confiance calibrée du nœud.
Potentiel d'exploration : La valeur résiduelle de la zone à explorer.
Coût de déplacement : La distance (ou le coût du chemin) depuis la position actuelle du robot.

Cette approche évite les oscillations et privilégie les cibles à la fois pertinentes, fiables et accessibles.

D. Interface d'Exécution

La décision haute niveau est découplée du contrôle bas niveau :

Un planificateur local (Viplanner) génère des commandes de vitesse pour éviter les obstacles immédiats.
Une politique de locomotion basée sur l'apprentissage par renforcement (RL) exécute les mouvements sur le robot quadrupède (ex: Unitree Go1), assurant la stabilité dynamique.

3. Contributions Clés

Mécanisme d'arbitrage calibré : Intégration robuste de preuves hétérogènes (scène et objet) pour produire des cibles d'exploration exécutables sous observations partielles.
Mémoire topologique à croissance contrôlée : Une représentation compacte de l'histoire d'exploration qui supporte la prise de décision à long terme sans reconstruction géométrique dense.
Stratégie de sélection de sous-objectifs : Une méthode d'utilité sémantique qui équilibre la pertinence, la confiance et le coût de déplacement en temps réel.
Validation multi-plateforme : Démonstration réussie sur plusieurs simulateurs et sur un robot quadrupède réel (Go1) dans divers environnements (bureaux, extérieurs, entrepôts).

4. Résultats Expérimentaux

Les expériences ont été menées dans des simulations (Isaac Sim) et dans le monde réel (Unitree Go1).

Qualité des preuves (Evidence Arbitration) : La méthode proposée a atteint une précision sémantique (SA) moyenne de 90,1 %, surpassant les méthodes de base (Qwen+GroundingDINO simple fusion à 85,3 %) et les modèles individuels. Cela démontre que la calibration de la confiance filtre efficacement le bruit avant la prise de décision.
Qualité de la décision (Subgoal Selection) : La précision de sélection de nœuds globaux (GNSA) est passée de 83,7 % (baseline HOV-SG) à 85,8 % avec la stratégie d'utilité proposée.
Performance d'exploration :
- En simulation : Taux de réussite (SR) allant jusqu'à 75 % et SPL (Success weighted by Path Length) compétitifs.
- En réel : Le système a réussi à explorer et trouver des objets dans 5 environnements variés (bureau, salon, jardin, etc.), bien que le bruit de perception réel ait légèrement réduit les performances par rapport à la simulation.
Efficacité : L'architecture hiérarchique permet une exécution temps réel. Les inférences lourdes (VLM/LLM) ne sont déclenchées que lors du changement de point de vue, tandis que le contrôle moteur fonctionne à 50 Hz.

5. Signification et Impact

Ce travail marque un changement de paradigme pour la navigation des robots marcheurs :

Dépassement du SLAM dense : Il prouve qu'une représentation topologique sémantique légère est suffisante pour l'exploration d'objets, rendant le système plus robuste aux chocs et moins gourmand en calcul.
Robustesse décisionnelle : En traitant l'exploration comme un problème de décision séquentielle plutôt que de simple localisation, le système gère mieux l'incertitude inhérente aux environnements ouverts.
Déployabilité : La capacité à fonctionner sur du matériel embarqué (Jetson AGX Orin) et sur des robots réels sans cartes préexistantes ouvre la voie à des applications pratiques en recherche et sauvetage, logistique et surveillance environnementale.

En conclusion, l'article propose un cadre structuré où la perception sémantique est directement optimisée pour la prise de décision, permettant aux robots quadrupèdes d'explorer efficacement des mondes ouverts avec une fiabilité accrue.