WildOS: Open-Vocabulary Object Search in the Wild

Each language version is independently generated for its own context, not a direct translation.

🌲 WildOS : Le Robot Explorateur qui a un "Sixième Sens"

Imaginez que vous envoyez un robot dans une forêt inconnue, sans carte, avec pour seule instruction : "Trouve-moi la vieille cabane."

Le problème ? Le robot ne voit qu'à quelques mètres devant lui grâce à ses capteurs (comme un radar). Au-delà, c'est le brouillard. Les systèmes classiques, qui ne regardent que la géométrie (les obstacles physiques), avancent bêtement, se heurtent à des buissons, font demi-tour et recommencent. C'est comme essayer de traverser une ville en fermant les yeux et en comptant ses pas.

WildOS est la solution. C'est un système qui donne au robot deux capacités magiques :

Une mémoire spatiale (il sait où il a déjà été).
Un sixième sens visuel (il "devine" ce qui est sûr ou dangereux au-delà de sa portée, juste en regardant une photo).

🧠 Comment ça marche ? (Les 3 Ingédients Secrets)

Pour comprendre WildOS, imaginons que le robot est un aventurier équipé de trois outils spéciaux :

1. Le Carnet de Croquis (Le "Graph de Navigation")

Au lieu de dessiner une carte détaillée et lourde de chaque caillou (ce qui prendrait trop de place dans la tête du robot), WildOS dessine un schéma simplifié.

L'analogie : Imaginez un carnet où le robot note : "J'ai marché ici, c'est libre", "Là-bas, il y a un mur", et "À la prochaine intersection, j'ai une idée".
C'est une mémoire légère. Elle permet au robot de ne pas tourner en rond et de se souvenir qu'il a déjà exploré un chemin mortel (un cul-de-sac).

2. L'Œil de Sphinx (Le module "ExploRFM")

C'est le cœur intelligent du système. Le robot utilise une intelligence artificielle (un modèle de fondation) qui a "vu" des millions d'images sur internet.

L'analogie : Imaginez que le robot porte des lunettes magiques. Quand il regarde devant lui, ces lunettes ne voient pas seulement des arbres, elles voient des indices.
- Elles disent : "Regarde, entre ces deux arbres, il y a un sentier qui semble sûr" (Traversabilité).
- Elles disent : "Là-bas, le chemin s'arrête, c'est une bonne place pour explorer plus loin" (Frontières visuelles).
- Elles disent : "Attends, je vois quelque chose qui ressemble à une cabane au loin, même si je ne peux pas encore la toucher" (Recherche d'objet).
Contrairement aux robots classiques qui attendent d'arriver à un obstacle pour savoir qu'il est bloqué, WildOS devine le danger ou la sécurité en regardant l'image, bien avant d'y arriver.

3. Le Triangulateur de Rêve (Localisation de la cible)

Le robot entend "Trouve la cabane", mais il ne sait pas exactement où elle est.

L'analogie : C'est comme jouer à "Chaud/Froid" avec plusieurs amis. Le robot regarde la cabane avec ses trois caméras (gauche, droite, avant). Chaque fois qu'il la voit, il lance des "particules" (de petits points imaginaires) dans l'espace pour deviner où elle se trouve.
En croisant ces points de vue, il crée une estimation grossière de l'endroit où la cabane se cache, même si elle est à 100 mètres, hors de portée de ses capteurs physiques. Cela lui donne un but lointain à viser.

🚀 La Magie de la Fusion : Pourquoi c'est mieux ?

Le génie de WildOS, c'est qu'il mélange ces deux mondes :

La sécurité géométrique : Il ne traverse pas un mur parce que ses capteurs disent "Stop".
L'intuition visuelle : Il ne marche pas dans un champ de fleurs parce que son "œil de Sphinx" dit "C'est un marais caché".

L'exemple du "Cul-de-sac" (Dead-end) :

Le robot classique (sans mémoire) : Il entre dans un cul-de-sac, touche le mur, recule, et recommence encore et encore, paniqué.
Le robot sans mémoire visuelle (LRN) : Il voit un joli chemin, s'y lance, mais ne se souvient pas qu'il l'a déjà essayé. Il tourne en rond.
WildOS : Il voit le joli chemin, y va, touche le mur. Grâce à son Carnet de Croquis, il se souvient : "J'ai déjà essayé ça, c'est bloqué". Grâce à son Œil de Sphinx, il repère immédiatement une autre ouverture plus loin, même si elle est cachée par un buisson. Il tourne intelligemment et trouve la sortie.

🌍 Les Résultats dans la Vraie Vie

Les chercheurs ont testé WildOS sur un robot quadrupède (comme un chien robot) dans des environnements réels :

Des forêts avec des sentiers étroits.
Des zones urbaines avec des ruelles.
Des terrains accidentés.

Résultat ?
WildOS a trouvé des objets (comme un logo de la NASA, un chariot de golf ou une poubelle) beaucoup plus vite et avec moins d'erreurs que les robots qui ne regardent que les murs ou ceux qui ne regardent que les images. Il agit presque comme un humain : il anticipe, se souvient de ses erreurs et choisit le chemin le plus logique, pas juste le plus court.

En Résumé

WildOS, c'est comme donner à un robot un GPS (pour la mémoire), des lunettes de vision nocturne (pour voir au-delà des obstacles) et un instinct de survie (pour savoir où marcher). C'est un pas de géant vers des robots capables de nous aider dans des missions de sauvetage ou d'exploration dans des endroits où nous n'avons pas de cartes.

Each language version is independently generated for its own context, not a direct translation.

Titre : WildOS : Recherche d'objets à vocabulaire ouvert dans des environnements sauvages

1. Problématique

La navigation autonome de robots dans des environnements extérieurs non structurés et à grande échelle (recherche et sauvetage, inspection) pose des défis majeurs lorsque les cartes préalables sont absentes et que la supervision humaine est limitée. Le problème central abordé par WildOS est la recherche d'objets à vocabulaire ouvert (open-vocabulary object search) : un robot doit localiser et atteindre un objet spécifique décrit par une requête en langage naturel (ex. : "trouve la maison") en utilisant uniquement ses capteurs embarqués.

Les défis spécifiques identifiés sont :

Portée de détection limitée : Les capteurs de profondeur (LiDAR) ne couvrent qu'une courte distance (quelques mètres), rendant la planification au-delà de cet horizon myope.
Manque de sémantique : Les approches purement géométriques ignorent les indices visuels (trous entre les obstacles, chemins visibles) qui pourraient indiquer des directions sûres au-delà de l'horizon de détection.
Mémoire spatiale : Les cartes denses (voxels) sont trop coûteuses en mémoire pour de grandes zones. Les représentations graphiques sont nécessaires mais doivent intégrer le raisonnement sémantique.
Localisation de cibles lointaines : Il est difficile de localiser précisément un objet en 3D s'il est hors de portée du LiDAR, ce qui empêche une planification ciblée.

2. Méthodologie

WildOS est un système unifié en temps réel qui combine la perception géométrique (sécurité) et le raisonnement sémantique visuel (efficacité). L'architecture repose sur cinq composants principaux :

A. Construction d'un Graphes de Navigation (Navigation Graph)

Le système maintient un graphe topologique sparse ( $G_{nav}$ ) qui stocke les régions explorées et identifie les nœuds frontières (frontier nodes) à la limite entre l'espace connu et inconnu.
Ce graphe utilise des champs de distance signés (SDF) pour gérer la connectivité et l'histoire de l'exploration de manière efficace en mémoire, évitant les cartes denses volumineuses.

B. Module Visuel "ExploRFM" (Exploration and Object Reasoning Foundation Model)

C'est le cœur sémantique du système. Basé sur un modèle de fondation (RADIO, dérivé de ViT), ExploRFM prend en entrée une image RGB et une requête textuelle.
Il prédit trois cartes denses en temps réel :
1. Traversabilité visuelle ( $T_{vis}$ ) : Identifie les zones sûres (herbe, route) vs dangereuses (eau, buissons) au-delà de la portée du LiDAR.
2. Frontières visuelles ( $F_{vis}$ ) : Détecte les zones prometteuses pour l'exploration (extrémités de sentiers, ouvertures).
3. Masque de similarité d'objet ( $S_{vis}$ ) : Localise les régions de l'image correspondant à l'objet recherché.

C. Triangulation de la Cible (Goal Triangulation)

Pour localiser un objet hors de portée du LiDAR, WildOS utilise un estimateur basé sur un filtre particulaire.
En fusionnant les détections d'objets ( $S_{vis}$ ) provenant de multiples vues (caméras gauche, avant, droite), le système génère des hypothèses 3D probabilistes pour estimer une position de cible grossière ( $\hat{p}_{goal}$ ) au-delà de l'horizon de détection.

D. Fusion et Notation du Graphes (Scoring)

Les nœuds frontières géométriques sont projetés dans l'espace image.
Une fonction de notation ( $f_{score}$ $f_{scor e}$ ) combine la géométrie et la vision pour attribuer un score à chaque frontière. Ce score intègre :
- La confiance d'atteignabilité (chemin le plus court dans l'image vers une frontière visuelle).
- L'alignement avec la direction de la cible estimée.
- La probabilité que le pixel soit une frontière visuelle pertinente.
Cela crée un graphe de navigation noté ( $G_{score}$ ) où les bords sont pondérés par leur potentiel sémantique.

E. Planification Hiérarchique

Un planificateur global utilise le graphe noté pour trouver un chemin vers la cible estimée, en privilégiant les frontières visuellement prometteuses.
Un planificateur local (Nav2) exécute les commandes de mouvement sûres vers des objectifs intermédiaires.

3. Contributions Clés

WildOS : Un système unifié pour la recherche d'objets à vocabulaire ouvert à longue portée, intégrant raisonnement géométrique et visuel.
Module ExploRFM : Un réseau basé sur un modèle de fondation capable de prédire simultanément la traversabilité, les frontières visuelles et la similarité d'objets dans l'espace image.
Graphe Noté Visuellement : Une approche de cartographie topologique qui pondère les frontières géométriques par des indices sémantiques, permettant de prioriser l'exploration vers des régions visuellement prometteuses.
Localisation au-delà de l'horizon : Un estimateur par filtre particulaire pour localiser grossièrement des cibles hors de portée des capteurs de profondeur, permettant une planification dirigée vers des cibles lointaines.
Validation sur le terrain : Des expériences en boucle fermée sur des terrains hors-route et urbains, accompagnées d'un nouveau jeu de données annoté pour les frontières visuelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur un robot quadrupède Boston Dynamics Spot avec des capteurs LiDAR et caméras RGB-D.

Recherche d'objets (Q1) : WildOS a réussi à localiser et atteindre des objets variés (logo NASA, panier à ordures, chariot de golf) à partir de requêtes textuelles, en naviguant sur ~150 mètres sans carte préalable.
Efficacité de la notation visuelle (Q2) : Comparé à une approche purement géométrique ("Vanilla GraphNav") et à une approche purement visuelle (LRN), WildOS a démontré une réduction significative de la distance parcourue et du temps de trajet.
- Exemple : Face à une clôture bloquant la route directe, WildOS a détecté visuellement une ouverture latérale et l'a empruntée immédiatement, tandis que l'approche géométrique a dû contourner l'obstacle de manière réactive et inefficace.
Robustesse et Mémoire (Q3) : Dans des scénarios de cul-de-sac, WildOS a réussi à se retourner et à choisir un chemin alternatif grâce à sa mémoire topologique. À l'inverse, l'approche purement visuelle (LRN), sans mémoire, est entrée dans des boucles oscillatoires et a échoué sans intervention humaine.
Généralisation (Q4) : Le système a fonctionné efficacement sur des terrains urbains et hors-route sans réentraînement, prouvant la capacité de généralisation des modèles de fondation.

5. Signification et Conclusion

WildOS représente une avancée significative vers l'autonomie robotique à long terme dans des environnements réels complexes.

Synthèse des capacités : Il comble le fossé entre la perception à courte portée (sûre mais myope) et la perception à longue portée (riche en sémantique mais géométriquement incertaine).
Efficacité des modèles de fondation : L'étude démontre que les modèles de vision fondation (comme RADIO) peuvent être adaptés avec très peu de données d'entraînement (350 images annotées) pour des tâches robotiques complexes, offrant une généralisation robuste.
Impact : Ce travail ouvre la voie à des robots capables de raisonner de manière "humaine" (préférer un chemin visible et sûr plutôt que de suivre aveuglément une direction) tout en maintenant une sécurité géométrique stricte, essentiel pour les missions de recherche et sauvetage ou d'inspection en milieu hostile.

Les limitations identifiées incluent des comportements oscillatoires dans des environnements très complexes et l'absence de mémoire des caractéristiques visuelles pour la recherche rétrospective, ouvrant la voie à des travaux futurs sur la mémoire visuelle et l'intégration plus fine de la traversabilité.