OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : Le GPS qui ne comprend pas les "nuances"

Imaginez que vous conduisez une voiture autonome dans un désert ou une forêt. Pour se déplacer, la voiture a besoin d'une carte des coûts (un "costmap"). C'est comme une carte de chaleur :

Les zones rouges sont dangereuses (à éviter).
Les zones vertes sont sûres (à emprunter).

Le problème, c'est que les cartes actuelles sont rigides. Elles sont faites à l'avance avec des catégories fixes : "Route", "Herbe", "Bâtiment". Si vous dites à la voiture : "Je préfère l'herbe, sauf si elle touche un bâtiment, et évite absolument la rivière", la voiture traditionnelle est perdue. Elle ne comprend pas cette logique complexe ni les nouvelles situations (comme un champ de baseball ou une tour électrique qu'elle n'a jamais vues).

C'est comme si vous donniez un itinéraire à un GPS qui ne connaît que les noms de rues, mais qui ne comprend pas si vous voulez éviter les embouteillages ou les zones de travaux.

🚀 La Solution : OVERSEEC, le "Chef de Cuisine" de la carte

Les chercheurs ont créé OVERSEEC. Imaginez-le comme un chef de cuisine ultra-intelligent qui prépare un repas (la carte de navigation) sur mesure, en temps réel, en écoutant vos instructions.

Au lieu d'avoir une carte fixe, OVERSEEC construit la carte à la volée en suivant trois étapes magiques, comme une équipe de trois experts qui travaillent ensemble :

1. L'Interprète (Le Chef qui écoute) 🗣️

C'est un grand modèle de langage (comme un Chatbot très avancé).

Son rôle : Il écoute votre phrase naturelle. Si vous dites "Évite la rivière, mais passe sur les sentiers", il ne cherche pas juste le mot "rivière". Il comprend la logique : "La rivière = Danger", "Sentier = Bon", "Mais attention aux bords".
L'analogie : C'est comme un serveur de restaurant qui note vos préférences alimentaires complexes ("Je veux du poisson, mais pas de sauce pimentée, et pas de légumes verts") et les transmet à la cuisine.

2. Le Détective (Le Chasseur d'images) 🔍

Une fois que l'Interprète a listé les éléments à chercher (rivière, sentier, tour électrique), le Détective se met au travail.

Son rôle : Il regarde la photo satellite haute définition et cherche ces éléments précis, même s'ils sont nouveaux ou étranges. Il utilise une technologie appelée "segmentation open-vocabulary" (qui signifie qu'il peut reconnaître n'importe quoi, pas seulement ce qu'on lui a appris).
L'analogie : Imaginez un détective qui reçoit une description de suspect ("Un homme en manteau rouge près d'un arbre") et qui scanne une ville entière pour trouver exactement cette personne, même si le manteau rouge n'est pas dans son fichier habituel.

3. Le Compositeur (Le Cuisinier qui assemble) 🎨

C'est à nouveau l'IA de langage, mais cette fois-ci, elle agit comme un programmeur.

Son rôle : Elle prend les zones trouvées par le Détective et les instructions de l'Interprète pour écrire un petit code informatique. Ce code dit : "Si c'est une rivière, mets le coût à 100 (très cher). Si c'est un sentier, mets le coût à 1 (pas cher). Si c'est de l'herbe près d'un bâtiment, mets le coût à 50."
L'analogie : C'est comme assembler un puzzle. Le Détective a fourni les pièces (les formes de la rivière et du sentier), et le Compositeur les assemble selon vos règles pour créer l'image finale parfaite.

🎯 Pourquoi c'est génial ? (Les Avantages)

Zéro entraînement (Zero-Shot) : Vous n'avez pas besoin de montrer des milliers de photos de "tours électriques" à la voiture pour qu'elle les apprenne. Si vous lui dites "Évite la tour", elle la trouve et l'évite immédiatement, même si elle n'en a jamais vu une de sa vie.
Flexibilité totale : Vous pouvez changer d'avis en une seconde. "Ah non, en fait, la rivière est à sec, on peut passer dessus." Vous le dites, et la carte se met à jour instantanément. Pas besoin de reprogrammer la voiture.
Logique humaine : La voiture comprend les nuances. Elle sait qu'on peut marcher sur l'herbe, mais pas si elle est collée à un mur. C'est une logique que les robots classiques ne savent pas faire.

🛠️ L'Interface : Votre tableau de bord personnel

Les chercheurs ont aussi créé une interface graphique (un petit logiciel avec des boutons).

Vous uploadez une photo satellite.
Vous tapez votre phrase en langage naturel.
En quelques minutes, vous voyez la carte se colorer et le chemin idéal se dessiner.
C'est comme si vous dessiniez votre propre itinéraire avec un stylo magique, mais en utilisant des mots.

🏁 En résumé

OVERSEEC est une révolution pour la navigation autonome hors des routes. Au lieu de forcer la voiture à suivre des règles rigides et pré-enregistrées, il lui donne la capacité de comprendre le langage humain, de repérer n'importe quel objet sur une photo satellite, et de créer sa propre carte de navigation adaptée à la mission précise du moment.

C'est passer d'un robot qui suit un manuel d'instructions à un robot qui comprend vos désirs et s'adapte à l'environnement comme un humain le ferait.

Each language version is independently generated for its own context, not a direct translation.

Titre : OVERSEEC : Génération de cartes de coûts à vocabulaire ouvert à partir d'images satellites et de langage naturel

1. Problématique

La planification de trajectoires à longue portée pour les véhicules autonomes terrestres (AGV) en environnements hors route nécessite la conversion d'images aériennes haute résolution en cartes de coûts (costmaps) exploitables par les planificateurs. Les approches traditionnelles souffrent de deux limitations majeures :

Ontologies fixes : Les modèles de perception classiques sont entraînés sur un ensemble de classes prédéfini (routes, bâtiments, etc.) et ne peuvent pas reconnaître de nouvelles entités de terrain inconnues au moment du déploiement.
Manque de flexibilité des règles : Les règles de traversée sont souvent codées en dur. Elles ne peuvent pas s'adapter à des préférences utilisateurs complexes et compositionnelles exprimées en langage naturel (ex: "Préférer l'herbe sauf si elle borde un bâtiment" ou "Éviter les rivières").

L'objectif est de générer une carte de coûts scalaire $C$ à partir d'une image satellite $I$ et d'une invite textuelle $P$ (prompt), sans nécessiter d'entraînement spécifique ni de règles manuelles préétablies.

2. Méthodologie : L'Architecture OVERSEEC

OVERSEEC est un cadre modulaire "zero-shot" (sans apprentissage spécifique) qui décompose le problème en trois étapes séquentielles : Interpréter – Localiser – Synthétiser.

A. Identification des Entités (Interpréter)

Un Grand Modèle de Langage (LLM) (Gemma-2-27b-it) analyse l'invite utilisateur en langage naturel.
Il extrait la liste des classes sémantiques pertinentes ( $C$ ) et les catégorise selon leur géométrie (linéaire comme une route, ou surfacique comme un champ).
Cette distinction est cruciale pour l'étape suivante, car les seuils de binarisation nécessaires pour segmenter des lignes fines diffèrent de ceux pour des zones larges.

B. Génération de Masques à Vocabulaire Ouvert (Localiser)
Ce module traite l'image satellite haute résolution en utilisant une approche par "tuiles" (tiling) pour contourner les limites de taille d'entrée des modèles de vision. Il comporte deux sous-étapes :

Segmentation Sémantique à Vocabulaire Ouvert : Utilisation du modèle CLIPSeg (Language-Grounded Semantic Segmentation Model). Il génère des cartes de probabilités initiales pour chaque classe demandée sur des tuiles d'image. Les cartes sont ensuite assemblées pour couvrir l'image entière.
Raffinement des Masques : Les masques bruts de CLIPSeg sont souvent imprécis. Un modèle de segmentation basé sur des prompts spatiaux, SAMRefiner (une variante de Segment Anything Model), affine ces masques. Il utilise le masque brut comme "prior spatial" pour produire des contours nets et une connectivité améliorée, générant ainsi des masques binaires raffinés ( $\hat{M}_c$ ) et des cartes de probabilités seuillées ( $\hat{P}^\tau_c$ ).

C. Composition de la Fonction de Coût (Synthétiser)

Un LLM synthétise dynamiquement une fonction de code exécutable ( $f_{LLM}$ ) en Python.
Cette fonction prend en entrée les masques et les préférences de l'utilisateur. Elle intègre des opérateurs logiques (ET, OU, NON), des hiérarchies sémantiques (ex: "terrain de baseball" est un sous-ensemble de "herbe") et des règles géométriques (ex: "près de la route").
La fonction calcule un coût par pixel en pondérant les masques selon les préférences (un poids plus faible indique une préférence plus forte) et normalise le résultat final dans l'intervalle $[0, 1]$ .

3. Contributions Clés

Pipeline de perception zero-shot : Une méthode capable de segmenter des classes de terrain arbitraires et nouvelles sur des images satellites haute résolution, en préservant la résolution native grâce à l'approche par tuiles.
Génération de code par LLM : Démonstration qu'un LLM peut interpréter des règles de traversée complexes et générer une fonction de coût exécutable, permettant une adaptation immédiate aux instructions naturelles.
Interface utilisateur (GUI) : Développement d'une interface permettant aux opérateurs de modifier les entités ou les préférences en langage naturel et d'obtenir une nouvelle carte de coûts en quelques minutes, sans réentraînement.
Nouvelle métrique d'évaluation (RRPI) : Introduction du Ranked Regret Path Integral (RRPI), une métrique qui quantifie l'alignement entre le chemin planifié et les préférences hiérarchisées de l'utilisateur (basé sur un classement des classes de terrain).

4. Résultats Expérimentaux

Les expériences ont été menées sur des jeux de données contenant des régions en distribution (ID), hors distribution (OOD) et hors distribution avec vocabulaire ouvert (OOD-OV).

Alignement et Performance (RQ1) : OVERSEEC surpasse les méthodes de base à ontologie fixe (SegFormer, DINO-UNet) en termes de score RRPI et de longueur de trajectoire. Il produit des trajectoires dont la distance de Hausdorff par rapport aux trajectoires dessinées par des humains est significativement plus faible, prouvant une meilleure compréhension de l'intention humaine.
Généralisation aux nouvelles classes (RQ2) : Dans les scénarios OOD-OV (ex: éviter un "téléphérique" ou un "terrain de baseball" non vu durant l'entraînement), les modèles supervisés échouent car ils ne reconnaissent pas ces entités. OVERSEEC les identifie correctement et ajuste la carte de coûts en conséquence.
Robustesse aux décalages de distribution (RQ3) : OVERSEEC maintient une haute précision de segmentation (IoU) même lorsque les conditions visuelles changent (météo, éclairage, région géographique), grâce à l'utilisation de modèles de fondation (Foundation Models) pré-entraînés sur des données massives et diversifiées.
Analyse qualitative : Les cartes générées respectent les règles géométriques fines (ex: rester au centre de la route vs sur le bord), ce que les approches traditionnelles ne peuvent pas faire.

5. Signification et Impact

OVERSEEC représente une avancée majeure pour la navigation robotique autonome en milieux non structurés. En combinant la puissance sémantique des LLMs et la capacité de perception visuelle des modèles de fondation (VLMs) dans une architecture modulaire neuro-symbolique, le système permet :

Une adaptabilité immédiate aux nouvelles missions sans collecte de données ni réentraînement.
Une interprétabilité accrue, car chaque étape (identification, segmentation, logique de coût) est transparente et débogable.
Une interaction homme-machine naturelle, permettant aux opérateurs de définir des règles de mission complexes simplement en parlant à la machine.

Ce travail valide l'hypothèse que la composition modulaire de modèles pré-entraînés à grande échelle peut résoudre des problèmes de planification globale complexes, rendant les systèmes autonomes plus robustes et plus faciles à déployer dans des environnements réels et imprévisibles.