From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous devez trouver un objet précis (par exemple, une bouilloire) dans une maison que vous ne connaissez pas du tout, et que vous ne pouvez pas voir l'ensemble de la maison d'un seul coup. Vous devez avancer pièce par pièce, ouvrir des portes et regarder autour de vous.

C'est exactement le défi que relève ce papier de recherche. Voici une explication simple de leur solution, en utilisant des analogies du quotidien.

1. Le Problème : Le Robot "Amnésique" et le Robot "Tête-à-Tête"

Avant cette recherche, il existait deux façons principales pour les robots de chercher des objets :

Le Robot "Aspirateur" (Exploration Géométrique) : Il se contente de dire : "Je vais partout où je n'ai pas encore été." C'est comme quelqu'un qui nettoie un sol en faisant des allers-retours systématiques. C'est efficace pour couvrir le terrain, mais très bête : il ira chercher une bouilloire dans une salle de bain juste parce qu'il n'avait pas encore nettoyé ce coin, même si c'est absurde. Il manque de "bon sens".
Le Robot "Réactif" (IA basée sur le langage) : C'est un robot très intelligent qui peut parler, mais qui a une mémoire très courte. Il regarde ce qu'il voit maintenant et décide de la prochaine action. C'est comme un touriste qui regarde une carte une seconde, puis la range et se demande : "Où suis-je ?". Il a tendance à tourner en rond, à revisiter les mêmes endroits et à oublier qu'il a déjà cherché dans le salon.

Le résultat ? Soit le robot est lent et bête, soit il est intelligent mais perd son chemin.

2. La Solution : Le "Cerveau" avec une "Carte Mentale"

Les auteurs proposent une troisième voie : transformer le robot en un explorateur avec une carte mentale. Ils appellent cela passer de l'IA "réactive" à l'IA "basée sur une carte".

Voici comment cela fonctionne, étape par étape :

A. La Carte n'est pas faite de murs, mais d'objets

Au lieu de diviser la maison en "cuisine", "salon" ou "chambre" (ce qui est rigide), le robot définit les zones par les objets qu'il y trouve.

Analogie : Imaginez que vous ne savez pas où vous êtes, mais vous voyez un lit, une table de nuit et une lampe. Votre cerveau dit immédiatement : "Ah, c'est une chambre à coucher".
Le robot fait pareil. S'il voit un four et un réfrigérateur, il sait qu'il est dans une "zone cuisine". S'il voit un canapé et une télé, c'est une "zone salon".

B. Le "Super-Cerveau" (L'IA) qui apprend

Le robot utilise un modèle d'intelligence artificielle (une version améliorée de Llama-2) qui a été "entraîné" spécifiquement pour comprendre la logique des maisons.

L'analogie du détective : Imaginez un détective privé qui a lu tous les romans policiers. Si vous lui dites "J'ai trouvé un four et un évier", il ne vous dira pas juste "c'est une cuisine". Il vous dira : "Il y a 90 % de chances que la bouilloire soit ici, car les bouilloires sont souvent près des fours".
Grâce à cette IA, le robot ne cherche pas au hasard. Il sait où probablement se trouver l'objet.

C. La Stratégie de Chasse

Une fois que le robot a sa carte mentale (un graphe de zones connectées) et ses probabilités :

Il ne va pas n'importe où. Il choisit d'abord les zones les plus prometteuses (ex: aller dans la "zone cuisine" avant la "zone salle de bain").
À l'intérieur d'une zone, il utilise un algorithme mathématique (comme le problème du "Voyageur de Commerce") pour trouver le chemin le plus court pour tout voir sans se répéter. C'est comme si vous organisiez votre course au supermarché pour ne jamais faire demi-tour inutilement.

3. Le Résultat : Plus rapide et plus malin

Dans leurs tests (simulés dans un monde virtuel réaliste), ce nouveau système a été bien meilleur que les anciennes méthodes :

Moins de temps perdu : Le robot ne tourne pas en rond.
Plus de succès : Il trouve l'objet beaucoup plus souvent.
Plus d'efficacité : Il parcourt moins de distance pour trouver la même chose.

En résumé

Imaginez que vous cherchez vos clés dans une maison inconnue.

L'ancien robot fouillerait chaque tiroir de chaque pièce, une par une, sans logique.
L'ancien robot "intelligent" regarderait la pièce actuelle, dirait "Peut-être ici", puis oublierait qu'il a déjà cherché dans le tiroir d'à côté.
Le nouveau robot (ce papier) se dit : "Je vois un four, donc je suis dans la cuisine. Les clés sont souvent sur un comptoir de cuisine. Je vais d'abord fouiller méthodiquement tous les comptoirs de cette pièce, puis je passerai à la salle à manger si je ne les trouve pas."

C'est cette combinaison entre la mémoire de la carte (où suis-je ?) et le bon sens de l'IA (où est-ce que ça a du sens d'être ?) qui rend le robot si efficace.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Motivation

La Navigation vers un Objet (Object-Goal Navigation ou ObjectNav) consiste à faire naviguer un agent robotique dans un environnement intérieur inconnu pour localiser et atteindre un objet cible spécifique (par exemple, trouver une bouilloire).

Les approches actuelles souffrent de deux limitations majeures :

Exploration géométrique traditionnelle : Les méthodes basées sur les fronts (frontier exploration) ou l'apprentissage par renforcement (DRL) sont efficaces pour couvrir l'espace mais manquent de « bon sens » sémantique. Elles ignorent les corrélations fonctionnelles (ex: une bouilloire est plus susceptible d'être dans une zone avec un fourneau) et peuvent explorer des zones sans pertinence, augmentant la longueur du trajet.
Agents LLM réactifs : Les agents utilisant de grands modèles de langage (LLM) offrent un raisonnement zéro-shot, mais opèrent souvent dans un paradigme réactif. Ils prennent des décisions basées uniquement sur l'observation immédiate, sans mémoire spatiale explicite. Cela conduit à des comportements myopes, des boucles locales et une exploration redondante.

Le défi central est de combiner le raisonnement sémantique de haut niveau des LLM avec une mémoire spatiale structurée pour éviter l'exploration aveugle tout en maintenant une cohérence à long terme.

2. Méthodologie Proposée

Les auteurs proposent une transition vers une « IA basée sur des cartes » (Map-Based AI) intégrant un LLM local ajusté et un système de cartographie hybride.

A. Architecture du Système

Le système est découpé en deux modules principaux communiquant de manière asynchrone :

Module d'Interaction Environnementale (EIM) : Gère les tâches de bas niveau (contrôle du robot, scans panoramiques 360°, filtrage des données visuelles).
Module de Prise de Décision (DMM) : Gère les tâches cognitives de haut niveau (inférence sémantique, maintenance de la carte hybride, planification de chemin).

B. Inférence de Zones Sémantiques (Cœur de l'innovation)

Au lieu de définir les lieux par des étiquettes architecturales (ex: "cuisine"), le système définit une « Zone » par l'ensemble des objets observés qui la composent.

Modèle LLM Ajusté (LoRA) : Un modèle Llama-2-7b-chat est finement ajusté via Low-Rank Adaptation (LoRA) sur des données de co-occurrence d'objets dans l'environnement AI2-THOR.
Processus d'inférence : Le DMM verbalise la liste des objets détectés et demande au LLM de prédire :
1. La catégorie de la zone (ex: "Zone Cuisine").
2. La probabilité de présence de la cible ( $P_{target}$ ) dans cette zone.
Filtrage : Les objets sont filtrés selon des contraintes spatiales (distance < 1,5m) et visuelles (taille > 400 pixels) avant d'être intégrés à la carte.

C. Cartographie Hybride Topologique-Grille

Le système utilise une double couche de représentation :

Couche Métrique (Grille d'Occupation) : Utilisée pour l'évitement d'obstacles et la planification locale (algorithme A*).
Couche Topologique (Graphe Sémantique) : L'environnement est représenté comme un graphe $G=(V, E)$ $G = (V, E)$ où :
- Les nœuds ( $V$ ) sont des zones sémantiques définies par leurs clusters d'objets.
- Les arêtes ( $E$ ) sont les connexions navigables entre les zones.
- Un gestionnaire d'objets relie les coordonnées 3D métriques aux ID de zones topologiques.

D. Stratégie d'Exploration

Sélection de Frontières Sémantiques : Au lieu de choisir la frontière géométrique la plus proche, le système attribue un poids $W(f_i)$ à chaque frontière en fonction de la distance et de la probabilité de présence de la cible ( $P_{target}$ ) inférée par le LLM pour la zone adjacente.
Planification de Trajet (TSP) : Une fois une zone cible sélectionnée, le robot résout un Problème du Voyageur de Commerce (TSP) local pour optimiser l'ordre de visite des points de scan, minimisant ainsi les déplacements redondants.
Machine à États : Le système alterne entre exploration locale (dans une zone), navigation inter-zones (vers un nœud voisin plus prometteur) et vérification de l'objet.

3. Contributions Clés

Inférence de Zones par LLM Ajusté : Introduction d'une méthode utilisant un Llama-2 ajusté en LoRA pour déduire des catégories de zones et des probabilités de cibles à partir d'observations d'objets, surpassant les modèles zéro-shot.
Cartographie Hybride : Implémentation d'un système dual (Grille + Topologie) qui permet une planification de haut niveau basée sur le contexte sémantique plutôt que sur de simples coordonnées géométriques.
Validation Empirique : Démonstration que l'approche « Map-Based » surpasse significativement l'exploration par frontières classiques et les agents LLM réactifs dans le simulateur AI2-THOR.

4. Résultats Expérimentaux

Les tests ont été réalisés dans l'environnement AI2-THOR sur 20 scènes variées (cuisine, salon, chambre, salle de bain) avec des objets cibles typiques.

Métriques de Performance :
- Taux de Réussite (SR) : La méthode proposée atteint 85 %, contre 40 % pour l'agent LLM réactif.
- Succès pondéré par la Longueur du Chemin (SPL) : La méthode atteint 0,52, surpassant l'exploration par frontières standard (0,31) et l'agent réactif.
- Distance Totale : Réduction de 30 % de la distance parcourue par rapport aux agents réactifs grâce à l'élagage des zones à faible probabilité.
Étude Ablative (Impact du LoRA) :
- Le modèle ajusté en LoRA a atteint 92 % de précision dans l'identification des zones sémantiques, tandis que le modèle zéro-shot (Llama-2 standard) échouait souvent en raison d'une méconnaissance des agencements spécifiques d'objets dans AI2-THOR.

5. Signification et Conclusion

Ce travail marque une avancée significative en robotique de service en démontrant que l'intégration d'un raisonnement sémantique contextuel (via LLM ajusté) dans une mémoire spatiale structurée (carte topologique) résout le compromis entre l'efficacité de l'exploration et la cohérence à long terme.

Avantage Principal : Le passage d'une logique réactive (observation $\to$ action) à une logique basée sur la carte (observation $\to$ mise à jour de la carte sémantique $\to$ planification globale) élimine les comportements redondants et myopes.
Définition de la Zone : La redéfinition d'une « zone » non pas par des murs, mais par un cluster fonctionnel d'objets, offre un signal sémantique plus robuste pour la navigation vers un objet.
Perspectives Futures : Les auteurs prévoient d'étendre ce cadre aux environnements dynamiques (obstacles mobiles, humains), à la collaboration multi-robots et à l'intégration de modalités multimodales (son, contexte visuel plus riche) pour affiner le raisonnement.

En résumé, cette approche transforme la navigation robotique en un processus de planification sémantique proactive, permettant aux agents de naviguer avec une efficacité proche de celle d'un humain possédant un bon sens spatial et fonctionnel.