Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Dilemme du Chef de Cuisine Robotique

Imaginez que vous devez organiser un grand dîner avec une équipe de robots. Votre mission est complexe : « Prenez la pomme, mettez-la au frigo, puis éteignez la lumière. »

Le problème, c'est que votre cuisine est remplie de centaines d'objets : des tomates, des casseroles, des éponges, des toasters, des couteaux, etc.

Si vous demandez à un robot (ou à une intelligence artificielle) de planifier cette tâche en regardant tous ces objets en même temps, cela devient un cauchemar. C'est comme essayer de trouver une aiguille dans une botte de foin, mais la botte de foin est gigantesque et l'aiguille bouge.

Le robot va se perdre.
Il va essayer d'attraper une tomate (qui ne sert à rien).
Il va halluciner des objets qui n'existent pas.
Il va planter parce qu'il a trop d'informations à traiter.

C'est exactement le problème que les robots rencontrent aujourd'hui dans les maisons réelles : trop de bruit, pas assez de clarté.

💡 La Solution : Scale-Plan (Le "Filtre Magique")

Les auteurs de cet article ont créé un système appelé Scale-Plan. Pour faire simple, imaginez que Scale-Plan est un chef d'orchestre très intelligent qui porte des lunettes spéciales.

Voici comment il fonctionne, étape par étape, avec une analogie simple :

1. La Carte au Trésor (Le "Graphique d'Action")

Avant même de commencer, le système a étudié un manuel d'instructions (appelé PDDL) qui explique comment les robots fonctionnent. Il a dessiné une carte des liens logiques.

Analogie : C'est comme un schéma de métro. Il sait que pour aller de la station "Prendre l'objet" à la station "Mettre au frigo", il faut passer par "Ouvrir la porte". Il ne se soucie pas encore de quels objets sont dans la cuisine, juste de comment les robots bougent.

2. Le Filtre Intelligent (L'Étape Clé)

Quand on donne l'ordre « Mettez la pomme au frigo », Scale-Plan ne regarde pas toute la cuisine. Il utilise son "schéma de métro" pour dire :

« Attends, pour mettre une pomme au frigo, j'ai besoin de : la pomme, le frigo, et la capacité de "ouvrir". Je n'ai pas besoin de la tomate, du four à micro-ondes ou de la brosse à dents. »

Il filtre instantanément tout ce qui est inutile.

Résultat : Au lieu de gérer 100 objets, le robot ne voit plus que 3 ou 4 éléments essentiels. C'est comme passer d'une vision de 4K saturée de bruit à une photo nette et épurée.

3. La Répartition des Tâches

Une fois que le robot sait exactement ce qui est important, il divise le travail :

Le Robot 1 s'occupe de la pomme.
Le Robot 2 s'occupe de la lumière.
Ils travaillent en parallèle sans se marcher sur les pieds, car ils ne sont pas distraits par les objets inutiles.

🏆 Pourquoi c'est mieux que les autres ?

Les chercheurs ont comparé Scale-Plan à d'autres méthodes (comme utiliser une IA purement basée sur le langage, ou des méthodes classiques).

Les autres méthodes : Elles essaient de tout lire en même temps. C'est comme essayer de lire un roman entier pour trouver un mot précis. Elles font souvent des erreurs (hallucinations) et planifient des choses impossibles (ex: "Mets la pomme dans le frigo" alors que le frigo est fermé).
Scale-Plan : En éliminant le superflu, il est plus rapide, plus précis et ne se trompe presque jamais. Il réussit ses missions même quand la cuisine est en désordre total.

🧪 Le Nouveau Terrain de Jeu : MAT2-THOR

Pour prouver que leur système fonctionne, les auteurs ont aussi nettoyé un vieux jeu vidéo (AI2-THOR) pour créer un nouveau test appelé MAT2-THOR.

Analogie : C'est comme si les anciens examens de conduite avaient des questions floues ou des pièges injustes. Ils ont créé un nouvel examen, plus clair, pour voir vraiment qui est le meilleur conducteur.

🚀 En Résumé

Scale-Plan, c'est l'art de dire "Non" à l'information inutile.
Au lieu de donner à un robot une montagne de données, on lui donne juste la carte du chemin nécessaire. Cela permet à une équipe de robots hétérogènes (des robots différents travaillant ensemble) de résoudre des tâches complexes, longues et dangereuses, sans se noyer dans le bruit de l'environnement.

C'est la différence entre essayer de construire une maison en regardant toute la ville en même temps, et se concentrer uniquement sur les briques dont on a besoin pour le mur du salon.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La planification de tâches à long terme pour des systèmes multi-robots hétérogènes dans des environnements réels (comme les foyers ou les entrepôts) se heurte à deux défis majeurs :

Complexité combinatoire et bruit perceptuel : Les environnements réels contiennent une grande quantité d'informations sensorielles, dont la majorité est sans rapport avec l'objectif de la tâche. Inclure tous les objets détectés dans le processus de planification élargit excessivement l'espace de recherche, dégradant les performances.
Limites des approches actuelles :
- Les planificateurs symboliques traditionnels (basés sur PDDL) nécessitent des spécifications de problèmes manuelles et détaillées, ce qui manque d'évolutivité et d'adaptabilité.
- Les approches récentes utilisant les Grands Modèles de Langage (LLM) souffrent souvent d'hallucinations (génération d'objets ou d'actions inexistantes) et d'un mauvais ancrage (grounding) avec l'environnement réel, en particulier dans des scènes encombrées. Les LLM tendent à se concentrer sur des détails irrelevant, conduisant à des plans inapplicables.

2. Méthodologie : Scale-Plan

Scale-Plan est un cadre de planification assisté par LLM conçu pour générer des représentations de problèmes compactes et pertinentes pour la tâche, en filtrant l'information superflue avant la synthèse du plan. L'architecture se divise en deux composantes principales :

A. Construction et Recherche sur le Graph d'Actions (Offline & Runtime)

Graph d'Actions (Action Graph) : À partir d'une spécification de domaine PDDL, le système construit un graphe orienté où les nœuds représentent des schémas d'actions paramétrés et les arêtes encodent les dépendances logiques (préconditions et effets).
- Des règles strictes (si les effets de $a_1$ satisfont entièrement les préconditions de $a_2$ ) et relâchées (intersection partielle) sont utilisées pour maintenir la connectivité sans sur-densifier le graphe.
Filtrage de l'environnement (Runtime) :
1. Un raisonnement LLM « superficiel » propose un petit ensemble d'actions candidates pertinentes basées sur l'instruction naturelle.
2. Une recherche DFS (Depth-First Search) en arrière est effectuée sur le graphe d'actions pour identifier le sous-ensemble minimal d'actions et d'objets nécessaires pour satisfaire les préconditions des actions cibles.
3. Cela produit un environnement filtré contenant uniquement les objets et compétences pertinents, réduisant drastiquement la complexité combinatoire.

B. Pipeline de Planification Multi-Agent Structuré

Une fois l'information filtrée, un pipeline LLM structuré (sans génération explicite de fichier PDDL intermédiaire) exécute les étapes suivantes :

Décomposition de tâche : L'instruction globale est divisée en sous-tâches gérables.
Allocation des robots : Les sous-tâches sont attribuées aux robots hétérogènes en fonction de leurs capacités spécifiques et des contraintes opérationnelles, en cherchant à paralléliser l'exécution.
Intégration du plan : Les plans de sous-tâches sont combinés en une stratégie d'exécution cohérente, en respectant les dépendances séquentielles tout en permettant la concurrence.
Plan-to-Code : Le plan final est traduit en code exécutable pour le simulateur AI2-THOR.

3. Contributions Clés

Scale-Plan : Un cadre évolutif qui utilise un graphe d'actions dérivé de PDDL pour extraire uniquement les informations environnementales pertinentes, permettant des représentations de problèmes compactes.
Pipeline de planification LLM structuré : Une méthode qui décompose les instructions, alloue les robots et synthétise des plans exécutables sans passer par la génération d'un fichier de problème PDDL intermédiaire (évitant ainsi les erreurs de formatage et d'ancrage).
MAT2-THOR : Un nouveau benchmark nettoyé et standardisé, dérivé de MAT-THOR, conçu pour évaluer de manière fiable la planification multi-agent à long terme. Il corrige les incohérences, les doublons et les conditions de but manquantes du jeu de données original.

4. Résultats Expérimentaux

Les évaluations ont été menées sur le benchmark MAT2-THOR dans le simulateur AI2-THOR, comparant Scale-Plan à plusieurs baselines (LLM pur, LLM+PDDL, et LaMMA-P).

Performance globale : Scale-Plan surpasse toutes les méthodes de référence sur toutes les métriques (Taux de complétion de tâche - TCR, Rappel des conditions de but - GCR, Taux d'exécutabilité - ER).
- Par rapport à la meilleure baseline (LaMMA-P corrigé par LLM), Scale-Plan améliore le TCR de 25 % globalement, avec des gains allant jusqu'à 35 % sur les tâches complexes.
Étude d'ablation :
- La suppression du filtrage d'environnement (No-EF) entraîne une chute significative des performances, en particulier sur les tâches complexes (baisse de 15 points de TCR).
- L'utilisation d'un filtrage LLM simple (sans graphe d'actions) est moins efficace que l'approche basée sur le graphe, soulignant l'importance de la structure logique du domaine.
Temps de calcul : Bien que Scale-Plan prenne plus de temps de calcul que les approches LLM pures (en raison de multiples inférences pour la décomposition et l'allocation), ce compromis est justifié par une qualité de plan nettement supérieure et une robustesse accrue.

5. Signification et Limites

Signification :
Ce travail démontre que l'intégration de connaissances de domaine structurées (via le graphe d'actions PDDL) avec le raisonnement flexible des LLM est cruciale pour la planification multi-robot à long terme. L'approche résout le problème de l'« hallucination » et de la surcharge d'information en filtrant rigoureusement l'environnement avant la planification, rendant les systèmes plus fiables dans des environnements réels encombrés.

Limites et Travaux Futurs :

Ancrage environnemental : L'absence d'un ancrage symbolique direct avec l'état réel du simulateur peut encore mener à des hallucinations sur la localisation des objets.
Tâches vagues : Les instructions ambiguës peuvent entraîner un filtrage incorrect des objets pertinents.
Perspectives : Les auteurs prévoient d'intégrer des graphes de connaissances pour renforcer l'ancrage environnemental et développer des mécanismes de replanification pour récupérer automatiquement des échecs d'exécution.

En résumé, Scale-Plan propose une solution robuste pour passer de la planification théorique à l'exécution fiable de missions complexes par des équipes de robots hétérogènes.