MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Le papier présente MANSION, le premier cadre de génération d'environnements 3D multi-étages à l'échelle d'un bâtiment piloté par le langage, ainsi que MansionWorld, un jeu de données de plus de 1 000 bâtiments diversifiés conçu pour évaluer et améliorer les capacités de raisonnement spatial et de planification à long horizon des agents robotiques.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su

Publié 2026-03-13
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🏰 MANSION : Le Grand Architecte Robotique

Imaginez que vous voulez construire une ville entière pour des robots, pas juste une petite chambre. Vous voulez que ces robots puissent livrer un colis du rez-de-chaussée au 4ème étage d'un hôpital, ou ranger des jouets dans une maison de plusieurs niveaux.

Le problème ? Les robots actuels sont comme des enfants qui apprennent à marcher dans un couloir étroit. Ils savent faire des tâches simples, mais dès qu'on leur demande de gérer un grand immeuble avec des ascenseurs, des escaliers et des pièces sur plusieurs étages, ils se perdent ou tombent en panne.

MANSION (Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks) est la solution. C'est un nouveau système qui permet de construire des immeubles entiers en 3D simplement en parlant, et de tester des robots dans ces environnements complexes.


🗣️ 1. Parler pour construire (Le Magicien des Mots)

Jusqu'à présent, pour créer un environnement de test pour un robot, il fallait des mois de travail manuel ou des scans de vrais bâtiments (ce qui est cher et rigide).

Avec MANSION, c'est comme si vous aviez un architecte génie qui parle votre langue.

  • L'idée : Vous lui dites : "Construis-moi un hôpital de 3 étages avec une salle d'urgence au rez-de-chaussée et des chambres à l'étage."
  • La magie : Le système ne se contente pas de dessiner un plan. Il comprend la structure verticale (les escaliers, les ascenseurs) et crée un bâtiment entier, pièce par pièce, prêt à être habité par un robot.

L'analogie : C'est comme si vous donniez une recette de cuisine à un robot chef. Au lieu de lui donner un plat déjà fait, il cuisine tout le repas, de l'achat des ingrédients à la présentation, en respectant les règles de la cuisine (on ne met pas le poisson dans le four à micro-ondes !).

🧱 2. Le "MansionsWorld" : Une boîte à jouets infinie

Les chercheurs ont créé un immense jeu de construction appelé MansionWorld.

  • C'est une bibliothèque de plus de 1 000 bâtiments différents : des écoles, des supermarchés, des bureaux, des maisons.
  • Chaque bâtiment est unique. Vous pouvez demander un bureau avec 10 étages ou un petit appartement avec un sous-sol.
  • Le plus important : Tout est connecté. Les robots peuvent vraiment monter et descendre les étages grâce à des ascenseurs et des escaliers virtuels qui fonctionnent parfaitement.

L'analogie : Imaginez un parc d'attractions géant où vous pouvez changer la configuration des montagnes russes à la volée. Aujourd'hui, c'est un château hanté, demain un centre commercial, et après-demain un hôpital. Le robot doit s'adapter à chaque changement.

🛠️ 3. Le "Jardinier" de la scène (L'Agent d'Édition)

Parfois, le bâtiment est prêt, mais il manque un détail pour la tâche du robot. Par exemple, le robot doit aller chercher un médicament, mais il n'y a pas de médicament dans l'armoire.

C'est là qu'intervient l'Agent d'Édition Sémantique.

  • C'est comme un jardinier intelligent. Si vous lui dites : "Il faut qu'il y ait un soda dans le frigo pour que le robot puisse le prendre", il va ouvrir le frigo virtuel, y placer le soda, et fermer la porte.
  • Il ne reconstruit pas tout le bâtiment, il fait juste les petits ajustements nécessaires pour que la mission soit possible.

L'analogie : C'est comme si vous jouiez à un jeu vidéo et que vous vous rendiez compte qu'il manque une clé pour ouvrir une porte. Au lieu de recommencer le niveau, un assistant apparaît, dépose la clé sur la table, et vous continuez votre partie.

🤖 4. Pourquoi c'est un défi de taille ?

Le papier montre que même les robots les plus intelligents d'aujourd'hui ont du mal dans ces nouveaux environnements.

  • Le problème : Un robot peut être excellent pour trouver un objet dans une cuisine, mais s'il doit se souvenir qu'il est au 3ème étage, qu'il doit prendre l'ascenseur, puis chercher l'objet dans un couloir différent, il se perd.
  • Le résultat : Les tests montrent que les robots actuels échouent souvent dans ces bâtiments complexes. C'est une bonne nouvelle ! Cela signifie que MANSION est un excellent terrain d'entraînement pour créer la prochaine génération de robots intelligents.

🌟 En résumé

MANSION est comme un studio de cinéma pour robots.

  1. Il construit des décors immenses (des immeubles entiers) à partir de simples phrases.
  2. Il permet de modifier le décor en temps réel pour créer des missions spécifiques.
  3. Il force les robots à apprendre à penser comme des humains : à se repérer dans l'espace, à utiliser les moyens de transport (ascenseurs) et à planifier de longues missions.

C'est un pas de géant pour rendre les robots capables de nous aider dans la vraie vie, où les tâches ne se limitent pas à une seule pièce, mais s'étendent sur plusieurs étages et plusieurs heures.