MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Le papier présente MolmoSpaces, un écosystème ouvert à grande échelle comprenant plus de 230 000 environnements intérieurs diversifiés et des millions de données de préhension, conçu pour permettre le benchmarking robuste, la formation et la génération de données pour les politiques de navigation et de manipulation robotique.

Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

Publié 2026-02-20
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez apprendre à un robot à faire le ménage, cuisiner ou ranger votre maison. Le problème, c'est que le monde réel est chaotique. Les cuisines ne sont jamais identiques, les objets ont des formes bizarres, et les instructions que vous donnez peuvent varier à l'infini ("ranger la tasse" n'est pas la même chose que "mets la tasse sur l'étagère").

Jusqu'à présent, les chercheurs testaient ces robots dans des environnements très limités, un peu comme si on apprenait à nager uniquement dans une petite piscine carrée, puis on s'attendait à ce qu'ils survivent dans l'océan. Ça ne marche pas toujours.

C'est là qu'intervient MolmoSpaces.

🌍 Qu'est-ce que MolmoSpaces ? (La "Mega-Cité Virtuelle")

MolmoSpaces est une énorme ville virtuelle ouverte créée par des chercheurs (notamment de l'Institut Allen pour l'IA). C'est un écosystème complet conçu pour entraîner et tester des robots de manière massive.

Voici ses ingrédients principaux, expliqués simplement :

  1. Plus de 230 000 maisons différentes : Imaginez une bibliothèque infinie de maisons. Certaines sont faites main, d'autres sont générées par ordinateur. Il y a des cuisines, des salons, des musées, des cafés pour chats, etc. C'est comme si vous pouviez tester votre robot dans une maison à Paris, puis dans un appartement à Tokyo, puis dans une maison de campagne, le tout en une seconde.
  2. 130 000 objets riches : Dans ces maisons, il y a des millions d'objets : des tasses, des livres, des portes, des réfrigérateurs. Chaque objet a une "identité" (ce qu'il est) et une "physique" (son poids, sa texture, comment il bouge).
  3. 42 millions de poignées de main (Grasps) : C'est le secret. Pour qu'un robot prenne une tasse, il doit savoir la saisir. MolmoSpaces a calculé 42 millions de façons différentes de saisir ces objets pour qu'ils ne tombent pas. C'est comme avoir un manuel d'instructions pour chaque objet imaginable.

🤖 Comment ça marche ? (Le Terrain de Jeu)

Le génie de MolmoSpaces, c'est qu'il est neutre. Peu importe si vous utilisez un simulateur physique comme MuJoCo, Isaac ou ManiSkill, MolmoSpaces fonctionne partout. C'est comme un jeu vidéo compatible avec toutes les consoles (PlayStation, Xbox, PC).

Les chercheurs utilisent cet outil pour créer MolmoSpaces-Bench, un "examen final" pour les robots. Ils donnent au robot des tâches comme :

  • "Va chercher la tasse."
  • "Ouvre le frigo."
  • "Mets la pomme dans le bol."

Le robot doit réussir ces tâches sans avoir jamais vu ces maisons ou ces objets avant (c'est ce qu'on appelle le "zéro-shot"). C'est comme lui donner un examen surprise dans une maison qu'il ne connaît pas.

📊 Les Résultats : Le "Pont" entre le Virtuel et le Réel

Le plus impressionnant de cette étude, c'est la corrélation.
Les chercheurs ont comparé les résultats des robots dans cette simulation géante avec leurs performances dans le monde réel (avec de vrais robots physiques).

  • Le résultat : Il y a une correspondance presque parfaite (96 % de corrélation).
  • L'analogie : C'est comme si un pilote d'avion s'entraînait sur un simulateur de vol ultra-réaliste. S'il réussit bien sur le simulateur, il a 96 % de chances de réussir dans le vrai avion. Cela prouve que MolmoSpaces est un test fiable : on n'a plus besoin de construire des robots physiques coûteux pour chaque petit test.

🔍 Ce qu'on a appris (Les "Pépins")

En testant des robots intelligents (basés sur l'IA moderne) dans cet environnement, les chercheurs ont découvert des choses intéressantes :

  • La sensibilité aux mots : Si vous changez légèrement la phrase ("ranger la tasse" vs "mets la tasse"), certains robots échouent complètement. Ils sont trop rigides avec le langage.
  • La position de départ : Si le robot commence avec son bras légèrement décalé, certains échouent.
  • La vue : Si on cache la caméra du poignet du robot, il devient presque aveugle et échoue.

🚀 Pourquoi c'est important pour nous ?

MolmoSpaces est comme un accélérateur de développement.
Au lieu que chaque laboratoire construise sa propre petite maison virtuelle pour tester ses robots, tout le monde peut utiliser cette "Mega-Cité" gratuite et ouverte.

Cela permet de :

  1. Entraîner des robots plus robustes qui ne paniquent pas face à un désordre inattendu.
  2. Créer des robots généralistes capables de s'adapter à n'importe quelle maison, pas seulement à celle où ils ont été entraînés.
  3. Accélérer la recherche en évitant de perdre du temps et de l'argent avec des tests physiques lents et coûteux.

En résumé, MolmoSpaces est le terrain de jeu ultime pour apprendre aux robots à devenir de véritables assistants domestiques, capables de naviguer dans la complexité et la diversité de notre monde réel.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →