MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

本論文は、ロボット操作とナビゲーションの大規模ベンチマークを可能にするため、23 万を超える多様な室内環境と 13 万の物体アセットを備え、シミュレータに依存しないオープンエコシステム「MolmoSpaces」と、高い実世界との相関を持つ評価ベンチマーク「MolmoSpaces-Bench」を提案するものです。

Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

公開日 2026-02-20
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ロボットが現実世界で失敗しないようにするための、巨大な『練習用シミュレーター』と『テスト場』」**を作ったという画期的な研究について書かれています。

タイトルは**「MolmoSpaces(モルモスペースズ)」**です。

これを理解するために、いくつかの身近な例えを使って説明しましょう。

1. 問題:ロボットは「長尾(ロングテール)」に弱い

まず、ロボットを「新しい料理を作るのが得意な料理人」だと思ってください。
今のロボットは、レシピ通りに「卵を割る」「フライパンを振る」といった基本的な動きは上手です。しかし、現実世界には**「予想外の出来事」**が無限にあります。

  • 冷蔵庫のドアが少し歪んでいて開きにくい。
  • 床に落ちたスプーンが、いつもと違う角度で光っている。
  • 「コーヒーを淹れて」と言われたのに、お茶碗が置かれている。

これらは「長尾(ロングテール)」と呼ばれる、めったに起こらないけれど、一度起きるとロボットがパニックになるような状況です。これまでのロボット研究は、「よくある 10 通りのパターン」しか練習していませんでした。 それでは、現実の複雑な世界ではすぐに失敗してしまいます。

2. 解決策:MolmoSpaces(モルモスペースズ)とは?

そこで研究者たちは、**「現実世界のあらゆるバリエーションを、コンピュータの中で 100% 再現できる巨大な練習場」**を作りました。これが MolmoSpaces です。

  • 23 万 個以上の部屋:
    これまで作られたシミュレーターは、部屋が数十個程度でした。しかし MolmoSpaces は、**「23 万 個」**もの異なる部屋(キッチン、リビング、美術館、カフェなど)を持っています。まるで、世界中のあらゆる家や建物をコピーして、デジタル空間に並べたようなものです。
  • 13 万 個以上のアイテム:
    部屋の中には、13 万 個以上の「物」が置かれています。コップ、本、ドア、冷蔵庫など、形や大きさ、素材がバラバラです。
  • 4200 万 回以上の「掴み」のデータ:
    ロボットが「物を掴む」練習をする際、どの角度から掴めば滑らないか、というデータが4200 万 回分も準備されています。これは、ロボットが「失敗しない掴み方」を瞬時に学べるようにするための「正解の教科書」のようなものです。

3. なぜこれがすごいのか?(3 つのポイント)

① 「現実とリンクする」練習場

多くのシミュレーターは、物理法則が甘く、「現実では無理な動き」もできてしまいます。しかし、MolmoSpaces は**「物理エンジン(MuJoCo や Isaac など)」**という、現実の重力や摩擦を厳密に計算する仕組みを使っています。
**「ここで成功すれば、現実に持ち込んでも成功する」という高い信頼性(96% の相関)を持っています。つまり、「シミュレーターで 100 点取れたら、現実は 100 点」**と言えるほど、練習と本番がリンクしています。

② 「ゼロショット」でテストできる

「ゼロショット」とは、**「特定の課題のために特別に練習させずに、いきなりテストする」**ということです。
例えば、ロボットに「新しい種類の花瓶」を渡して、「これを棚に置いて」と言います。ロボットはその花瓶を見たことがなくても、MolmoSpaces で学んだ「物の掴み方」や「空間の理解力」を応用して、初めて見る物でも作業ができるかどうかが測れます。これが、本当に「賢い(汎用的な)ロボット」かどうかのテストになります。

③ 「失敗」を見つけるのが得意

このシステムを使えば、**「どんな条件でロボットが失敗するか」**を徹底的に探せます。

  • 「照明が暗いと失敗する?」
  • 「カメラの角度が変わると失敗する?」
  • 「指示の言い方が少し違うと失敗する?」
    これらをコンピュータ上で何千回も変えてテストできるので、「ロボットが弱い部分」を特定し、それを強化することができます。

4. 具体的なテスト(MolmoSpaces-Bench)

研究者たちは、この練習場を使って、8 つの基本的なタスクでロボットをテストしました。

  • 「あのコップまで行って」
  • 「コップを掴んで」
  • 「コップをテーブルに置く」
  • 「冷蔵庫を開ける」
  • 「ドアを開ける」

最新の AI ロボット(VLA モデルなど)をテストしたところ、「指示の言い方」や「ロボットの初期位置」だけで、成功率が激変することがわかりました。これは、ロボットがまだ「完全に賢い」わけではないという重要な発見でした。

まとめ

MolmoSpaces は、**「ロボットが現実世界で失敗しないようにするための、究極の練習場とテスト場」**です。

  • 以前: 限られた部屋で、限られた物で練習していた。
  • 今: 23 万 個の部屋と 13 万 個の物で、現実そっくりな環境で練習できる。

これにより、研究者たちは「ロボットが本当に賢くなったか」を正しく測ることができ、より頑丈で、どんな家でも活躍できる「万能ロボット」の実現に大きく近づきました。

まるで、**「ロボットが現実世界で活躍するための、広大なテーマパークと、そこで行われる厳格なオリンピック」**のようなものだと考えてください。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →