MEM: Multi-Scale Embodied Memory for Vision Language Action Models

本論文は、ビデオに基づく短期記憶とテキストに基づく長期記憶を組み合わせることで、15 分を超える長期的なタスクの実行や文脈に応じた適応的な操作戦略の構築を可能にする、ロボット制御のためのマルチスケール具現化記憶(MEM)を提案しています。

Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、ロボットに「記憶」を持たせるための新しい仕組み**「MEM(Multi-Scale Embodied Memory:多スケール具現化メモリ)」**について紹介しています。

一言で言うと、**「ロボットが長い時間かけて複雑な作業をするとき、ただの『写真』と『メモ帳』を上手に組み合わせて、忘れずに作業を完結させる技術」**です。

これを一般の方にもわかりやすく、いくつかの比喩を使って説明しますね。

1. ロボットが抱える「記憶の悩み」

これまでのロボットは、目の前の映像を見て「今、何をするか」を決めるのが得意でした。しかし、**「15 分もかけてキッチンを片付ける」「レシピ通りに料理を作る」**ような長い作業になると、ロボットはすぐに混乱してしまいます。

  • 悩み A(直近の記憶): 手が動いて視界を遮った瞬間、さっき持っていたお皿がどこにあったか忘れる。
  • 悩み B(遠い記憶): 料理の途中、「あ、バターは入れたっけ?」と、数分前にやったことを忘れる。

これまでの技術では、過去の映像をすべて記憶しようとすると、ロボットが「頭(計算能力)」を使い果たしてフリーズしてしまったり、逆に情報を詰め込みすぎて「何が一番重要か」を見失ったりしていました。

2. MEM の解決策:2 つの「記憶ツール」

MEM は、ロボットに**「2 つの異なる記憶ツール」を持たせることでこの問題を解決します。まるで、私たちが「スマホのカメラ」「手帳」**を使い分けるようなものです。

① 短期記憶:「高機能なカメラ(動画エンコーダー)」

  • 役割: 直近の数秒〜数十秒の出来事を、**「映像」**として鮮明に覚えます。
  • 比喩: これは**「スマホのカメラ」**のようなものです。
    • 手が動いてお皿が見えなくなっても、直前の映像を思い出し、「あ、お皿はここにあったはずだ」と再確認できます。
    • 「お皿を掴もうとしたけど滑ったな」という失敗をすぐに覚えて、「次はもっと強く掴もう」とその場で戦略を変えられる(文脈適応)のが得意です。
    • ポイント: 映像データは重いので、長時間保存するのは大変ですが、MEM はこれを**「超高速で圧縮」**する技術を使って、リアルタイムで処理できるようにしました。

② 長期記憶:「賢いメモ帳(言語メモリ)」

  • 役割: 数分〜15 分前の出来事を、**「言葉」**として要約して覚えます。
  • 比喩: これは**「手帳」「日記」**のようなものです。
    • 料理中に「バターを入れた」「卵を割った」といった重要なステップだけを、**「バターと卵を入れた」**という短い言葉でメモします。
    • 「緑色のボウル、青いボウル、黄色いボウルを棚に入れた」という細かい詳細は捨てて、「3 つのボウルを棚に入れた」と要約します。
    • ポイント: 映像をすべて覚えるのではなく、**「必要なことだけ言葉で残す」**ので、長時間の作業でも記憶が溢れず、ロボットは「次に何をするべきか」を冷静に判断できます。

3. この技術で何ができるようになった?

この「カメラ(映像)」と「メモ帳(言葉)」を組み合わせることで、ロボットは以下のような驚くべきことができるようになりました。

  • 15 分間の料理大作戦:
    グリルチーズサンドイッチを作る際、「パンを焼いて、チーズを挟み、ひっくり返す」という手順を、15 分間かけて正確に実行できます。途中で「バターは入れたか?」と迷うこともありません。
  • キッチンの大掃除:
    散らかったキッチンを片付ける際、「食器を洗ったか」「棚にしまったか」「拭き掃除は終わったか」をすべて記憶し、完璧に片付けられます。
  • 失敗からの学習(その場での適応):
    もし「箸を掴もうとしたけど、高さが合っていなくて失敗した」ということがあれば、ロボットはその失敗を短期記憶として覚えて、「次はもっと低い位置で掴もう」と即座に戦略を変えます。以前のロボットは同じ失敗を繰り返していましたが、MEM を使えば賢く対応できます。

4. なぜこれがすごいのか?

これまでのロボットは、記憶を持たせると「頭が重くなって動きが遅くなる」か、「記憶がごちゃごちゃになって失敗する」というジレンマがありました。

MEM は、**「短い時間は映像で詳しく覚える」「長い時間は言葉で要約して覚える」という、人間の脳の仕組みに似た「使い分け」を実現しました。これにより、ロボットは「リアルタイムで素早く動ける」まま、「15 分もの長い間、忘れずに作業を続けられる」**ようになったのです。

まとめ

この論文は、ロボットに**「目の前の映像(カメラ)」「過去の要約(メモ帳)」という 2 つの武器を持たせることで、「長い時間がかかる複雑な家事や料理」**を、人間のように柔軟に、かつ賢くこなせるようになったことを示しています。

これからのロボットは、単に「目の前のもの」を見るだけでなく、「過去の経験」を思い出しながら、より長く、より複雑な任務を遂行できるようになるでしょう。