MEM: Multi-Scale Embodied Memory for Vision Language Action Models

该论文提出了多尺度具身记忆(MEM)框架,通过结合视频编码的短期记忆与文本编码的长期记忆,使机器人策略能够处理长达 15 分钟的复杂长程任务并实现上下文自适应。

Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MEM (Multi-Scale Embodied Memory,多尺度具身记忆) 的新技术,它就像是给机器人装上了一个“超级大脑”,让它们不仅能记住刚才发生了什么,还能记得很久以前做过什么,从而完成非常复杂、耗时的任务。

为了让你更容易理解,我们可以把机器人想象成一个刚入职的餐厅服务员,而 MEM 就是他的独家工作手册和记事本

1. 以前的机器人:只有“金鱼记忆”

在 MEM 出现之前,大多数机器人(就像很多刚入职的服务员)只有极短的短期记忆

  • 问题:如果你让它“去厨房把桌子擦干净,然后把盘子洗了,最后把垃圾扔掉”,它可能擦完桌子就忘了要洗盘子,或者洗着洗着忘了要把垃圾扔掉。
  • 局限:如果任务太长(比如做一顿完整的晚餐,需要 15 分钟),机器人就会“断片”,因为它无法同时处理“刚才看到了什么”和“整体任务进行到哪一步了”。

2. MEM 的解决方案:双管齐下的“记忆系统”

MEM 的核心思想是:不同的事情,需要用不同的方式去记。 它把记忆分成了两个部分,就像给机器人配了两种工具:

A. 短期记忆:高清“行车记录仪” (视频记忆)

  • 作用:用来处理几秒钟内发生的细节,特别是当机器人自己挡住了视线(比如手臂挡住了要抓的杯子)时。
  • 比喻:想象机器人戴着一副智能眼镜,里面装了一个高效的“行车记录仪”。
    • 当机器人伸手去抓东西被挡住时,它不需要重新看整个视频,而是快速回放刚才几秒钟的录像,确认:“哦,杯子其实还在原来的位置,只是刚才被我的手臂挡住了。”
    • 创新点:以前的方法如果回放几分钟的视频,电脑会卡死(太慢)。MEM 发明了一种超级压缩技术,能把几秒钟的视频像“缩略图”一样快速处理,既保留了细节,又不会让机器人反应变慢。

B. 长期记忆:精简的“工作日志” (语言记忆)

  • 作用:用来记住几十分钟甚至更久的任务进度。
  • 比喻:想象机器人有一个智能记事本
    • 如果机器人只是机械地记录:“我拿了土豆,我拿了牛奶,我拿了黄油……",记事本很快就会写满,而且它记不住重点。
    • MEM 的厉害之处在于,它会自动总结。它不会记“我拿了三个颜色的碗”,而是记成“我把三个碗都放进了上面的橱柜”。
    • 关键点:如果机器人试了一次没成功(比如没抓起勺子),它不会把“失败”也记在日志里浪费空间,而是等到成功了才更新日志:“我已经把勺子放进抽屉了”。这样,机器人就能在长达 15 分钟的清洁任务中,始终清楚自己“做到了哪一步”,不会重复做无用功。

3. 这个系统有多强?(实际表现)

论文通过几个真实的“考试”证明了 MEM 的厉害:

  • 考试一:做一顿完整的晚餐(煎奶酪三明治)
    • 任务:从冰箱拿食材、切面包、涂黄油、煎、翻面、装盘。
    • 结果:没有记忆的机器人做着做着就忘了下一步该干嘛,或者忘了关冰箱门。用了 MEM 的机器人,能像大厨一样,按顺序完成所有步骤,甚至记得“煎了多久需要翻面”。
  • 考试二:清理整个厨房
    • 任务:擦桌子、洗碗、把东西归位、倒垃圾。
    • 结果:这是一个长达 15 分钟的复杂任务。MEM 机器人能记住“哪些盘子已经洗过了”、“哪些抽屉已经关上了”,全程不迷路。
  • 考试三:灵活应变(纠错能力)
    • 场景:机器人第一次抓筷子失败了(因为桌子太高)。
    • 结果:没有记忆的机器人会重复犯错,继续用同样的姿势抓,一直失败。而 MEM 机器人看着刚才的“行车记录仪”(短期记忆),发现:“哦,刚才那个高度抓不到”,于是它立刻调整策略,换个姿势或高度再试一次,直到成功。

4. 总结:为什么这很重要?

这就好比给机器人从“只会执行单条指令的机器”升级成了“有经验的管家”。

  • 以前:机器人只能做“拿起杯子”这种简单动作,做多了就忘。
  • 现在:MEM 让机器人拥有了多尺度记忆
    • 眼睛(视频记忆):看清刚才发生了什么,解决遮挡和失误。
    • 脑子(语言记忆):记住整体进度,规划长远目标。

这项技术让机器人能够真正走进我们的家庭,去处理像“大扫除”、“做晚饭”这样需要长时间、多步骤的复杂工作,而不再只是实验室里只会做简单动作的玩具。