RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

本文提出了 RoboMME,这是一个针对长程和历史依赖型机器人操作任务的大规模标准化基准,旨在通过系统评估 14 种基于π0.5 的内存增强视觉 - 语言 - 动作(VLA)模型变体,深入探究不同内存表示在时空、对象及程序性记忆任务中的表现与局限性。

Yinpei Dai, Hongze Fu, Jayjun Lee, Yuejiang Liu, Haoran Zhang, Jianing Yang, Chelsea Finn, Nima Fazeli, Joyce Chai

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 RoboMME 的新项目,你可以把它想象成给机器人世界的一次"记忆力大考"。

在现实生活中,如果你让机器人做点简单的活,比如“把那个红色的杯子拿给我”,它通常能做得很好。但如果任务变复杂,比如“把刚才我放上去的 3 个绿色方块放进盒子里,然后按按钮”,或者“看着视频里那个被杯子盖住的方块,等杯子移开后把它找出来”,机器人往往就“傻”了。为什么?因为它们记不住刚才发生了什么,也记不住东西被遮住后去了哪里。

这篇论文就是为了解决这个问题,它做了一件很酷的事:

1. 设计了一场“记忆力奥林匹克” (RoboMME 基准测试)

以前的机器人测试题太简单,或者太混乱,没法公平地比较谁的记忆力好。作者们设计了一套全新的、标准化的“考题”,专门测试机器人的四种核心记忆力:

  • 🕒 时间记忆 (Temporal Memory) —— “数数”的能力

    • 比喻:就像你在玩“打地鼠”游戏,教练让你“打 5 次”。机器人必须一边打一边在心里数:"1、2、3...",数到 5 就立刻停手按按钮。如果它记不住数到了几,就会打多或者打少。
    • 考题:比如“把绿色方块放进盒子 3 次,然后按按钮”。
  • 📍 空间记忆 (Spatial Memory) —— “捉迷藏”的能力

    • 比喻:想象你在玩“石头剪刀布”的捉迷藏。朋友把玩具藏在杯子下面,然后趁你眨眼(或者视频里杯子被遮住)的时候,把杯子互相换位置。等你睁眼时,机器人必须记得:“那个绿色的方块,虽然被遮住了,但它其实是在左边那个杯子里,而不是右边那个。”
    • 考题:看着视频里被盖住的方块,等盖子移开后,准确找到它。
  • 🎯 物体记忆 (Object Memory) —— “认脸”的能力

    • 比喻:就像在聚会上,有人指着一个刚闪过一秒钟的人说:“去把那个穿红衣服的人手里的东西拿给我。”机器人必须在那一瞬间记住“那个穿红衣服的人是谁”,哪怕后来人多了、视线乱了,它也能认出那个特定的物体。
    • 考题:视频里某个方块被高亮了一下,机器人要记住是哪一个,然后把它拿起来。
  • 🤸 程序记忆 (Procedural Memory) —— “模仿秀”的能力

    • 比喻:就像看舞蹈视频学跳舞。视频里的人画了一个圆圈,机器人看完后,必须用机械臂在空中画出一模一样的圆圈轨迹,不能多一笔也不能少一笔。
    • 考题:看着视频里的机械臂怎么绕着棍子走,然后自己模仿走一遍。

2. 给机器人装上了不同的“大脑外挂” (记忆模型)

为了测试哪种方法能让机器人记性最好,作者们给同一个机器人模型(叫 π0.5\pi_{0.5})装上了三种不同的“记忆外挂”:

  • 📝 符号记忆 (Symbolic Memory) —— “记笔记”

    • 原理:机器人每做一步,就在脑子里写一行字:“我拿起了绿方块”。它靠读这些文字来回忆。
    • 优点:适合做“数数”这种逻辑清晰的任务。
    • 缺点:如果任务太复杂,文字描述可能不够用,或者写错了。
  • 👁️ 感知记忆 (Perceptual Memory) —— “存照片”

    • 原理:机器人把刚才看到的画面(或者关键帧)像存照片一样存进脑子里。
    • 优点:适合“模仿跳舞”或“找被遮住的物体”,因为它能直接“看”到过去的画面,不需要转译成文字。
    • 缺点:存太多照片会很占内存,计算量大。
  • 🔄 循环记忆 (Recurrent Memory) —— “压缩记忆”

    • 原理:像人类的长期记忆一样,把过去发生的所有事压缩成一个“状态包”。
    • 现状:在这个测试里,这种方法表现不太好,有点像“记性太模糊”,容易把细节搞混。

3. 考试结果:没有“全能冠军”

论文最有趣的发现是:没有一种记忆方法能通吃所有任务。

  • 如果是数数按步骤执行“记笔记” (符号记忆) 的机器人表现最好。
  • 如果是模仿动作找被遮住的物体“存照片” (感知记忆) 的机器人表现最好。
  • 最聪明的策略是**“看菜吃饭”**:根据任务类型,选择最适合的记忆方式。

4. 为什么这很重要?

这就好比我们教孩子:

  • 教他算术时,我们要让他数手指(符号/逻辑);
  • 教他画画时,我们要让他看范画(感知/视觉)。

以前的机器人研究往往只教一种方法,导致机器人要么只会算数不会画画,要么只会画画不会算数。RoboMME 就像是一个全面的“体检中心”,告诉我们机器人到底哪里记性好,哪里记性差,从而帮助科学家设计出更聪明、更像人类的“通用机器人”。

总结一句话:
这篇论文给机器人出了一套专门的“记忆力试卷”,发现机器人要想变聪明,不能只靠一种死记硬背的方法,而要学会像人一样:该记笔记时记笔记,该看照片时看照片,这样才能真正搞定复杂的家务和工厂工作。