Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

该论文提出了名为 MIKASA 的综合基准测试套件,旨在通过建立记忆密集型任务分类框架、统一评估基准 MIKASA-Base 以及包含 32 个桌面机器人操作任务的 MIKASA-Robo,解决强化学习领域缺乏通用记忆能力评估标准的问题,从而推动复杂场景下记忆增强智能体的研究与发展。

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给机器人做一场**“记忆力大考”**。

想象一下,你教一个小孩子(机器人)玩一个游戏:桌上有三个杯子,其中一个下面藏着一个球。你让孩子看一眼球在哪,然后盖上杯子,把桌子转一圈,最后问孩子:“球在哪个杯子下面?”

如果是个普通机器人,它可能只能看到眼前这一秒发生了什么。一旦杯子盖住球,它就“失忆”了,只能瞎猜。但一个聪明的机器人,应该能像人一样,记住刚才看到的画面,推理出球还在原来的位置。

这篇论文的作者们发现,现在的机器人虽然很聪明,但在“记性”方面却缺乏统一的测试标准。有的机器人擅长记路(空间记忆),有的擅长记顺序(比如先放盐再放醋),但没人能全面地测试它们。

为了解决这个问题,作者们推出了一个叫 MIKASA 的“记忆训练场”(Benchmark)。

1. 为什么要搞这个“训练场”?

以前,研究机器人记忆就像是在**“盲人摸象”**。

  • 有的科学家只测试机器人能不能记住路(像走迷宫)。
  • 有的只测试能不能记住颜色。
  • 大家用的题目都不一样,没法直接比较谁更聪明。

这就好比两个学生,一个在考数学,一个在考语文,然后他们互相吹牛说“我记忆力更好”,这显然不公平。MIKASA 就是要把所有考试统一起来,给机器人发一张**“全科记忆试卷”**。

2. MIKASA 考什么?(四大记忆类型)

作者把机器人的记忆任务分成了四类,就像人类的记忆能力一样:

  • 🧸 物体记忆(Object Memory):像玩“藏猫猫”

    • 场景:球被杯子盖住了,或者物体被移走了。
    • 挑战:机器人必须记住“虽然我看不到它,但它还在那里”。
    • 比喻:就像你闭着眼睛,也能摸到刚才放在桌上的钥匙,因为你知道它没飞走。
  • 🗺️ 空间记忆(Spatial Memory):像玩“寻宝游戏”

    • 场景:机器人需要记住某个东西放在桌子的哪个角落,或者记住自己刚才绕过了哪个障碍物。
    • 挑战:在看不见全貌的情况下,脑子里要有一张“地图”。
    • 比喻:就像你在黑暗的房间里走路,记得刚才绕过椅子了,所以不会撞上去。
  • 📜 顺序记忆(Sequential Memory):像背“菜谱”

    • 场景:机器人需要按照特定的顺序做动作,比如“先拿红杯子,再拿蓝杯子”。
    • 挑战:记住步骤的先后顺序,不能乱套。
    • 比喻:就像做蛋糕,必须先打鸡蛋,再放面粉。如果顺序乱了,蛋糕就废了。
  • 🧠 记忆容量(Memory Capacity):像玩“找不同”或“记牌”

    • 场景:桌上一下子出现了 7 个不同颜色的球,让机器人记住它们。
    • 挑战:一次要记太多东西,脑子会不会“爆”?
    • 比喻:就像你试图记住一长串电话号码,记 3 个很容易,记 10 个可能就乱了。

3. 他们做了什么?(MIKASA 的两大法宝)

作者不仅设计了理论,还真的造了两个“考场”:

  1. MIKASA-Base:这是一套**“基础题库”**,包含了很多经典的、简单的记忆游戏(比如记卡片、走迷宫),用来测试机器人的基础脑力。
  2. MIKASA-Robo:这是**“终极挑战”,专门针对真实世界的机械臂**。
    • 这里有 32 个精心设计的任务。
    • 例子
      • 猜杯子(ShellGame):球被盖住后,机械臂要准确地去推对那个杯子。
      • 记颜色(RememberColor):看一眼红方块,它消失后,从一堆方块里把红色的挑出来。
      • 旋转木桩(Rotate):记住木桩原来的角度,把它转到指定的新角度。

4. 测试结果:机器人真的“记性”不好吗?

作者用了很多先进的机器人模型(包括现在很火的 VLA 视觉 - 语言模型,比如 Octo, OpenVLA 等)来参加考试。结果非常扎心:

  • 在“全知模式”下(能看到所有信息):机器人能拿 100 分。说明题目本身不难,机器人也能学会。
  • 在“记忆模式”下(关键信息被遮挡或消失)
    • 普通的机器人(没有记忆模块)直接0 分,完全靠猜。
    • 带了一点记忆功能的机器人(比如 LSTM),在题目简单时能及格,但题目一难(比如要记 9 种颜色,或者要记很久以前的动作),成绩就断崖式下跌
    • 即使是目前最厉害的VLA 大模型,一旦遇到需要“长时间记忆”的任务(比如东西被遮住转了一圈再回来),它们也彻底懵圈,表现和随机乱猜差不多。

5. 结论与意义

这篇论文告诉我们一个残酷的真相:现在的机器人,虽然眼睛看得清,手也灵活,但它们的“脑子”记不住事儿。

它们就像是一个**“金鱼”**,只能记住眼前几秒发生的事情。一旦需要它们记住“刚才发生了什么”或者“未来要做什么”,它们就失效了。

MIKASA 的意义在于:
它给未来的研究立了一个**“标尺”**。以后谁发明了新的机器人记忆算法,就可以拿这个标尺来量一量:你的机器人是不是真的变聪明了?还是只是在简单的题目上作弊?

只有通过了 MIKASA 的考验,机器人才能真正走进我们的厨房、工厂和家里,帮我们做那些需要“记性”的复杂家务,而不是做完一步就忘,需要人类手把手教每一步。