VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

本文提出了 VPWEM,一种结合工作记忆与基于 Transformer 的压缩式情景记忆的非马尔可夫视觉运动策略,通过递归压缩历史观测为固定数量的记忆令牌,在保持恒定计算与内存开销的同时显著提升了机器人在长程记忆密集型任务中的表现。

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang, Ping Luo

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VPWEM 的新机器人控制方法。简单来说,它解决了一个让很多机器人“变傻”的难题:如何记住很久以前发生的事情,以便现在能做出正确的决定。

为了让你轻松理解,我们可以把机器人比作一个正在学做菜的学徒,把传统的控制方法比作只有短期记忆的学徒,而 VPWEM 则是一个拥有“工作笔记”和“人生阅历”的聪明大厨

1. 痛点:为什么机器人会“健忘”?

想象一下,你让一个机器人去厨房做一道复杂的菜(比如“把藏在第三个碗下面的球拿出来”)。

  • 传统方法(短视): 大多数机器人就像只有几秒钟短期记忆的人。它只看眼前这一秒的画面(“哦,有个碗”),然后立刻行动。如果任务需要它记住“刚才那个球被盖住了”或者“刚才我往左走了两步”,它就会因为记不住而失败。
  • 强行记长(笨办法): 如果强行让机器人记住过去 100 秒的所有画面,就像让一个人同时背诵 100 页书。这不仅会让大脑(计算机)累垮(计算太慢、太费电),而且因为信息太多,机器人反而会被无关紧要的细节(比如背景里的灰尘)搞糊涂,导致在稍微换个环境时就彻底崩溃。

2. 解决方案:VPWEM 的“双重记忆系统”

这篇论文提出的 VPWEM,灵感来自人类的大脑。人类既能记住刚才发生的对话(短期),也能把重要的经历压缩成经验(长期)。VPWEM 给机器人装上了两套记忆系统:

A. 工作记忆 (Working Memory) —— “手边的便利贴”

  • 比喻: 就像厨师手边的一张便利贴,上面写着刚才几秒钟内看到的东西(比如“刚把盐撒进去了”)。
  • 作用: 处理当下的、短期的任务。这部分是固定的,不会占用太多脑子,保证机器人反应快。

B. 情景记忆 (Episodic Memory) —— “压缩的人生阅历”

  • 比喻: 这是 VPWEM 最厉害的地方。想象一下,机器人过去几小时的经历(几千帧画面)就像一本厚厚的日记。如果每次都要翻整本日记,太慢了。
  • 核心魔法(记忆压缩器): VPWEM 有一个神奇的**“记忆压缩器”**(就像一位聪明的图书管理员)。
    • 当新的画面进来,旧的画面滑出“便利贴”范围时,这位管理员不会把旧画面扔掉,而是把它们快速阅读并总结
    • 它把几千帧的画面,压缩成几个关键的“记忆胶囊”(比如:“球在左边”、“刚才门是开着的”)。
    • 这些“胶囊”非常小,但包含了所有关键信息。机器人只需要记住这几个胶囊,就能像拥有“读心术”一样,回想起很久以前发生的事。

3. 它是如何工作的?(三步走)

  1. 看(观察): 机器人通过摄像头看世界,把看到的画面变成数据。
  2. 记(压缩):
    • 最近看到的画面,直接放在“便利贴”(工作记忆)上。
    • 很久以前看到的画面,被扔进“压缩器”。压缩器利用一种叫 Transformer 的高级算法,像做摘要一样,把冗长的历史变成几个精炼的“记忆胶囊”(情景记忆)。
  3. 做(行动): 机器人做决定时,同时参考“便利贴”上的近期信息和“记忆胶囊”里的长期经验,然后生成动作。

4. 效果如何?

作者在三个不同的“考场”(机器人任务测试集)上测试了这种方法:

  • 在需要死记硬背的复杂任务中(MIKASA): 比如玩“杯子藏球”游戏,机器人必须记住球被盖住时的位置。VPWEM 比目前最先进的机器人(包括那些像大语言模型一样的 VLA 模型)成功率高出了 20% 以上!它就像那个记得住所有线索的侦探。
  • 在移动操作任务中(MoMaRT): 比如开着小车去厨房收拾桌子。VPWEM 比传统方法平均提高了 5% 的成功率。
  • 在简单任务中(Robomimic): 如果任务很简单,不需要记很久以前的东西,VPWEM 的表现和传统方法一样好,没有拖后腿。

5. 总结:为什么这很重要?

以前的机器人要么“记性差”(只看眼前),要么“脑子笨”(试图硬记所有东西导致算不过来)。

VPWEM 就像给机器人装了一个“海马体”(人类大脑负责记忆的区域):

  • 它学会了**“抓重点”**:把漫长的历史压缩成精华。
  • 它**“算得快”**:无论任务多长,它每次只处理固定大小的“记忆胶囊”,不会累垮。
  • 它**“更聪明”**:能解决那些需要长时间记忆和逻辑推理的复杂任务。

这就好比,以前的机器人是“金鱼”,只有 7 秒记忆;现在的 VPWEM 机器人,既保留了金鱼的敏捷,又拥有了大象的记性,还能像人类一样把经验提炼成智慧。这对于让机器人真正走进我们的家庭,帮我们做复杂的家务,迈出了关键的一步。