MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MEM (Multi-Scale Embodied Memory，多尺度具身记忆) 的新技术，它就像是给机器人装上了一个“超级大脑”，让它们不仅能记住刚才发生了什么，还能记得很久以前做过什么，从而完成非常复杂、耗时的任务。

为了让你更容易理解，我们可以把机器人想象成一个刚入职的餐厅服务员，而 MEM 就是他的独家工作手册和记事本。

1. 以前的机器人：只有“金鱼记忆”

在 MEM 出现之前，大多数机器人（就像很多刚入职的服务员）只有极短的短期记忆。

问题：如果你让它“去厨房把桌子擦干净，然后把盘子洗了，最后把垃圾扔掉”，它可能擦完桌子就忘了要洗盘子，或者洗着洗着忘了要把垃圾扔掉。
局限：如果任务太长（比如做一顿完整的晚餐，需要 15 分钟），机器人就会“断片”，因为它无法同时处理“刚才看到了什么”和“整体任务进行到哪一步了”。

2. MEM 的解决方案：双管齐下的“记忆系统”

MEM 的核心思想是：不同的事情，需要用不同的方式去记。 它把记忆分成了两个部分，就像给机器人配了两种工具：

A. 短期记忆：高清“行车记录仪” (视频记忆)

作用：用来处理几秒钟内发生的细节，特别是当机器人自己挡住了视线（比如手臂挡住了要抓的杯子）时。
比喻：想象机器人戴着一副智能眼镜，里面装了一个高效的“行车记录仪”。
- 当机器人伸手去抓东西被挡住时，它不需要重新看整个视频，而是快速回放刚才几秒钟的录像，确认：“哦，杯子其实还在原来的位置，只是刚才被我的手臂挡住了。”
- 创新点：以前的方法如果回放几分钟的视频，电脑会卡死（太慢）。MEM 发明了一种超级压缩技术，能把几秒钟的视频像“缩略图”一样快速处理，既保留了细节，又不会让机器人反应变慢。

B. 长期记忆：精简的“工作日志” (语言记忆)

作用：用来记住几十分钟甚至更久的任务进度。
比喻：想象机器人有一个智能记事本。
- 如果机器人只是机械地记录：“我拿了土豆，我拿了牛奶，我拿了黄油……"，记事本很快就会写满，而且它记不住重点。
- MEM 的厉害之处在于，它会自动总结。它不会记“我拿了三个颜色的碗”，而是记成“我把三个碗都放进了上面的橱柜”。
- 关键点：如果机器人试了一次没成功（比如没抓起勺子），它不会把“失败”也记在日志里浪费空间，而是等到成功了才更新日志：“我已经把勺子放进抽屉了”。这样，机器人就能在长达 15 分钟的清洁任务中，始终清楚自己“做到了哪一步”，不会重复做无用功。

3. 这个系统有多强？（实际表现）

论文通过几个真实的“考试”证明了 MEM 的厉害：

考试一：做一顿完整的晚餐（煎奶酪三明治）
- 任务：从冰箱拿食材、切面包、涂黄油、煎、翻面、装盘。
- 结果：没有记忆的机器人做着做着就忘了下一步该干嘛，或者忘了关冰箱门。用了 MEM 的机器人，能像大厨一样，按顺序完成所有步骤，甚至记得“煎了多久需要翻面”。
考试二：清理整个厨房
- 任务：擦桌子、洗碗、把东西归位、倒垃圾。
- 结果：这是一个长达 15 分钟的复杂任务。MEM 机器人能记住“哪些盘子已经洗过了”、“哪些抽屉已经关上了”，全程不迷路。
考试三：灵活应变（纠错能力）
- 场景：机器人第一次抓筷子失败了（因为桌子太高）。
- 结果：没有记忆的机器人会重复犯错，继续用同样的姿势抓，一直失败。而 MEM 机器人看着刚才的“行车记录仪”（短期记忆），发现：“哦，刚才那个高度抓不到”，于是它立刻调整策略，换个姿势或高度再试一次，直到成功。

4. 总结：为什么这很重要？

这就好比给机器人从“只会执行单条指令的机器”升级成了“有经验的管家”。

以前：机器人只能做“拿起杯子”这种简单动作，做多了就忘。
现在：MEM 让机器人拥有了多尺度记忆：
- 眼睛（视频记忆）：看清刚才发生了什么，解决遮挡和失误。
- 脑子（语言记忆）：记住整体进度，规划长远目标。

这项技术让机器人能够真正走进我们的家庭，去处理像“大扫除”、“做晚饭”这样需要长时间、多步骤的复杂工作，而不再只是实验室里只会做简单动作的玩具。

Each language version is independently generated for its own context, not a direct translation.

1. 问题背景 (Problem Statement)

现有的端到端机器人学习策略（特别是视觉语言动作模型，VLA）通常缺乏有效的长程记忆能力。在复杂的现实世界多阶段任务中，机器人需要处理不同粒度的记忆需求，而传统的单一记忆架构难以同时满足：

短期记忆需求：需要高密度的图像信息来解析遮挡（occlusions）、理解场景动力学、并在抓取失败时快速调整策略（例如：改变抓取角度）。
长期记忆需求：需要抽象的语义信息来跟踪任务进度（例如：食谱中哪些步骤已完成、哪些抽屉已关闭）。
现有方法的局限性：
- 直接输入历史观测：将过去所有观测直接输入模型会导致计算量爆炸，推理延迟过高，无法满足实时性要求。
- 单一模态压缩：仅使用本体感知（proprioception）、关键点跟踪或简单的关键帧压缩，往往会丢失精细的空间信息或无法处理长时程的语义依赖。
- 分布偏移：简单的文本记忆拼接在训练（通常是一次性成功）和推理（可能多次失败重试）之间存在严重的分布差异。

核心挑战：如何设计一种记忆架构，既能高效处理长达 15 分钟的任务，又能保持实时的推理延迟，同时兼顾短期视觉细节和长期语义抽象？

2. 方法论 (Methodology)

作者提出了 多尺度具身记忆 (Multi-Scale Embodied Memory, MEM) 系统。该系统的核心思想是多模态混合记忆，将记忆分为两个互补的组件：

A. 系统架构概览

MEM 将策略 $\pi$ 分解为高层策略 ( $\pi_{HL}$ ) 和 低层策略 ( $\pi_{LL}$ )：

高层策略 ( $\pi_{HL}$ )：负责长程语义记忆。它基于任务目标 $g$ 、当前观测和语言记忆 ( $m_t$ )，生成子任务指令 $l_{t+1}$ 并更新语言记忆 $m_{t+1}$ 。
低层策略 ( $\pi_{LL}$ )：负责具体动作执行。它基于任务目标、子任务指令 $l_{t+1}$ 和短期视频记忆（过去 $K$ 帧的密集观测），输出连续动作。

B. 核心组件

1. 基于语言的长期记忆 (Language-based Long-Term Memory)

机制：语言记忆 $m_t$ 是对过去语义事件的自然语言摘要。高层策略不仅预测下一个子任务，还预测记忆更新（ $m_t \to m_{t+1}$ ）。
压缩与更新：模型被训练为主动压缩信息。例如，它不会记住“我放了一个浅绿色碗、深蓝色碗...", 而是压缩为“我在右上角柜子里放了三个碗”。
优势：
- 极大地减少了 token 数量，支持超长时程（15 分钟+）。
- 解决分布偏移：通过压缩，模型可以忽略失败的尝试（例如多次尝试抓取同一物体），只保留成功的语义状态，从而避免推理时因重复失败指令导致的性能下降。

2. 基于视频编码器的短期记忆 (Video Encoder for Short-Term Memory)

挑战：直接输入多帧图像会导致 VLA 骨干网络计算量剧增，推理延迟超标。
解决方案：设计了一个高效的视频编码器。
- 架构：基于 Vision Transformer (ViT) 扩展。在标准 ViT 的层中，每隔 4 层引入因果时间注意力 (Causal Temporal Attention) 机制。
- 计算优化：将注意力分解为空间注意力和时间注意力，将复杂度从 $O(n^2K^2)$ 降低到 $O(Kn^2 + nK^2)$ 。
- Token 压缩：编码器仅输出当前时间步的表示，丢弃过去时间步的 token，确保输入给 VLA 骨干的 Token 数量与单帧输入相当。
- 初始化：利用预训练的 ViT 权重初始化，无需额外可学习参数（仅添加正弦时间位置编码），保证了单帧性能不变。

3. 集成与训练 (Integration & Training)

基座模型：集成到 $\pi_0.6$ 模型中（基于 Gemma-4B 和 SigLIP 预训练）。
数据混合：使用机器人遥操作数据、策略 rollout 数据、人类修正数据以及非机器人视频/语言数据进行预训练。
训练策略：
- 预训练时使用 6 帧观测（5 帧过去 +1 帧当前）。
- 微调（Post-training）时可灵活扩展观测窗口（实验中扩展到 18 帧/54 秒）。
- 本体感知状态（如关节角度）通过线性投影嵌入，而非文本化，以减少 Token 消耗。

3. 主要贡献 (Key Contributions)

提出了多尺度记忆架构 (MEM)：首次将视频编码的短期密集记忆与语言压缩的长期语义记忆有机结合，解决了长程任务中记忆粒度与计算效率的矛盾。
实现了超长时程任务控制：使 VLA 能够处理长达 15 分钟 的复杂任务（如清理整个厨房、准备三明治），而无需牺牲实时推理延迟。
实现了上下文自适应 (In-Context Adaptation)：利用短期记忆，机器人能够识别之前的失败尝试（如抓取高度不对、开门方向错误），并在当前上下文中自动调整策略，无需重新训练。
高效的视频编码器设计：提出了一种基于时空分离注意力的视频编码器，在保持预训练 VLM 性能的同时，以极低的计算成本实现了多帧视觉记忆。
大规模实证验证：在多样化的机器人任务（单臂、双臂、移动机器人）上进行了广泛评估，证明了 MEM 在部分可观测性、计数、计时和空间记忆等核心能力上的优越性。

4. 实验结果 (Results)

实验在多个具有挑战性的长程和灵巧操作任务上进行评估：

长程任务表现：
- 在食谱准备（Set Up Recipe）和厨房清理（Clean Kitchen）任务中，无记忆的 $\pi_0.6$ 表现极差。
- MEM 策略显著提升了成功率。消融实验表明，必须同时具备短期视频记忆（处理遮挡和动态）和长期语言记忆（跟踪任务进度）才能达到最佳效果。
- 简单的“朴素文本记忆”（直接拼接历史指令）由于分布偏移问题，表现远不如经过压缩更新的 MEM 语言记忆。
上下文自适应能力：
- 在抓取筷子（调整抓取高度）和打开冰箱（尝试不同开门方向）任务中，MEM 策略利用短期记忆中的失败历史，成功调整了策略。
- 无记忆策略在失败后会重复相同的错误动作，而 MEM 策略能“吸取教训”，成功率分别提升了 11% 和 62%。
核心记忆能力对比：
- 在部分可观测性（寻找隐藏物体）、计数（咖啡勺数）、视觉记忆（窗户清洁区域）等任务中，MEM 的表现显著优于仅使用池化记忆（Pool Memory）或本体感知记忆（Proprio Memory）的基线模型。
- 预训练的重要性：在多样化数据上预训练 MEM 的视频编码器，比仅在目标任务上微调（Post-train only）效果好得多，证明了预训练对记忆泛化能力的关键作用。
通用性：
- MEM 不仅擅长需要记忆的任务，在不需要记忆的复杂灵巧操作任务（如叠衣服、整理桌子）上，其性能也达到了与无记忆 SOTA 模型（ $\pi_0.6$ ）相当的水平，证明了引入记忆并未破坏原有的控制能力。

5. 意义与展望 (Significance & Future Work)

技术突破：MEM 证明了通过多模态混合架构，可以在满足严格实时延迟约束的前提下，赋予机器人“记住过去”的能力。这解决了 VLA 在长程任务中“遗忘”和“计算瓶颈”的两大痛点。
实际应用：使得机器人能够执行类似人类日常生活的复杂任务（如做饭、大扫除），这些任务通常涉及多个步骤、长时间跨度和环境变化。
未来方向：
- 将记忆跨度从单次任务（Episode）扩展到更长的时间尺度（周、月、年）。
- 实现部署时的持续学习（Continual Learning），让机器人随着时间推移不断积累和更新记忆。
- 进一步探索记忆在更复杂的社会交互和长期规划中的作用。

总结：这篇论文通过引入多尺度、多模态的记忆机制，显著提升了视觉语言动作模型在现实世界长程任务中的表现，为构建真正具备“长期记忆”和“自适应能力”的通用机器人奠定了重要基础。