Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing

本文提出了决策 MetaMamba(DMM),一种通过引入基于稠密层的序列混合机制并优化位置结构来替代 Mamba 选择性扫描的离线强化学习模型,有效解决了关键步骤信息丢失问题,在多种任务中实现了兼具高性能与轻量级的最优效果。

Wall Kim, Chaeyoung Song, Hanul Kim

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在教一个超级聪明的机器人(我们叫它“决策大师”)如何玩一个复杂的电子游戏,比如《超级马里奥》。这个机器人不能像人类一样去现场试错,它只能看着以前别人玩游戏的录像(这就是“离线强化学习”)来学习。

这篇论文讲的就是如何改进这个机器人的大脑,让它从录像中学得更快、更准。

1. 旧大脑的烦恼:聪明的“过滤器”反而漏掉了关键

以前的机器人用的是一个叫"Mamba"的大脑结构。它有一个很厉害的功能:选择性扫描
这就好比一个挑剔的图书管理员。当它阅读一本厚厚的游戏录像书时,它会快速翻页,只挑它觉得“重要”的段落读,把那些它觉得“不重要”的段落直接跳过。

  • 问题出在哪?
    在玩游戏时,有些动作看起来微不足道(比如马里奥在原地跳了一下,或者稍微调整了一下呼吸),但正是这些看似不起眼的瞬间,往往是后面成功跳跃或躲避障碍的关键。
    旧机器人的“图书管理员”太挑剔了,它把这些“不起眼”的关键步骤当成垃圾信息给过滤掉了。结果就是,机器人学会了怎么跑,却忘了怎么跳,导致在关键时刻掉链子。

2. 新方案:Decision MetaMamba (DMM) —— 换一种“阅读”方式

为了解决这个问题,作者们给机器人换了一个新大脑,叫 Decision MetaMamba (DMM)。它做了两个聪明的改变:

改变一:从“挑挑拣拣”变成“全盘接收”

新大脑不再让那个挑剔的图书管理员先筛选信息。相反,它换成了一个全能的“大杂烩”搅拌器

  • 比喻:想象你在做一道大锅菜(混合所有信息)。旧方法是先挑出几样菜扔进锅里,新方法是把所有食材(包括那些看起来不起眼的香菜和葱花)一次性全部倒进锅里,先充分搅拌混合,确保没有任何一种味道被遗漏,然后再开始烹饪。
  • 作用:这样,无论关键步骤多么微小,它都能被保留下来,不会被“选择性扫描”给误删掉。

改变二:给信息贴上“位置标签”

旧方法在处理信息时,有时候会搞混“谁先谁后”。

  • 比喻:就像看一部电影,如果只记得剧情片段却忘了时间顺序,你就不知道是先有爆炸还是先有逃跑。
  • 作用:新大脑给每个信息都贴上了精准的“时间标签”,确保机器人能记住动作发生的先后顺序,保留住局部的细节(比如先蹲下再跳起)。

3. 结果:既聪明又省料

经过这种改进,这个新大脑(DMM)表现出了惊人的效果:

  • 成绩更好:在各种复杂的虚拟游戏任务中,它都拿到了第一名(State-of-the-art),比以前的任何模型都强。
  • 身材更苗条:它不需要庞大的身体(参数很少)就能做到这一点。就像一位精干的特种兵,虽然装备不多,但战斗力极强,非常适合在资源有限的真实世界(比如手机、自动驾驶汽车)中应用。

总结

简单来说,这篇论文就是告诉我们要别太挑剔。在教机器人学习时,不要因为它觉得某些信息“不重要”就把它扔掉。通过一种新的“先混合、再筛选”的机制,让机器人能抓住每一个微小的细节,从而在复杂的世界里做出更完美的决策。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →