History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

该论文提出了一种无需重新训练的时空视觉 Token 剪枝框架,通过结合当前视图的空间选择与历史记忆的时空压缩,在显著降低计算延迟的同时保持导航精度,成功实现了大型多模态模型在四足机器人上的高效实时部署。

Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个机器人领域的“大难题”:如何让聪明的机器人既听得懂人话,又能跑得飞快,还不卡顿?

想象一下,你给一个机器人下达指令:“穿过走廊,进卧室,然后停下。”
现在的机器人(基于 VLA 模型)非常聪明,能理解这句话,但它们的大脑(AI 模型)太“重”了。为了看清眼前的路和记住刚才走过的路,它们需要处理海量的“视觉碎片”(也就是论文里说的 Token,可以理解为视觉像素块)。这就好比让一个司机在开车时,不仅要盯着前方的路,还要把过去 10 分钟看过的每一帧画面都重新在脑子里过一遍,结果就是反应太慢,甚至死机。

这篇论文提出了一种**“智能剪枝”的方法,就像给机器人的大脑做了一次“高效的信息筛选”**。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心问题:机器人为什么“慢”?

  • 现状:现在的导航机器人像是一个**“强迫症”摄影师**。无论走到哪,它都要把眼前看到的每一寸细节(包括墙上的灰尘、无关的杂物)和过去走过的每一段路(历史记忆)都原封不动地存进大脑里。
  • 后果:大脑里塞满了垃圾信息,处理速度变慢,导致机器人反应迟钝,没法在真实世界里实时行动。

2. 解决方案:给机器人装上“智能过滤器”

作者提出了一种**“无需重新训练”的剪枝方法。这就好比给机器人戴上了一副“智能墨镜”,它不需要重新学习怎么走路,而是直接学会“看什么”“记什么”**。

这个“智能墨镜”有两个独特的功能,分别针对**“现在”“过去”**:

A. 对“现在”:像侦探一样抓重点(空间剪枝)

  • 比喻:当你走进一个房间,你的眼睛会自动聚焦在门把手障碍物目标物体上,而自动忽略墙角的灰尘或天花板的纹理。
  • 做法:论文中的算法(叫 A-MMR)会自动分析当前的画面,找出那些**“最重要”的视觉碎片(比如路标、门、人),并把那些“重复且无用”**的碎片(比如一大片相同的地板)直接扔掉。
  • 关键点:它不仅看“重不重要”,还看“有没有代表性”。它确保留下的碎片既能代表主要物体,又能覆盖不同的区域,不会只盯着一个点看。

B. 对“过去”:像整理旧照片一样压缩记忆(时空剪枝)

  • 比喻:这是这篇论文最巧妙的地方。
    • 普通方法:机器人会把过去走过的路像录像带一样全部存着,不管有没有用。
    • 这篇论文的方法:机器人会问自己:“刚才看到的东西,对现在的任务还有用吗?”
    • 如果刚才你看到的一把椅子,现在你正在往厨房走,那把椅子就不重要了,直接忘掉。
    • 如果刚才你看到的一个红色背包是路标,那就要重点记住。
  • 做法:算法会根据当前的任务(比如“去卧室”),去重新加权过去的记忆。只保留那些对当前决策有帮助的历史画面,把无关的历史记忆压缩掉。

3. 效果如何?(数据说话)

作者做了很多实验,结果非常惊人:

  • 砍掉 90% 的信息:他们把机器人需要处理的视觉信息砍掉了 90%(只留 10%)。
  • 速度更快:机器人的反应速度(FPS)提升了,延迟降低了。
  • 更准了:奇怪的是,虽然信息变少了,但机器人走路的准确率(SPL)反而比那些“不剪枝”或者“乱剪枝”的方法更高。
    • 比喻:就像你让一个司机只盯着路标开,而不是盯着路边的每一棵树,他反而开得更快、更准,不容易迷路。

4. 真实世界验证

作者真的把这个方法装到了一个**四足机器狗(Unitree Go2)**身上。

  • 场景:在真实的办公室、实验室里,机器狗能听懂指令,比如“绕过纸箱,去饮水机”。
  • 结果:机器狗在只有边缘计算设备(没有超级电脑支持)的情况下,也能流畅地执行任务,没有卡顿。

总结

这篇论文的核心思想就是:机器人不需要“全知全能”地记住所有细节,只需要“聪明地”关注关键信息。

通过区分**“当前看什么”“过去记什么”,作者发明了一种“即插即用”的插件。它不需要重新训练昂贵的 AI 模型,就能让现有的机器人模型瘦身**,变得更快、更灵敏,真正具备了在现实世界中实时导航的能力。

一句话概括:这就好比给笨重的机器人装上了一个**“智能大脑缓存清理器”**,让它只保留最关键的“路标”和“记忆”,从而跑得飞快且方向精准。