JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

JanusVLN 提出了一种受人类大脑左右半球分工启发的双隐式神经记忆框架,通过将空间几何与视觉语义解耦为独立紧凑的固定大小表示,有效解决了现有方法中空间信息丢失和计算冗余的问题,从而在视觉语言导航任务中实现了超越 20 余种现有方法的 SOTA 性能。

Shuang Zeng, Dekang Qi, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Shiyi Liang, Mu Xu, Xing Wei, Ning Guo

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 JanusVLN 的新方法,旨在让机器人或虚拟助手能像人一样,仅凭“眼睛”(摄像头)和“耳朵”(语言指令)在陌生的环境中自如行走。

为了让你更容易理解,我们可以把这项技术比作给机器人装上了一个“左右脑协同”的超级导航系统

1. 以前的机器人为什么“迷路”?

想象一下,你让一个机器人去“走到那个红色的沙发旁边”。

  • 旧方法(显式记忆):以前的机器人像个死记硬背的学生。它每走一步,就要在脑子里画一张巨大的地图,或者把走过的每一帧画面都存下来。
    • 缺点
      1. 记不住:走久了,脑子里的地图太乱,关键信息被淹没(内存爆炸)。
      2. 算得慢:每走一步,它都要把之前走过的所有路重新复习一遍,效率极低。
      3. 没空间感:它只认识“这是沙发”(语义),但不知道沙发离自己有多远、在哪个角度(空间几何)。就像它知道“苹果”这个词,但不知道苹果有多重、多大。

2. JanusVLN 的灵感:像人类一样思考

人类在走路时,大脑是分工合作的:

  • 左脑:负责理解语言,“去那个红色的沙发”。
  • 右脑:负责空间感知,“沙发在左边,离我还有 3 米,后面有堵墙”。

JanusVLN 模仿了这种左右脑分工,设计了一个**“双重隐性记忆”系统。它不再把走过的路画成一张巨大的地图,而是把记忆压缩成两个固定大小的“智能压缩包”**。

3. 核心黑科技:两个“记忆压缩包”

A. 语义压缩包(左脑):记住“是什么”

  • 作用:它像一个博学的图书管理员
  • 功能:它负责理解画面里的东西是什么(这是桌子,那是门),并记住指令里的关键词。
  • 创新:它不会把整张图存下来,而是只提取最核心的“概念”,就像你记路时只记“看到红绿灯左转”,而不是记红绿灯的像素点。

B. 空间压缩包(右脑):记住“在哪里”

  • 作用:它像一个敏锐的几何学家
  • 功能:这是本文最大的突破。以前的机器人只看 2D 图片,分不清远近。JanusVLN 引入了一个特殊的“几何编码器”,它能从普通的 2D 视频里“脑补”出 3D 结构(深度、距离、遮挡关系)。
  • 比喻:就像你看着一张照片,能瞬间判断出“那个杯子在桌子边缘,再往前一步就会掉下去”。这个系统让机器人拥有了这种3D 空间直觉

4. 为什么它跑得又快又好?(滑动窗口 + 初始锚点)

这是它解决“记不住”和“算得慢”的关键技巧:

  • 滑动窗口(最近记忆)
    想象你在开车,你只需要记住最近几秒的路况(前面有没有车、红绿灯变没变)。JanusVLN 只保留最近走过的几十帧画面作为“短期记忆”,旧的自动丢弃。这保证了它反应极快,不会卡顿。

  • 初始锚点(长期记忆)
    虽然只记最近的路,但起点关键路标不能忘。系统会永久保留出发时的几帧画面作为“锚点”。无论走多远,它都能随时回头看看“我是从哪出发的”,防止在迷宫里彻底迷失方向。

  • 不重算(增量更新)
    以前的方法每走一步都要把走过的路重算一遍。JanusVLN 就像接力赛,只处理当前这一棒,直接调用上一棒的“记忆缓存”,速度提升了数倍。

5. 成果如何?

  • 只用单眼摄像头:不需要昂贵的激光雷达或深度相机,普通手机摄像头就能跑。
  • 性能碾压:在测试中,它的成功率比之前的顶尖方法提高了 10% 到 35% 不等。
  • 真实场景:在真实的机器人(如宇树 Go2 机器狗)上,它能听懂像“走到离你最远的那个黄色凳子旁边”这种需要空间判断的指令,而以前的机器人往往会走到离你最近的那个。

总结

JanusVLN 就像给机器人装上了一套**“左右脑协同”的导航系统**:

  • 它不再笨重地画地图,而是用两个固定的“记忆胶囊”(一个管语义,一个管空间)。
  • 它像人一样,只关注眼前的路况,但心里永远记得起点
  • 它让机器人从“只会认字”进化到了“既认字又懂空间”,是未来家庭机器人、自动驾驶和救援机器人走向成熟的重要一步。

简单来说,它让机器人终于学会了像人一样“看路”,而不是像计算机一样“算路”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →