NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NavSpace 的新项目,它的核心目的是给机器人(或者说是“导航智能体”)做一场**“空间智商大考”**。

想象一下,现在的机器人就像是一个刚学会走路、但方向感极差的小孩子。如果你让它“去厨房拿个苹果”,它可能能听懂;但如果你说“去二楼,穿过走廊,在第三个房间左转,然后走到离窗户两米远的地方”,它可能就会晕头转向,甚至撞墙。

这篇论文就是为了解决这个问题:现在的机器人真的懂“空间”吗?

以下是用大白话和生动的比喻对这篇论文的解读:

1. 为什么要搞这个考试?(背景)

以前的机器人考试(比如 R2R 等),主要考的是“阅读理解”和“认路标”。

  • 以前的考题: “跟着那个红色的沙发走,然后左转。”(只要认得沙发和方向就行)
  • 现在的难题: 生活中很多指令需要真正的空间想象力
    • “想象你是那个电视,往你的左手边走。”(需要视角转换)
    • “如果灯是关着的,就去客厅;如果是开着的,就留在卧室。”(需要判断环境状态)
    • “绕着餐桌走一圈。”(需要理解物体的大小和形状)

论文作者发现,现有的机器人(包括那些很厉害的 AI 大模型)在这些需要**“空间智商”的任务上,表现得像没头苍蝇**。它们能听懂人话,但脑子里没有“地图”,不知道距离、楼层和相对位置。

2. 他们做了什么?(NavSpace 基准测试)

作者们设计了一套全新的**“空间智商试卷”**,包含 1228 道 题目,分为六大类:

  1. 垂直感知(爬楼梯): 你能分清哪层楼是几楼吗?能知道“往上走”还是“往下走”吗?
  2. 精准移动(走钢丝): 指令说“右转 30 度,走 3 米”,你能精确执行吗?不能多也不能少。
  3. 视角转换(换位思考): 指令说“想象你是那个杯子,往你的右边走”。机器人得跳出自己的视角,站在杯子的角度想问题。
  4. 空间关系(数数与排序): “去第三个门”、“在两个沙发中间”。这需要数数和理解物体间的相对位置。
  5. 环境状态( conditional 判断): “如果看到钥匙就停下,否则继续走”。这需要实时观察并做决定。
  6. 空间结构(走迷宫): “绕着桌子转一圈”或“走到走廊最深处”。这需要理解空间的布局。

怎么出题的?
他们让人类操作员在虚拟世界里像玩游戏一样控制机器人走路线,然后让 AI 根据路线生成指令,最后再由人类审核。这就像**“先有人走一遍,再让 AI 出题考别人”**。

3. 考试成绩如何?(大考结果)

作者找了 22 个 选手来考试,包括:

  • 普通机器人模型(轻量级)
  • 超级 AI 大模型(比如 GPT-5, Gemini Pro 等)
  • 专门的导航大模型

结果让人大跌眼镜:

  • 超级 AI 大模型(如 GPT-5): 虽然它们聊天很厉害,看图也很准,但在“空间导航”上,成功率不到 20%。它们就像**“博学的书呆子”**,知道所有关于房间的知识,但真让它动起来,它就晕了。它可能知道“沙发在左边”,但走两步就忘了,或者把“左转”理解错了。
  • 普通小机器人: 几乎全军覆没,成功率接近随机乱走。
  • 结论: 现有的 AI 在“静态”的看图说话上很强,但在“动态”的实地导航上,空间智商严重不足

4. 他们怎么解决?(SNav 模型)

既然现有的模型不行,作者自己造了一个新模型,叫 SNav

SNav 是怎么变聪明的?
它不像其他模型那样只靠“死记硬背”指令。作者给它开了一堂**“特训营”**:

  1. 生成特训数据: 他们专门生成了很多包含“空间逻辑”的指令(比如精确的距离、复杂的视角转换)。
  2. 针对性训练: 让 SNav 在这些特训数据上反复练习,强迫它学会**“把空间概念转化为具体的脚步”**。

效果:
SNav 在考试中击败了所有对手,包括那些昂贵的商业大模型。在真实的机器人(四足机器人)测试中,SNav 的成功率也最高。它就像是一个**“经过特训的导航员”**,不仅听得懂指令,还能在脑子里构建出精确的 3D 地图,一步步精准执行。

5. 核心启示(总结)

这篇论文告诉我们一个重要的道理:
“看懂图片”不等于“会走路”。

现在的 AI 大模型就像拥有百科全书的导游,它们能告诉你“前面有个公园”,但如果你让它“走到公园长椅的左边两米处”,它可能会迷路。

  • 以前的方向: 让 AI 更聪明地“说话”和“看图”。
  • 未来的方向: 让 AI 学会**“在脑子里画地图”**,把空间感知真正转化为行动。

一句话总结:
NavSpace 就像给机器人发了一张**“空间智商体检表”,发现现在的 AI 虽然“脑子好使”(语言能力强),但“方向感极差”(空间能力弱)。作者通过训练一个新的模型 SNav,成功让机器人学会了“脚踏实地”地理解空间**,为未来真正的智能机器人铺平了道路。