Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

本文评估了四种先进视觉语言模型在机器人运动空间推理方面的能力,发现经过微调的 Qwen2.5-VL 在零样本和特定查询方法下表现最佳,证明了将 VLM 集成到机器人运动规划流程以处理用户运动偏好的潜力。

Wenxi Wu, Jingjing Zhang, Martim Brandão

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给机器人找一位“超级导航员”,看看现在的**人工智能(VLMs,视觉语言模型)**能不能听懂人类那些有点“任性”的指令,比如“走远点别碰花瓶”或者“走个 S 形曲线”。

为了让你更轻松地理解,我们可以把这篇论文的研究过程想象成**“机器人选路大赛”**。

1. 核心故事:机器人迷路了,人类想给点“风格”

想象一下,你家里有个机器人,它想从客厅走到厨房。

  • 传统机器人:只会走直线,或者走最近的路,不管旁边有没有花瓶,也不管路好不好看。
  • 你的新指令:你希望它“绕着沙发走,别碰窗户”或者“走个像波浪一样的路”。

这就难住了机器人。它需要一位“裁判”,既能看懂图(机器人走的路线),又能听懂人话(你的指令),然后从一堆路线里挑出最符合你心意的那一条。

这篇论文就是请了四位“超级裁判”(也就是四种最先进的人工智能模型,如 Qwen2.5-VL 和 GPT-4o),来测试它们能不能当好这个裁判。

2. 比赛规则:怎么出题?

研究者给机器人制造了 500 多个不同的场景(比如在家里导航,或者用手臂去拿东西),并生成了很多条可能的路线。然后,他们给这些路线画成了图,让 AI 裁判来打分。

为了测试 AI 到底怎么“看”图,研究者设计了四种**“提问方式”**(就像给裁判不同的看题工具):

  1. 一张图看所有(单图查询):把 5 条路线画在同一张图上,用不同颜色的点表示。让 AI 一眼看完,直接选最好的。
    • 比喻:就像老师把 5 份试卷摊在桌上,让你一眼挑出写得最好的。
  2. 一张张看(多图查询):把 5 条路线分开,每次只给 AI 看一张图,让它给这一张打分,最后比总分。
    • 比喻:就像把 5 份试卷一张张递给你,你看完一张打一个分,最后再汇总。
  3. 先描述再选(视觉上下文):先让 AI 把图里的东西(桌子、花瓶、路线)用文字描述一遍,然后再让它选。
    • 比喻:先让 AI 当“解说员”把画面讲一遍,再让它当“评委”。
  4. 看视频截图(截图画廊):把机器人走路的每一帧都截下来,排成一行行,让 AI 选哪一行最符合指令。
    • 比喻:就像看短视频的缩略图列表,选一个最顺眼的。

3. 比赛结果:谁赢了?

结果非常有趣,就像一场意外:

  • 冠军Qwen2.5-VL(一个来自中国的模型)。它表现最好,准确率达到了 71.4%
    • 特别之处:它最擅长理解“离物体远一点”这种指令(比如“离窗户远点”)。
  • 亚军GPT-4o(大家熟悉的 OpenAI 模型)。它反而表现不如 Qwen,准确率较低。
    • 原因:可能是因为 GPT-4o 太擅长“聊天”了,但在这种需要精确比较空间距离的“看图题”上,它反而有点“想太多”或者“记不住”。
  • 最佳提问方式“一张图看所有”(方法 1)是无敌的。
    • 为什么:当所有路线都在一张图上时,AI 可以像人一样直接对比(“这条离花瓶太近,那条太远”)。如果分开看(方法 2),AI 就像失去了参照物,容易“失忆”,不知道刚才那条路离花瓶有多远。

4. 两个有趣的发现

  1. “小模型”也能变强
    研究者发现,如果给那些比较小的模型(比如只有 70 亿参数的模型)喂一点点数据(就像给它们上一堂“特训课”),它们的准确率能瞬间提升 20% 到 60%

    • 比喻:就像让一个普通学生背了 10 道例题,下次考试就能拿高分了。这说明这些模型很聪明,学得快。
  2. 算力与精度的“天平”
    如果你给 AI 看的图片太小(为了省流量或省钱),它的准确率就会直线下降。

    • 比喻:就像让你看一张只有邮票那么大的地图找路,肯定容易走错。图片越清晰(用的“算力”越多),它看得越准。

5. 裁判也会“犯傻”

虽然 AI 很强,但它们也有两个常见的毛病:

  • 数数不行:如果让你选“最短的路”或“最长的路”,AI 经常选错。这反而是传统数学算法(比如经典的路径规划)最擅长的。
  • 幻觉(Hallucination):AI 有时会“瞎编”。比如你问它“哪条是红色的路”,它可能会指着一条蓝色的路说“这是红色的”,或者选了一条根本不存在的路线。

总结:这有什么用?

这篇论文告诉我们,未来的机器人可能真的能听懂你的“风格”指令了

以前,你只能命令机器人“去厨房”;以后,你可以说:“去厨房,但走慢点,别撞到我的猫,最好走个优雅的弧线。”

虽然现在的 AI 裁判还不够完美(偶尔会看错或瞎编),但只要稍微“特训”一下,或者给它们看更清晰的图,它们就能成为机器人非常得力的**“空间感助手”**,让机器人变得更懂人类,更灵活,也更安全。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →