Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本文提出了 Graph-of-Mark (GoM),一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术,实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Graph-of-Mark (GoM) 的新方法,旨在让多模态大语言模型(MLM,即能同时看懂图片和文字的 AI)变得更擅长“空间推理”。

简单来说,就是教 AI 不仅知道“图里有什么”,还要知道“这些东西在哪里,以及它们之间是什么关系”。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 以前的 AI 像什么?(Set-of-Mark 的局限)

想象一下,你给一个 AI 看一张厨房的照片,问它:“烤箱下面的盆栽在哪里?”
以前的方法(比如 Set-of-Mark)就像是在照片上给每个物体贴个数字标签(比如烤箱是"1",盆栽是"2")。

  • 问题在于:AI 虽然看到了"1"和"2",但它不知道"1"和"2"之间有什么关系。它就像看着一堆散落的积木,知道积木上有编号,但不知道积木是堆在一起的还是分开的。
  • 结果:AI 经常搞错方向,比如把“左边”说成“右边”,或者把“上面”说成“下面”。它把物体当成了孤立的个体,忽略了它们之间的空间联系

2. GoM 做了什么?(给 AI 画一张“关系地图”)

GoM 的做法更聪明。它不仅仅给物体贴标签,还会在图片上直接画出它们之间的关系

  • 比喻:想象你在看一张复杂的地铁线路图。以前的 AI 只知道每个站点(物体)的名字,但不知道线路(关系)。GoM 则是在图片上直接画出了箭头和连线,告诉 AI:“盆栽(节点 A)在烤箱(节点 B)的下面,并且靠近它”。
  • 具体操作
    1. 自动识别:AI 先自动找出图里的所有东西(物体检测)。
    2. 建立关系:AI 计算它们的位置,判断谁在谁上面、谁在谁后面、谁离谁很近。
    3. 视觉呈现:AI 把这些关系变成箭头文字标签,直接画在原图上。比如,从盆栽画一个箭头指向烤箱,旁边写上“在...下面”。

3. 为什么这很重要?(从“看清单”到“看地图”)

这就好比:

  • 以前的方法:给你一张购物清单,上面写着“苹果、香蕉、牛奶”。你拿着清单去超市,但不知道它们摆在哪个货架,也不知道谁挨着谁。
  • GoM 的方法:给你一张超市的导航图,上面不仅标了商品,还用箭头标出了“牛奶在苹果的正上方,香蕉在牛奶的右边”。

通过这种“视觉提示”,AI 不需要重新训练(不需要花几个月重新学习),就能直接利用这些画在图上的线索,瞬间理解空间关系。

4. 实验结果怎么样?

研究人员在 3 种不同的开源 AI 模型和 4 个不同的数据集上测试了这种方法。

  • 效果显著:在回答关于位置的问题(比如“哪个在左边?”)时,准确率最高提升了 11%
  • 通用性强:不管是什么类型的 AI 模型,只要加上这个“关系地图”,表现都会变好。
  • 轻量级:这个过程很快,不需要昂贵的超级计算机,普通的电脑就能处理。

5. 这对我们意味着什么?

这项技术让 AI 变得更像人类,能真正“看懂”场景,而不仅仅是识别物体。

  • 应用场景
    • 机器人:让机器人能更准确地抓取物体(比如“把杯子放在盘子左边")。
    • 医疗:帮助医生分析 X 光片,理解器官之间的相对位置。
    • 自动驾驶:更好地理解周围车辆和行人的动态关系。
    • 增强现实 (AR):在眼镜上显示更准确的导航信息。

总结

Graph-of-Mark (GoM) 就像是给 AI 的眼睛戴上了一副特制的眼镜。这副眼镜不仅能让 AI 看清物体,还能自动在物体之间画出关系线,告诉 AI 它们是如何在空间中互动的。这让 AI 从只会“数数”的笨小孩,变成了能理解“方位”和“布局”的聪明助手。

这项研究最大的亮点在于它是免费且即插即用的(不需要重新训练模型),就像给现有的 AI 模型装了一个免费的“空间思维插件”。