Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Graph-of-Mark (GoM) 的新方法，旨在让多模态大语言模型（MLM，即能同时看懂图片和文字的 AI）变得更擅长“空间推理”。

简单来说，就是教 AI 不仅知道“图里有什么”，还要知道“这些东西在哪里，以及它们之间是什么关系”。

为了让你更容易理解，我们可以用几个生动的比喻来拆解这项技术：

1. 以前的 AI 像什么？（Set-of-Mark 的局限）

想象一下，你给一个 AI 看一张厨房的照片，问它：“烤箱下面的盆栽在哪里？”
以前的方法（比如 Set-of-Mark）就像是在照片上给每个物体贴个数字标签（比如烤箱是"1"，盆栽是"2"）。

问题在于：AI 虽然看到了"1"和"2"，但它不知道"1"和"2"之间有什么关系。它就像看着一堆散落的积木，知道积木上有编号，但不知道积木是堆在一起的还是分开的。
结果：AI 经常搞错方向，比如把“左边”说成“右边”，或者把“上面”说成“下面”。它把物体当成了孤立的个体，忽略了它们之间的空间联系。

2. GoM 做了什么？（给 AI 画一张“关系地图”）

GoM 的做法更聪明。它不仅仅给物体贴标签，还会在图片上直接画出它们之间的关系。

比喻：想象你在看一张复杂的地铁线路图。以前的 AI 只知道每个站点（物体）的名字，但不知道线路（关系）。GoM 则是在图片上直接画出了箭头和连线，告诉 AI：“盆栽（节点 A）在烤箱（节点 B）的下面，并且靠近它”。
具体操作：
1. 自动识别：AI 先自动找出图里的所有东西（物体检测）。
2. 建立关系：AI 计算它们的位置，判断谁在谁上面、谁在谁后面、谁离谁很近。
3. 视觉呈现：AI 把这些关系变成箭头和文字标签，直接画在原图上。比如，从盆栽画一个箭头指向烤箱，旁边写上“在...下面”。

3. 为什么这很重要？（从“看清单”到“看地图”）

这就好比：

以前的方法：给你一张购物清单，上面写着“苹果、香蕉、牛奶”。你拿着清单去超市，但不知道它们摆在哪个货架，也不知道谁挨着谁。
GoM 的方法：给你一张超市的导航图，上面不仅标了商品，还用箭头标出了“牛奶在苹果的正上方，香蕉在牛奶的右边”。

通过这种“视觉提示”，AI 不需要重新训练（不需要花几个月重新学习），就能直接利用这些画在图上的线索，瞬间理解空间关系。

4. 实验结果怎么样？

研究人员在 3 种不同的开源 AI 模型和 4 个不同的数据集上测试了这种方法。

效果显著：在回答关于位置的问题（比如“哪个在左边？”）时，准确率最高提升了 11%。
通用性强：不管是什么类型的 AI 模型，只要加上这个“关系地图”，表现都会变好。
轻量级：这个过程很快，不需要昂贵的超级计算机，普通的电脑就能处理。

5. 这对我们意味着什么？

这项技术让 AI 变得更像人类，能真正“看懂”场景，而不仅仅是识别物体。

应用场景：
- 机器人：让机器人能更准确地抓取物体（比如“把杯子放在盘子左边"）。
- 医疗：帮助医生分析 X 光片，理解器官之间的相对位置。
- 自动驾驶：更好地理解周围车辆和行人的动态关系。
- 增强现实 (AR)：在眼镜上显示更准确的导航信息。

总结

Graph-of-Mark (GoM) 就像是给 AI 的眼睛戴上了一副特制的眼镜。这副眼镜不仅能让 AI 看清物体，还能自动在物体之间画出关系线，告诉 AI 它们是如何在空间中互动的。这让 AI 从只会“数数”的笨小孩，变成了能理解“方位”和“布局”的聪明助手。

这项研究最大的亮点在于它是免费且即插即用的（不需要重新训练模型），就像给现有的 AI 模型装了一个免费的“空间思维插件”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：尽管多模态大语言模型（MLMs）在视觉理解方面取得了显著进展，但在**空间推理（Spatial Reasoning）**方面仍存在严重缺陷。现有模型往往将图像视为“物体的集合（bags of objects）”，而忽略了物体之间的空间排列和相互关系（如上下、左右、前后、远近）。
现有方法的局限：
- 微调（Fine-tuning）：虽然有效，但计算成本高昂，且缺乏跨任务、跨领域的灵活性。
- 现有视觉提示（Visual Prompting）：如 Set-of-Mark (SoM) 等技术，通过在图像上标记物体区域（如数字框）来辅助定位。然而，这些方法将标记的物体视为孤立实体，未能捕捉物体间的关系结构（Relational Structure），导致模型难以理解复杂的场景语义。
目标：提出一种无需训练（Training-free）、基于像素级的视觉提示方法，能够显式地将场景图（Scene Graph）嵌入图像中，以增强 MLM 的空间推理能力。

2. 方法论：Graph-of-Mark (GoM)

GoM 是一种创新的视觉提示技术，它通过在输入图像上叠加场景图（Scene Graph, SG），将物体及其空间关系可视化，从而引导模型进行推理。

核心流程

对象检测与分割 (Object Detection & Segmentation)：
- 采用“由粗到细”的策略。
- 检测：集成多个检测器（OWL-V2, YOLOv8-X, Mask R-CNN）以最大化物体召回率，使用加权框融合（WBF）处理重叠框。
- 分割：使用 SAM-HQ 将矩形框细化为精确的物体掩码（Mask）。
关系估计 (Relation Estimation)：
- 构建包含 7 种关系类型的本体论，分为三组：
  - 方向性：上、下、左、右。
  - 深度堆叠：在前、在后（利用单目深度估计模型 MiDaS 获取相对深度）。
  - 邻近性：近、接触、非常近。
- 通过计算物体中心位移向量、深度差和欧几里得距离来判定关系。
过滤机制 (Filtering)：
- 对象过滤：仅保留与用户查询（Query）显式或隐式相关的对象（通过语义匹配和余弦相似度）。
- 关系过滤：保留每个对象的前 $k$ 个最相关关系，优先保留近距离和查询相关的关系，去除冗余（如同时保留直接和逆关系）。
场景图渲染 (Scene Graph Rendering)：
- 节点标记：为每个物体绘制带颜色的掩码（同类同色）和唯一的 ID 标记（数字或文本，如 oven_1）。
- 边标记：使用带箭头的连线表示关系，箭头颜色与头部物体一致。
- 标签渲染：在箭头旁添加文本标签（如 "Above", "Left Of"）。
- 防冲突布局：设计了一种新的分配算法，动态调整 ID 和标签的位置，避免重叠，并使用虚线连接标签与其对应的箭头中点，保持视觉连贯性。
提示策略 (Prompting)：
- 纯视觉 SG：仅输入增强后的图像 $I_{SG}$ 和任务指令。
- 视觉 + 文本 SG：输入 $I_{SG}$ 以及将场景图转化为文本描述（Triplets）的提示 $T_{SG}$ 。

3. 关键贡献 (Key Contributions)

首创像素级图提示：提出了 Graph-of-Mark (GoM)，这是首个将场景图直接叠加在输入图像像素上的视觉提示技术，无需微调模型即可实现零样本（Zero-shot）空间推理。
显式关系建模：突破了现有方法（如 SoM）仅关注孤立物体的局限，通过可视化物体间的空间关系（方向、深度、邻近），填补了 MLM 在关系建模上的空白。
通用性与轻量化：作为一个即插即用（Plug-and-play）模块，GoM 兼容任何现有的 MLM，利用开源检测器和分割器自动构建场景图，无需特定领域的标注数据。
全面的消融实验：深入研究了不同标记类型（数字 vs 文本 ID）、关系标签的存在与否、以及视觉与文本提示组合对模型性能的影响。

4. 实验结果 (Results)

实验设置：
- 模型：在 3 个开源 MLM 上测试（Qwen-2.5-VL-7B, Gemma-3-4B, LlamaV-o1-11B）。
- 数据集：4 个公开数据集，涵盖视觉问答（VQA: GQA, VQAv1, VQAv2）和指代表达理解（REC: RefCOCOg）。
主要发现：
- 性能提升：GoM 在所有测试模型和数据集上均表现出一致的性能提升。在 VQA 和定位任务中，准确率最高提升了 11 个百分点。
- 对比基线：GoM 显著优于原始图像、仅分割掩码以及 Set-of-Mark (SoM) 基线。
- 模型适应性：即使是参数量较小（≤11B）的开源模型，也能有效利用 GoM 进行空间推理。推理模型（如 LlamaV-o1）表现尤为出色。
- 最佳配置：
  - 在 VQA 任务中，使用文本 ID 且不带关系标签的配置通常表现最佳。
  - 在 REC 任务中，数字 ID 更有效。
  - 场景图的密度（3-10 个实体，4-16 条边）对性能至关重要，过多的标注会引入噪声。
- 多模态协同：结合视觉场景图（ $I_{SG}$ ）和文本场景图描述（ $T_{SG}$ ）能带来额外的性能增益，证明了视觉提示在激活模型潜在推理能力方面的核心作用。
- 效率：GoM 带来的额外计算开销极低（平均每张图增加约 1.13 秒），远低于其带来的推理能力提升价值。

5. 意义与展望 (Significance)

理论意义：证明了无需重新训练，仅通过改变输入图像的视觉结构（嵌入关系图），即可显著提升 MLM 对空间关系的理解能力。这为“视觉即提示”（Visual as Prompt）的研究开辟了新方向。
应用价值：
- 通用性：适用于各种需要空间理解的下游任务，如机器人操作、增强现实（AR）、自主导航等。
- 医疗领域：论文特别指出，GoM 在医学图像分析（如手术视频分析、淋巴结风险评估）中具有巨大潜力，可帮助医疗 MLM 在无需大量标注数据的情况下实现高精度的空间定位和诊断。
未来方向：包括处理复杂场景的超图（Hypergraphs）、利用立体视觉改进深度推理、以及扩展至视频理解（时序建模）。

总结：GoM 通过巧妙地将抽象的场景图转化为直观的视觉提示，成功解决了多模态大模型在空间推理上的“盲区”，为构建更具空间感知能力的智能系统提供了一种高效、低成本且通用的解决方案。

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

1. 以前的 AI 像什么？（Set-of-Mark 的局限）

2. GoM 做了什么？（给 AI 画一张“关系地图”）

3. 为什么这很重要？（从“看清单”到“看地图”）

4. 实验结果怎么样？

5. 这对我们意味着什么？

总结

1. 研究背景与问题 (Problem)

2. 方法论：Graph-of-Mark (GoM)

核心流程

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers