Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas que às vezes é um pouco "cego" para o contexto. Ele consegue ver perfeitamente um gato, uma cadeira e uma mesa numa foto, mas se você perguntar: "O gato está em cima da mesa ou embaixo dela?", ele pode ficar confuso e apenas listar os objetos: "Tem um gato, tem uma mesa". Ele vê as peças, mas não entende como elas se encaixam no quebra-cabeça.

Esse é o problema que os pesquisadores da Universidade de Bolonha (na Itália) tentaram resolver com uma nova técnica chamada Graph-of-Mark (ou "Grafo-de-Marca", em português).

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O "Saco de Objetos"

As Inteligências Artificiais atuais (chamadas de Modelos de Linguagem Multimodais) são ótimas em reconhecer coisas. Mas elas tendem a ver as imagens como um "saco de objetos soltos". Elas sabem que há um "pote de planta" e um "forno", mas não entendem automaticamente que a planta está ao lado do forno e acima da bancada. Elas precisam ser "ensinadas" a prestar atenção nesses detalhes espaciais, o que geralmente exige reprogramar o cérebro da IA (o que é caro e demorado).

2. A Solução Antiga: O "Post-it" Numérico

Antes dessa nova técnica, existia um método chamado Set-of-Mark (Conjunto de Marcas). Imagine que você pega a foto e cola um post-it com um número em cada objeto: "1" no forno, "2" na planta.

  • O problema: Isso ajuda a IA a apontar para o objeto, mas ainda não diz nada sobre a relação entre eles. É como ter uma lista de endereços, mas sem saber quem mora ao lado de quem.

3. A Inovação: O "Mapa de Metrópole" (Graph-of-Mark)

Os autores criaram o Graph-of-Mark (GoM). Em vez de apenas colar números, eles transformam a foto em um mapa de trânsito vivo.

Imagine que a foto é uma cidade:

  • Os Objetos são os prédios.
  • As Setas são as ruas que conectam os prédios.
  • Os Letreiros nas ruas dizem o nome da conexão: "Rua da Esquerda", "Avenida de Trás", "Ponte de Cima".

O GoM faz três coisas mágicas na imagem antes de mostrá-la para a IA:

  1. Identifica quem é quem (como um detetive).
  2. Desenha setas conectando os objetos que têm relação (ex: a planta está acima do forno).
  3. Escreve legendas nessas setas (ex: "Acima", "Ao lado", "Atrás").

É como se você estivesse explicando a cena para a IA com um desenho esquemático sobre a foto, dizendo: "Olhe, veja essa seta vermelha? Ela diz que a planta está acima do forno".

4. Por que isso é genial?

  • Sem Re-treinamento: Você não precisa mudar o "cérebro" da IA. Você apenas muda a "foto" que ela recebe. É como dar um mapa melhor para um motorista, em vez de ensinar o motorista a dirigir de novo.
  • Funciona em Modelos Pequenos: Funciona até em IAs mais leves e gratuitas, não apenas nas supercaras e caras das grandes empresas.
  • Resultados: Nos testes, a IA com esse "mapa" ficou até 11% mais inteligente em perguntas de localização. Ela parou de adivinhar e começou a "ver" a lógica do espaço.

5. Um Exemplo Prático

Pense numa pergunta difícil: "O vaso de planta está abaixo do forno?"

  • Sem o GoM: A IA olha a foto, vê os dois, mas pode errar porque não "sente" a profundidade ou a posição relativa.
  • Com o GoM: A IA vê uma seta desenhada na foto que diz "PLANTA -> ACIMA -> FORNO". A resposta se torna óbvia e imediata.

Resumo em uma frase

O Graph-of-Mark é como colocar óculos de realidade aumentada na Inteligência Artificial, desenhando setas e legendas diretamente na foto para mostrar explicitamente onde as coisas estão e como elas se relacionam, tornando a IA muito mais esperta em entender o mundo ao seu redor, sem precisar de um "curso" novo.

Isso é um grande passo para robôs que precisam navegar em casas, assistentes médicos que analisam exames de imagem e qualquer sistema que precise entender não apenas o que está na foto, mas como as coisas estão organizadas.