Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas que às vezes é um pouco "cego" para o contexto. Ele consegue ver perfeitamente um gato, uma cadeira e uma mesa numa foto, mas se você perguntar: "O gato está em cima da mesa ou embaixo dela?", ele pode ficar confuso e apenas listar os objetos: "Tem um gato, tem uma mesa". Ele vê as peças, mas não entende como elas se encaixam no quebra-cabeça.

Esse é o problema que os pesquisadores da Universidade de Bolonha (na Itália) tentaram resolver com uma nova técnica chamada Graph-of-Mark (ou "Grafo-de-Marca", em português).

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O "Saco de Objetos"

As Inteligências Artificiais atuais (chamadas de Modelos de Linguagem Multimodais) são ótimas em reconhecer coisas. Mas elas tendem a ver as imagens como um "saco de objetos soltos". Elas sabem que há um "pote de planta" e um "forno", mas não entendem automaticamente que a planta está ao lado do forno e acima da bancada. Elas precisam ser "ensinadas" a prestar atenção nesses detalhes espaciais, o que geralmente exige reprogramar o cérebro da IA (o que é caro e demorado).

2. A Solução Antiga: O "Post-it" Numérico

Antes dessa nova técnica, existia um método chamado Set-of-Mark (Conjunto de Marcas). Imagine que você pega a foto e cola um post-it com um número em cada objeto: "1" no forno, "2" na planta.

O problema: Isso ajuda a IA a apontar para o objeto, mas ainda não diz nada sobre a relação entre eles. É como ter uma lista de endereços, mas sem saber quem mora ao lado de quem.

3. A Inovação: O "Mapa de Metrópole" (Graph-of-Mark)

Os autores criaram o Graph-of-Mark (GoM). Em vez de apenas colar números, eles transformam a foto em um mapa de trânsito vivo.

Imagine que a foto é uma cidade:

Os Objetos são os prédios.
As Setas são as ruas que conectam os prédios.
Os Letreiros nas ruas dizem o nome da conexão: "Rua da Esquerda", "Avenida de Trás", "Ponte de Cima".

O GoM faz três coisas mágicas na imagem antes de mostrá-la para a IA:

Identifica quem é quem (como um detetive).
Desenha setas conectando os objetos que têm relação (ex: a planta está acima do forno).
Escreve legendas nessas setas (ex: "Acima", "Ao lado", "Atrás").

É como se você estivesse explicando a cena para a IA com um desenho esquemático sobre a foto, dizendo: "Olhe, veja essa seta vermelha? Ela diz que a planta está acima do forno".

4. Por que isso é genial?

Sem Re-treinamento: Você não precisa mudar o "cérebro" da IA. Você apenas muda a "foto" que ela recebe. É como dar um mapa melhor para um motorista, em vez de ensinar o motorista a dirigir de novo.
Funciona em Modelos Pequenos: Funciona até em IAs mais leves e gratuitas, não apenas nas supercaras e caras das grandes empresas.
Resultados: Nos testes, a IA com esse "mapa" ficou até 11% mais inteligente em perguntas de localização. Ela parou de adivinhar e começou a "ver" a lógica do espaço.

5. Um Exemplo Prático

Pense numa pergunta difícil: "O vaso de planta está abaixo do forno?"

Sem o GoM: A IA olha a foto, vê os dois, mas pode errar porque não "sente" a profundidade ou a posição relativa.
Com o GoM: A IA vê uma seta desenhada na foto que diz "PLANTA -> ACIMA -> FORNO". A resposta se torna óbvia e imediata.

Resumo em uma frase

O Graph-of-Mark é como colocar óculos de realidade aumentada na Inteligência Artificial, desenhando setas e legendas diretamente na foto para mostrar explicitamente onde as coisas estão e como elas se relacionam, tornando a IA muito mais esperta em entender o mundo ao seu redor, sem precisar de um "curso" novo.

Isso é um grande passo para robôs que precisam navegar em casas, assistentes médicos que analisam exames de imagem e qualquer sistema que precise entender não apenas o que está na foto, mas como as coisas estão organizadas.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Modelos de Linguagem Multimodais (MLMs) avançaram significativamente, mas ainda enfrentam dificuldades crônicas em raciocínio espacial. Estudos recentes indicam que, mesmo nos modelos mais avançados, as imagens são frequentemente tratadas como "sacos de objetos" (bags of objects), onde a detecção de entidades individuais ocorre, mas as relações espaciais entre elas (como "à esquerda de", "atrás de", "acima de") são ignoradas ou mal interpretadas.

As abordagens atuais de visual prompting (como o Set-of-Mark ou SoM) tentam mitigar isso dividindo a imagem em regiões e anotando-as com marcadores (caixas numeradas). No entanto, essas técnicas tratam os objetos como entidades isoladas, falhando em capturar a estrutura relacional que governa a cena. Além disso, métodos que tentam corrigir isso via fine-tuning são computacionalmente caros e pouco flexíveis para novas tarefas.

2. Metodologia: Graph-of-Mark (GoM)

O artigo propõe o Graph-of-Mark (GoM), a primeira técnica de visual prompting em nível de pixel, sem necessidade de treinamento (training-free), que sobrepõe grafos de cena (Scene Graphs) diretamente na imagem de entrada para auxiliar no raciocínio espacial.

O pipeline do GoM funciona da seguinte forma:

Detecção e Segmentação de Objetos:
- Utiliza um ensemble de detectores (OWL-V2, YOLOv8-X, Mask R-CNN) para identificar objetos e suas classes.
- Refina as caixas delimitadoras em máscaras de segmento precisas usando o SAM-HQ.
Estimativa de Relações (O Coração do GoM):
- Constrói um grafo onde os nós são os objetos e as arestas são as relações espaciais.
- Tipos de Relações: O sistema categoriza relações em direcionais (acima, abaixo, esquerda, direita), empilhamento de profundidade (na frente de, atrás de) e proximidade geral (perto).
- Profundidade: Utiliza um estimador de profundidade monocromático (MiDaS) para determinar relações de profundidade mesmo entre objetos não sobrepostos.
- Modificadores: Adiciona nuances como "tocando", "muito perto" ou "perto" baseadas na sobreposição (IoU) e distância normalizada.
Filtragem e Otimização:
- Aplica um pipeline de filtragem de duas etapas para reter apenas os objetos e relações relevantes para a consulta do usuário (query), evitando ruído visual excessivo.
- Ordena as relações por relevância e proximidade.
Renderização do Gráfico na Imagem:
- Marcadores de Nó: Objetos são destacados com máscaras coloridas e IDs únicos (numéricos ou textuais) posicionados estrategicamente para evitar colisões.
- Marcadores de Aresta: As relações são visualizadas como setas direcionadas coloridas (correspondendo ao objeto de origem) com rótulos textuais explicativos.
- Um algoritmo de alocação garante que os marcadores não se sobreponham de forma a confundir o modelo.
Prompting:
- O modelo recebe a imagem aumentada ( $I_{SG}$ ) e pode ou não receber uma descrição textual do grafo ( $T_{SG}$ ) como complemento.

3. Principais Contribuições

Primeira Abordagem de Prompting Visual com Grafos: O GoM é a primeira técnica a embutir diretamente a estrutura de um grafo de cena (nós e arestas) na imagem de entrada, permitindo que o MLM "veja" as relações espaciais em vez de apenas inferi-las do texto.
Método sem Treinamento (Training-Free): É um módulo plug-and-play compatível com qualquer MLM existente, sem necessidade de re-treinamento ou ajuste de arquitetura.
Análise de Componentes: O trabalho investiga sistematicamente o impacto de diferentes componentes: IDs numéricos vs. textuais, presença ou ausência de rótulos nas arestas, e a combinação de grafos visuais e textuais.
Código e Dados Abertos: O projeto foi lançado sob licença MIT, incluindo código, imagens pré-processadas e scripts de avaliação.

4. Resultados Experimentais

Os autores avaliaram o GoM em 3 modelos MLMs de código aberto (Gemma-3, Qwen-2.5-VL, LlamaV-o1) e 4 conjuntos de dados (GQA, VQAv1, VQAv2, RefCOCOg).

Desempenho Superior: O GoM superou consistentemente as técnicas de baseline (imagem crua, segmentação simples e Set-of-Mark).
- Houve melhorias de até 11 pontos percentuais na precisão base para tarefas de Resposta a Perguntas Visuais (VQA) e compreensão de expressões de referência (REC).
Impacto nos Modelos:
- O modelo Gemma-3 apresentou o ganho mais pronunciado.
- O LlamaV-o1 (um modelo de raciocínio) atingiu as pontuações absolutas mais altas, sugerindo que modelos com capacidades de raciocínio passo a passo aproveitam melhor a estrutura do grafo.
- O Qwen mostrou-se sensível ao Set-of-Mark tradicional (que degradava o desempenho), mas se beneficiou enormemente do GoM.
Avaliação Qualitativa: Exemplos mostram que, sem o grafo, os modelos frequentemente atribuem relações espaciais erradas (ex: dizer que uma planta está "abaixo" de um forno quando está "acima"). Com o GoM, a interpretação espacial torna-se precisa.
Eficiência: O custo computacional adicional para gerar o grafo é baixo (média de 1,13 segundos por imagem), sendo compensado pelo ganho significativo na precisão, especialmente em tarefas complexas de VQA.
Densidade do Grafo: O desempenho é ótimo com 3-10 entidades e 4-16 relações; anotações excessivas introduzem ruído.

5. Significado e Impacto

O GoM representa um avanço fundamental na forma como os modelos multimodais interagem com a realidade visual. Ao transformar a percepção de "coleção de objetos" para "rede de objetos interconectados", o método:

Democratiza o Raciocínio Espacial: Permite que modelos de código aberto e de recursos limitados alcancem desempenho competitivo em tarefas espaciais complexas sem o custo de re-treinamento.
Aplicações Práticas: É crucial para aplicações do mundo real que dependem de compreensão espacial precisa, como:
- Robótica e Navegação Autônoma: Manipulação de objetos e evitar colisões.
- Realidade Aumentada e Agentes de GUI: Interação precisa com interfaces e ambientes 3D.
- Saúde: Análise de imagens médicas e vídeos cirúrgicos, onde a relação espacial entre órgãos e instrumentos é vital.
Futuro: Abre caminho para o desenvolvimento de soluções híbridas (grafo-linguagem) e sugere direções futuras como hipergrafos para cenas complexas e modelagem temporal para vídeos.

Em resumo, o Graph-of-Mark demonstra que a injeção explícita de estrutura relacional visual no prompt é uma estratégia poderosa e eficiente para superar as limitações atuais de raciocínio espacial em IA.

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

1. O Problema: O "Saco de Objetos"

2. A Solução Antiga: O "Post-it" Numérico

3. A Inovação: O "Mapa de Metrópole" (Graph-of-Mark)

4. Por que isso é genial?

5. Um Exemplo Prático

Resumo em uma frase

1. O Problema

2. Metodologia: Graph-of-Mark (GoM)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers