Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

El artículo presenta Graph-of-Mark (GoM), una técnica de prompting visual basada en grafos que mejora el razonamiento espacial de los modelos de lenguaje multimodales al superponer grafos de escena en las imágenes, logrando aumentos significativos en tareas de localización y preguntas visuales sin necesidad de entrenamiento adicional.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un amigo muy inteligente, pero un poco distraído, que es experto en describir cosas que ve, pero que a veces se confunde con la ubicación de los objetos. Si le muestras una foto de una cocina y le preguntas: "¿La planta está debajo del horno?", él podría decirte "sí" o "no" basándose en lo que cree que es una planta, pero sin entender realmente dónde está colocada en relación con el horno.

Este es el problema que resuelve el nuevo método llamado Graph-of-Mark (GoM), presentado en este paper. Aquí te lo explico como si fuera una historia:

🎨 El Problema: La "Bolsa de Objetos"

Imagina que las Inteligencias Artificiales actuales (llamadas Modelos de Lenguaje Multimodales) miran una foto como si fuera una bolsa de juguetes desordenada.

  • Ven un "horno".
  • Ven una "planta".
  • Ven un "microondas".

Pero no entienden cómo se relacionan entre sí. No saben que la planta está encima del microondas y que el microondas está a la derecha del horno. Para la IA, son solo objetos sueltos.

🏷️ La Vieja Solución: "Set-of-Mark" (Etiquetas Solas)

Antes, los investigadores intentaron ayudar a la IA poniendo números sobre los objetos (como poner una etiqueta "1" en el horno y una "2" en la planta).

  • La analogía: Es como ponerle un nombre a cada persona en una fiesta, pero no decirles quiénes son amigos o quiénes están parados uno al lado del otro.
  • El resultado: La IA sabe qué es cada cosa, pero sigue confundida sobre dónde están en relación unas con otras.

🕸️ La Nueva Solución: Graph-of-Mark (GoM)

Aquí es donde entra la magia de GoM. En lugar de solo poner números, este método dibuja un mapa de conexiones directamente sobre la foto.

Imagina que la IA es un arquitecto que necesita entender la estructura de una casa. GoM le entrega un plano de relaciones superpuesto en la imagen:

  1. Nodos (Los Objetos): Sigue poniendo las etiquetas en los objetos (como antes).
  2. Aristas (Las Flechas): ¡Aquí está la clave! Dibuja flechas que conectan los objetos.
    • Si la planta está encima del horno, dibuja una flecha que va del horno a la planta con la etiqueta "Encima".
    • Si el horno está a la izquierda de la nevera, dibuja una flecha con la etiqueta "Izquierda".

La analogía perfecta:
Piensa en GoM como si le dieras a la IA una foto con un diagrama de flujo dibujado encima.

  • Sin GoM: La IA ve una foto borrosa de una fiesta y tiene que adivinar quién está hablando con quién.
  • Con GoM: La IA ve la misma foto, pero ahora tiene líneas de colores que dicen: "Juan está hablando con María", "María está a la derecha de Pedro". ¡El mapa de relaciones está dibujado en la imagen misma!

🚀 ¿Por qué es genial esto?

  1. No necesita "re-entrenar" al cerebro: Lo mejor de GoM es que no tienes que volver a enseñarle todo al modelo de IA (lo cual es caro y lento). Solo le das la foto "mejorada" con las flechas y las etiquetas, y la IA entiende instantáneamente mejor la escena. Es como darle unas gafas especiales a alguien que ya sabe leer, pero que necesita ver mejor las relaciones.
  2. Funciona con modelos pequeños: No necesitas una IA gigante y costosa. Funciona muy bien incluso con modelos más pequeños y accesibles, haciéndolos parecer mucho más inteligentes.
  3. Mejora la lógica espacial: En pruebas reales, al usar este método, la IA acertó mucho más en preguntas como "¿Qué está a la izquierda de...?" o "¿Qué está detrás de...?". Mejoró su precisión hasta en un 11%.

🧠 En resumen

El paper nos dice que para que una IA entienda el mundo visual, no basta con que sepa qué son las cosas (un perro, un coche), sino que necesita entender cómo se relacionan (el perro está debajo de la mesa).

Graph-of-Mark es simplemente la herramienta que toma una foto aburrida y le añade un dibujo de conexiones (flechas y textos) para que la IA pueda "ver" la lógica del espacio, tal como lo haría un humano al mirar un plano. ¡Es como darle a la computadora los ojos para ver las relaciones, no solo los objetos!