Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un amigo muy inteligente, pero un poco distraído, que es experto en describir cosas que ve, pero que a veces se confunde con la ubicación de los objetos. Si le muestras una foto de una cocina y le preguntas: "¿La planta está debajo del horno?", él podría decirte "sí" o "no" basándose en lo que cree que es una planta, pero sin entender realmente dónde está colocada en relación con el horno.

Este es el problema que resuelve el nuevo método llamado Graph-of-Mark (GoM), presentado en este paper. Aquí te lo explico como si fuera una historia:

🎨 El Problema: La "Bolsa de Objetos"

Imagina que las Inteligencias Artificiales actuales (llamadas Modelos de Lenguaje Multimodales) miran una foto como si fuera una bolsa de juguetes desordenada.

Ven un "horno".
Ven una "planta".
Ven un "microondas".

Pero no entienden cómo se relacionan entre sí. No saben que la planta está encima del microondas y que el microondas está a la derecha del horno. Para la IA, son solo objetos sueltos.

🏷️ La Vieja Solución: "Set-of-Mark" (Etiquetas Solas)

Antes, los investigadores intentaron ayudar a la IA poniendo números sobre los objetos (como poner una etiqueta "1" en el horno y una "2" en la planta).

La analogía: Es como ponerle un nombre a cada persona en una fiesta, pero no decirles quiénes son amigos o quiénes están parados uno al lado del otro.
El resultado: La IA sabe qué es cada cosa, pero sigue confundida sobre dónde están en relación unas con otras.

🕸️ La Nueva Solución: Graph-of-Mark (GoM)

Aquí es donde entra la magia de GoM. En lugar de solo poner números, este método dibuja un mapa de conexiones directamente sobre la foto.

Imagina que la IA es un arquitecto que necesita entender la estructura de una casa. GoM le entrega un plano de relaciones superpuesto en la imagen:

Nodos (Los Objetos): Sigue poniendo las etiquetas en los objetos (como antes).
Aristas (Las Flechas): ¡Aquí está la clave! Dibuja flechas que conectan los objetos.
- Si la planta está encima del horno, dibuja una flecha que va del horno a la planta con la etiqueta "Encima".
- Si el horno está a la izquierda de la nevera, dibuja una flecha con la etiqueta "Izquierda".

La analogía perfecta:
Piensa en GoM como si le dieras a la IA una foto con un diagrama de flujo dibujado encima.

Sin GoM: La IA ve una foto borrosa de una fiesta y tiene que adivinar quién está hablando con quién.
Con GoM: La IA ve la misma foto, pero ahora tiene líneas de colores que dicen: "Juan está hablando con María", "María está a la derecha de Pedro". ¡El mapa de relaciones está dibujado en la imagen misma!

🚀 ¿Por qué es genial esto?

No necesita "re-entrenar" al cerebro: Lo mejor de GoM es que no tienes que volver a enseñarle todo al modelo de IA (lo cual es caro y lento). Solo le das la foto "mejorada" con las flechas y las etiquetas, y la IA entiende instantáneamente mejor la escena. Es como darle unas gafas especiales a alguien que ya sabe leer, pero que necesita ver mejor las relaciones.
Funciona con modelos pequeños: No necesitas una IA gigante y costosa. Funciona muy bien incluso con modelos más pequeños y accesibles, haciéndolos parecer mucho más inteligentes.
Mejora la lógica espacial: En pruebas reales, al usar este método, la IA acertó mucho más en preguntas como "¿Qué está a la izquierda de...?" o "¿Qué está detrás de...?". Mejoró su precisión hasta en un 11%.

🧠 En resumen

El paper nos dice que para que una IA entienda el mundo visual, no basta con que sepa qué son las cosas (un perro, un coche), sino que necesita entender cómo se relacionan (el perro está debajo de la mesa).

Graph-of-Mark es simplemente la herramienta que toma una foto aburrida y le añade un dibujo de conexiones (flechas y textos) para que la IA pueda "ver" la lógica del espacio, tal como lo haría un humano al mirar un plano. ¡Es como darle a la computadora los ojos para ver las relaciones, no solo los objetos!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Graph-of-Mark (GoM)

1. Planteamiento del Problema

A pesar de los avances recientes en Modelos de Lenguaje Multimodales (MLM), la razonamiento espacial sigue siendo un desafío crítico. Los modelos de vanguardia tienden a tratar las imágenes como "bolsas de objetos" (colecciones de entidades aisladas) en lugar de comprender la estructura relacional y la disposición espacial que define la semántica de una escena.

Limitaciones actuales: Las técnicas de visual prompting existentes, como Set-of-Mark (SoM), mejoran la localización de objetos al superponer marcadores (cajas con números) sobre regiones detectadas. Sin embargo, tratan estos objetos como entidades independientes, ignorando las relaciones espaciales (ej. "arriba de", "detrás de", "cerca de") que son fundamentales para tareas complejas.
Costo de las alternativas: Las soluciones basadas en fine-tuning (ajuste fino) para mejorar la inteligencia espacial son computacionalmente costosas, inflexibles y difíciles de generalizar a nuevos dominios.
La brecha: Existe una necesidad de un método training-free (sin reentrenamiento) que pueda inyectar conciencia espacial explícita en modelos MLM existentes mediante el uso de estructuras gráficas visuales.

2. Metodología: Graph-of-Mark (GoM)

GoM es la primera técnica de visual prompting a nivel de píxel que superpone grafos de escena (Scene Graphs) directamente sobre la imagen de entrada para tareas de razonamiento espacial. Funciona como un módulo ligero y plug-and-play.

El proceso se divide en cuatro etapas principales:

Detección y Segmentación de Objetos:
- Utiliza un enfoque de "coarse-to-fine" (de grueso a fino) combinando detectores de vocabulario abierto (OWL-V2) y cerrados (YOLOv8, Mask R-CNN) para maximizar la cobertura de objetos.
- Refina las cajas delimitadoras en máscaras de segmentación precisas (usando SAM-HQ) para definir las regiones de los nodos del grafo.
Estimación de Relaciones (El núcleo de GoM):
- Construye un grafo donde los nodos son instancias de objetos y las aristas representan relaciones espaciales.
- Tipos de relaciones: Se define una ontología con 7 tipos de relaciones agrupadas en:
  - Direccional: arriba, abajo, izquierda, derecha.
  - Profundidad/Apila: delante, detrás (usando estimación de profundidad monoculares como MiDaS).
  - Proximidad general: cerca.
- Se incluyen modificadores basados en la distancia (ej. "tocando", "muy cerca") para mayor expresividad.
Filtrado y Selección:
- Para evitar ruido, el sistema filtra los objetos y relaciones irrelevantes para la consulta del usuario (query).
- Mantiene solo los objetos mencionados (explícita o implícitamente) y sus relaciones top-k más relevantes, priorizando la proximidad espacial y la relevancia semántica.
Renderizado del Gráfico (Visualización):
- Nodos: Se dibujan máscaras semitransparentes con bordes de colores específicos por clase. Se añaden etiquetas de ID (numéricas o textuales) dentro o cerca de los objetos.
- Aristas: Se visualizan como flechas dirigidas (cabeza a cola) coloreadas según el objeto de origen.
- Etiquetas de Arista: Se pueden añadir etiquetas de texto (ej. "Above", "Left Of") en cajas junto a las flechas.
- Algoritmo de Asignación: Se utiliza una estrategia novedosa para evitar colisiones entre marcas, desplazando iterativamente etiquetas y flechas para mantener la coherencia visual.

Modos de Prompting:

Visual SG: El modelo recibe solo la imagen anotada ( $I_{SG}$ ) y la instrucción de texto.
Visual + Textual SG: Se añade una representación verbalizada del grafo en el prompt de texto ( $T_{SG}$ ) para complementar la imagen.

3. Contribuciones Clave

Primera técnica de Visual Prompting basada en Grafos: GoM es el primer método que incrusta explícitamente la estructura de un grafo de escena (nodos y aristas) directamente en la imagen de entrada para inferencia zero-shot.
Independencia del Modelo: No requiere reentrenamiento ni cambios arquitectónicos; es compatible con cualquier MLM que acepte imágenes y texto.
Análisis de Relaciones: A diferencia de SoM, GoM no solo localiza objetos, sino que comunica explícitamente las relaciones espaciales (incluyendo profundidad y dirección) a través de señales visuales.
Reproducibilidad: El código, los datos preprocesados y los scripts de evaluación se han liberado bajo licencia MIT.

4. Resultados Experimentales

Los autores evaluaron GoM en 3 modelos MLM de código abierto (Gemma-3, Qwen-2.5-VL, LlamaV-o1) y 4 conjuntos de datos (GQA, VQAv1, VQAv2, RefCOCOg).

Rendimiento General: GoM superó consistentemente a los modelos base y a las técnicas de prompting existentes (como SoM y segmentación simple).
Mejoras en Precisión: Se observaron mejoras de hasta 11 puntos porcentuales en tareas de localización y respuesta a preguntas visuales (VQA).
Impacto por Modelo:
- Gemma-3 mostró la mejora más pronunciada.
- LlamaV-o1 (modelo de razonamiento) alcanzó las puntuaciones absolutas más altas, demostrando que los modelos de razonamiento aprovechan mejor las representaciones gráficas.
- Qwen-2.5-VL mostró sensibilidad negativa con SoM (fallando al referenciar regiones), pero se benefició significativamente de GoM.
Análisis de Componentes:
- Las representaciones puramente visuales del grafo superaron a las representaciones textuales exclusivas en hasta un 10%.
- La combinación de grafos visuales y descripciones textuales ofreció ganancias adicionales, aunque modestas.
- La densidad óptima del grafo se encontró entre 3-10 entidades y 4-16 relaciones; más allá de esto, el ruido degrada el rendimiento.
Eficiencia: El costo computacional adicional es bajo (promedio de 1.13 segundos por imagen frente a 0.77s de la segmentación sola), un costo justificado por la mejora sustancial en tareas de razonamiento espacial.

5. Significado e Impacto

Paradigma de Razonamiento Espacial: GoM demuestra que la inteligencia espacial en MLMs no depende exclusivamente de arquitecturas complejas o grandes volúmenes de datos de entrenamiento, sino también de cómo se presenta la información visual.
Aplicaciones del Mundo Real: La capacidad de entender relaciones espaciales es crucial para agentes de GUI, navegación autónoma, robótica y, especialmente, en dominios biomédicos (análisis de imágenes quirúrgicas, clasificación de diagnósticos), donde la posición relativa de los órganos o tejidos es crítica.
Futuro: El trabajo sienta las bases para soluciones híbridas gráfico-lenguaje y sugiere direcciones futuras como hipergrafos para escenas complejas y modelado temporal para video.

En conclusión, Graph-of-Mark representa un avance significativo al transformar la percepción de los MLMs de una colección de objetos a una red de interacciones espaciales, logrando un razonamiento espacial robusto sin necesidad de reentrenamiento costoso.

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

🎨 El Problema: La "Bolsa de Objetos"

🏷️ La Vieja Solución: "Set-of-Mark" (Etiquetas Solas)

🕸️ La Nueva Solución: Graph-of-Mark (GoM)

🚀 ¿Por qué es genial esto?

🧠 En resumen

Resumen Técnico: Graph-of-Mark (GoM)

1. Planteamiento del Problema

2. Metodología: Graph-of-Mark (GoM)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers