Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
El artículo presenta Graph-of-Mark (GoM), una técnica de prompting visual basada en grafos que mejora el razonamiento espacial de los modelos de lenguaje multimodales al superponer grafos de escena en las imágenes, logrando aumentos significativos en tareas de localización y preguntas visuales sin necesidad de entrenamiento adicional.