Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
Het paper introduceert Graph-of-Mark (GoM), een nieuwe pixel-level visuele prompting-techniek die scene graphs overlayt op afbeeldingen om de ruimtelijke redeneercapaciteiten van multimodale taalmodellen aanzienlijk te verbeteren door objectrelaties in plaats van geïsoleerde objecten te benadrukken.