Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
Le papier propose Graph-of-Mark (GoM), une technique de prompt visuel au niveau des pixels qui superpose des graphes de scène aux images pour améliorer la capacité de raisonnement spatial des modèles de langage multimodaux en capturant les relations entre les objets, surpassant ainsi les méthodes existantes comme Set-of-Mark.