Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
Il paper propone Graph-of-Mark (GoM), una tecnica di prompting visivo basata su grafi che sovrappone scene grafiche alle immagini per migliorare le capacità di ragionamento spaziale dei modelli linguistici multimodali, ottenendo risultati significativamente superiori rispetto ai metodi esistenti.