Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Il paper propone Graph-of-Mark (GoM), una tecnica di prompting visivo basata su grafi che sovrappone scene grafiche alle immagini per migliorare le capacità di ragionamento spaziale dei modelli linguistici multimodali, ottenendo risultati significativamente superiori rispetto ai metodi esistenti.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro

Pubblicato 2026-03-10
📖 3 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un amico molto intelligente, un "genio" capace di leggere e capire le immagini, ma che ha un piccolo problema: tende a vedere il mondo come un cestino pieno di oggetti sparsi. Se gli mostri una foto di una cucina, lui ti dirà: "Vedo un forno, vedo una pianta, vedo un tostapane". Ma spesso non riesce a capire dove sono messi rispetto agli altri o come si relazionano tra loro. Per esempio, potrebbe non capire che la pianta è sopra il forno o accanto alla finestra.

Gli scienziati dell'Università di Bologna hanno creato una soluzione geniale e gratuita chiamata Graph-of-Mark (GoM). Ecco come funziona, spiegato in modo semplice:

1. Il Problema: L'Amico che non vede i collegamenti

I modelli attuali (chiamati MLM) sono bravissimi a riconoscere gli oggetti, ma quando devono rispondere a domande come "La pianta è sotto il forno?", spesso sbagliano. È come se guardassero una stanza piena di mobili ma non vedessero mai il pavimento o il soffitto che li collegano. Vedono solo "pezzi" isolati.

2. La Soluzione: Disegnare una mappa invisibile (ma visibile!)

Gli autori hanno pensato: "E se disegnassimo direttamente sulla foto una mappa che mostra i collegamenti?"
Invece di far indovinare al computer, disegnano sopra l'immagine:

  • Cerchi colorati intorno agli oggetti (come se fossero etichette).
  • Frecce che collegano un oggetto all'altro.
  • Scritte sulle frecce che dicono la relazione: "Sopra", "Sotto", "Vicino", "Dietro".

È come se dessi al tuo amico genio una mappa del tesoro direttamente sulla foto. Non deve più indovinare: la mappa gli dice esattamente: "Ehi, guarda qui! C'è una freccia che va dalla pianta al forno e dice 'Sopra'".

3. Come funziona la magia (senza riaddestrare il computer)

Di solito, per insegnare a un'intelligenza artificiale a fare questo, dovresti riaddestrarlo per mesi con milioni di immagini, cosa costosissima e lenta.
GoM è diverso: è come un adesivo intelligente che applichi sulla foto prima di mostrarla al computer.

  • Il sistema guarda la foto.
  • Trova automaticamente gli oggetti (usando altri programmi già esistenti).
  • Disegna le frecce e le etichette.
  • Mostra la foto "migliorata" al modello.

Il modello non ha bisogno di studiare di nuovo; basta che guardi la foto con le frecce e capisce tutto al volo. È come se dessi a un turista una mappa della città invece di lasciarlo vagare alla cieca.

4. Perché è importante?

Immagina un robot che deve aiutare un chirurgo o un assistente virtuale che deve navigare in un'interfaccia complessa. Se il robot non sa che un oggetto è dietro all'altro, potrebbe sbattere contro di esso.
Con Graph-of-Mark, questi modelli diventano molto più bravi a capire lo spazio.

  • Risultato: Nelle prove fatte, i modelli hanno fatto fino all'11% in più di domande giuste su posizioni e direzioni.
  • Flessibilità: Funziona con qualsiasi modello di intelligenza artificiale, anche quelli piccoli e gratuiti, senza dover pagare per riaddestramenti costosi.

In sintesi

Pensa a Graph-of-Mark come a un traduttore visivo. Prende un'immagine confusa e ci scrive sopra una "storia" fatta di frecce e parole che spiega come gli oggetti si tengono per mano. Invece di dire al computer "Pensa!", gli dicono "Guarda qui, ecco la risposta disegnata sulla foto!".

È un modo semplice, economico ed efficace per insegnare alle macchine a non vedere solo gli oggetti, ma a capire il mondo che li circonda.