Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Graph-of-Mark: Wie man KI hilft, Bilder nicht nur zu sehen, sondern zu verstehen

Stell dir vor, du gibst einer künstlichen Intelligenz (KI) ein Foto und fragst: „Ist die Pflanze links oder rechts vom Herd?"

Das Problem ist: Viele moderne KI-Modelle sind wie jemand, der ein Foto nur als eine Tasche voller loser Gegenstände betrachtet. Sie erkennen: „Da ist ein Herd. Da ist eine Pflanze. Da ist ein Toaster." Aber sie verstehen oft nicht, wie diese Dinge zueinander stehen. Sie wissen nicht, dass die Pflanze auf dem Kühlschrank steht und der Herd daneben ist. Für die KI sind es nur isolierte Objekte, die zufällig auf dem Bild liegen.

Die Forscher von der Universität Bologna haben eine Lösung namens Graph-of-Mark (GoM) entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar Bildern aus dem Alltag:

1. Das Problem: Die „Blinde" KI

Bisherige Methoden (wie „Set-of-Mark") haben versucht, der KI zu helfen, indem sie die Objekte auf dem Bild mit Nummern oder Buchstaben markiert haben.

  • Die Analogie: Stell dir vor, du legst auf jedes Objekt im Bild ein kleines Schild mit einer Nummer (1, 2, 3...).
  • Das Problem: Die KI sieht zwar die Nummern, aber sie weiß immer noch nicht, wie die Nummern zusammenhängen. Es ist wie eine Liste von Namen ohne Telefonnummern. Die KI kann die Pflanze (Nummer 3) finden, aber sie weiß nicht, dass sie neben dem Herd (Nummer 1) steht.

2. Die Lösung: Der unsichtbare Kleber (Der Graph)

GoM macht einen entscheidenden Schritt weiter. Es fügt nicht nur Nummern hinzu, sondern zeichnet unsichtbare Linien zwischen den Objekten, die ihre Beziehung beschreiben.

  • Die Analogie: Stell dir vor, du hast ein Foto von einer Party.
    • Alte Methode: Jeder Gast bekommt ein Namensschild.
    • GoM-Methode: Neben den Namensschildern ziehst du mit einem roten Stift Linien zwischen den Gästen und schreibst dazu: „steht hinter", „hält Händchen mit" oder „ist links von".
    • Du verwanst das Bild in eine Landkarte der Beziehungen.

Die KI sieht jetzt nicht nur die Objekte, sondern sieht sofort die Struktur: „Aha! Die Pflanze (Nummer 3) ist durch einen Pfeil mit dem Herd (Nummer 1) verbunden, und der Pfeil sagt: 'Links von'."

3. Wie funktioniert das technisch? (Ohne Mathe-Formeln)

Das Geniale an GoM ist, dass man die KI nicht neu programmieren oder „lernen" lassen muss (kein „Fine-Tuning"). Es ist wie ein Plug-and-Play-Modul:

  1. Objekte finden: Das System scannt das Bild und findet alle wichtigen Dinge (Herd, Pflanze, Teller).
  2. Beziehungen berechnen: Ein kleiner Helfer-Algorithmus schaut sich an, wo die Dinge stehen. Ist das eine links? Ist das andere dahinter? (Dafür nutzt das System sogar eine Art „Tiefen-Sensor", um zu wissen, was vorne und was hinten ist).
  3. Das Bild malen: Das System zeichnet diese Informationen direkt auf das Bild:
    • Es färbt die Objekte ein.
    • Es schreibt Nummern oder Namen daneben.
    • Das Wichtigste: Es zeichnet Pfeile zwischen den Objekten und beschriftet sie (z. B. „links von", „über", „berührt").
  4. Die Frage stellen: Wenn du nun die KI fragst, sieht sie dieses „angemalte" Bild mit den Pfeilen und kann die Antwort viel leichter finden.

4. Warum ist das so toll?

Die Forscher haben das an verschiedenen KI-Modellen getestet. Das Ergebnis war beeindruckend:

  • Bessere Orientierung: Die KI wurde bis zu 11 % besser darin, Fragen zu beantworten, die räumliches Denken erfordern (z. B. „Was ist unter dem Tisch?").
  • Für alle geeignet: Es funktioniert auch mit kleineren, kostenlosen KI-Modellen, nicht nur mit den riesigen, teuren Super-Computern.
  • Schnell: Es dauert nur eine Sekunde pro Bild, um diese „Pfeile" zu zeichnen.

Zusammenfassung in einem Satz

Graph-of-Mark verwandelt ein einfaches Foto in eine bebilderte Anleitung, indem es unsichtbare Verbindungen und Pfeile zwischen den Dingen zeichnet, damit die KI endlich versteht, wie die Welt auf dem Bild zusammenhängt – ganz ohne dass man die KI selbst umbauen muss.

Es ist, als würde man einer Person, die eine fremde Sprache spricht, plötzlich eine Landkarte mit Pfeilen und Beschriftungen geben, statt nur eine Liste von Wörtern. Plötzlich versteht sie den Weg!