Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstwerk bekijkt, maar in plaats van te zien wat er op het schilderij staat, zie je alleen losse stukjes: een boom, een auto, een hond. Een kunstenaar (of in dit geval een kunstmatige intelligentie) kijkt naar die losse stukjes en denkt: "Oké, er is een boom en een auto." Maar hij mist het echte verhaal: waarom staat de auto precies onder de boom? Is de hond aan het rennen naar de auto of weg van de boom?

Dit is precies het probleem dat de onderzoekers van de Universiteit van Bologna hebben opgelost met hun nieuwe uitvinding: Graph-of-Mark (GoM).

Hier is hoe het werkt, vertaald in simpele taal:

1. Het Probleem: De "Zak met Objecten"

Moderne AI-modellen (die zowel kunnen lezen als kijken) zijn heel slim, maar ze hebben een groot gebrek. Ze zien een foto vaak als een zak vol losse objecten. Ze weten dat er een "tafel" en een "beker" in zitten, maar ze hebben moeite om te begrijpen dat de beker op de tafel staat, of dat de tafel links van de raam staat. Ze missen de ruimtelijke connecties, alsof ze een boek lezen zonder de zinnen te begrijpen, alleen de losse woorden.

2. De Oplossing: Een "Levendig Kruiswoordpuzzel"

De onderzoekers hebben een trucje bedacht dat ze Graph-of-Mark noemen. Stel je voor dat je een foto aan een AI geeft, maar voordat de AI naar de foto kijkt, teken je er een levendig kruiswoordpuzzel overheen.

De Stipjes (De Markers): Net als bij een ouderwets kruiswoordpuzzel krijgen de objecten een nummer of een naam (bijv. "Beker_1", "Tafel_2").
De Pijltjes (De Relaties): Maar hier komt het nieuwe: ze tekenen ook pijltjes tussen de objecten. Een pijl van de beker naar de tafel met het woordje "OP" erbij. Een pijl van de hond naar de boom met "NAAST".

In plaats van dat de AI zelf moet raden waar dingen staan, tekenen de onderzoekers de relaties letterlijk op het plaatje. Het is alsof je de AI een kaart geeft met de route erop getekend, in plaats van alleen te zeggen: "Ga naar de stad."

3. Waarom werkt dit zo goed?

Vroeger probeerden AI's dit te leren door ze duizenden keren te laten oefenen (zoals een student die maanden studeert). Dat is duur en traag.

GoM is gratis en direct. Je hoeft de AI niet opnieuw te leren. Je geeft de AI gewoon een foto met die extra pijltjes en tekstjes erop.

Voorbeeld: Als je vraagt: "Is de potted plant onder de oven?", ziet de AI niet alleen een plant en een oven. Hij ziet een pijl die zegt: "Plant -> BOVEN -> Oven". De AI hoeft niet te gissen; het antwoord staat letterlijk op het plaatje geschreven.

4. De Resultaten: Van "Gokken" naar "Zekerheid"

De onderzoekers hebben dit getest op verschillende moeilijke vragen over ruimtelijke verhoudingen (links/rechts, boven/onder, voor/achter).

Zonder GoM: De AI gokt vaak en maakt fouten.
Met GoM: De AI scoort tot 11% beter. Dat is enorm in de wereld van AI. Het is alsof je een student die net 60% haalde, plotseling 71% laat halen door alleen de examenopgave iets duidelijker te maken.

5. De Metafoor: De "Superbril"

Je kunt GoM zien als een superbril die je op de bril van de AI zet.

Zonder de bril ziet de AI een wazige wereld van losse objecten.
Met de GoM-bril ziet de AI de wereld met lijnen en pijlen die de verbindingen tonen. Plotseling "snapt" de AI de context. Hij ziet niet alleen wat er is, maar hoe het samenhangt.

Samenvattend

Deze paper introduceert een slimme, goedkope manier om AI-modellen slimmer te maken in het begrijpen van ruimtelijke verhoudingen. In plaats van de AI maandenlang te laten studeren, geven ze hem gewoon een foto met een visuele schets erop die de relaties tussen objecten uitlegt. Het is een simpele, maar geniale truc die ervoor zorgt dat AI's eindelijk kunnen "zien" hoe de wereld in elkaar zit, niet alleen wat erin zit.

Dit is een grote stap vooruit voor toepassingen zoals robots die dingen moeten pakken, medische scans interpreteren, of zelfs voor augmented reality (AR) waar je digitale objecten in de echte wereld moet plaatsen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting" in het Nederlands.

Probleemstelling

Multimodale Taalmodellen (MLM's) hebben aanzienlijke vooruitgang geboekt, maar kampen nog steeds met ernstige tekortkomingen in ruimtelijk redeneren. Bestaande modellen behandelen beelden vaak als een "zak vol objecten" en missen het vermogen om de onderlinge relaties en ruimtelijke configuraties tussen objecten te begrijpen.

Huidige beperkingen: Bestaande trainingsvrije visuele prompting-technieken, zoals Set-of-Mark (SoM), markeren objecten met nummers of boxes om ze te identificeren. Echter, deze methoden behandelen gemarkeerde objecten als geïsoleerde entiteiten en negeren de relationele structuur (bijv. "links van", "bovenop", "achter") die essentieel is voor het begrijpen van een scène.
Noodzaak: Ruimtelijk redeneren is cruciaal voor toepassingen zoals robotica, augmented reality, medische beeldanalyse en GUI-agenten. Fine-tuning van modellen om dit te verbeteren is vaak duur en inflexibel. Er is behoefte aan een methode die ruimtelijke bewustzijn toevoegt zonder de modelarchitectuur te wijzigen.

Methodologie: Graph-of-Mark (GoM)

De auteurs introduceren Graph-of-Mark (GoM), de eerste pixel-level visuele prompting-techniek die scène-graaf (Scene Graphs) direct over het invoerbeeld legt om ruimtelijk redeneren te bevorderen. De methode is trainingsvrij en werkt als een plug-and-play module voor bestaande MLM's.

Het proces verloopt in vier fasen:

Object Detectie en Segmentatie:
- Het invoerbeeld wordt geanalyseerd met een ensemble van objectdetectoren (OWL-V2 voor open-vocabulaire, YOLOv8 en Mask R-CNN voor gesloten vocabulaire) om objecten en hun klassen te identificeren.
- Objecten worden verfijnd van bounding boxes naar precieze segmentatiemaskers (met behulp van SAM-HQ).
Relatieschatting (De Kern van GoM):
- Er wordt een scène-graaf geconstrueerd waarbij knopen objecten zijn en randen ruimtelijke relaties.
- Relatietypes: De graaf omvat drie categorieën:
  - Directioneel: boven, onder, links van, rechts van.
  - Diepte/Stacking: voor, achter (berekend via monokulaire diepteschattingsmodellen zoals MiDaS).
  - Proximiteit: dichtbij, aanrakend.
- De relaties worden bepaald op basis van de verplaatsingsvectoren van de objectcentra en de dieptewaarden.
Filtering:
- Om de graaf relevant te houden voor de specifieke vraag, worden alleen objecten en relaties behouden die direct gerelateerd zijn aan de tekstuele prompt (via semantische matching).
- Er wordt gefilterd op redundantie (bijv. alleen de eerste relatie tussen twee objecten behouden) en op relevantie (top-k relaties per object).
Rendering en Prompting:
- Visuele weergave: De gefilterde graaf wordt visueel over het originele beeld getekend.
  - Nodes: Objecten krijgen een gekleurd masker en een uniek ID (nummer of tekst).
  - Edges: Relaties worden weergegeven als pijlen met labels (bijv. "Above", "Left Of").
  - Er wordt gebruikgemaakt van een geavanceerd algoritme om botsingen tussen markeringen te voorkomen.
- Prompting: Het MLM ontvangt het aangepaste beeld ( $I_{SG}$ $I_{S G}$ ) en een tekstuele prompt. De auteurs testen twee modi:
  - Alleen Visuele SG: Het model moet de graaf puur visueel interpreteren.
  - Visueel + Tekstuele SG: De tekstuele prompt bevat ook een verbaal beschrijving van de graaf (triplets) als extra context.

Kernbijdragen

Eerste Pixel-Level Graph Prompting: GoM is de eerste methode die een volledige scène-graaf (inclusief diepte en relaties) direct in de pixels van het invoerbeeld integreert, in plaats van deze alleen als tekst of latente features te gebruiken.
Trainingsvrij en Architektuur-onafhankelijk: De methode vereist geen hertraining van het MLM en werkt met bestaande open-source modellen.
Omgaan met Ruimtelijke Complexiteit: In tegenstelling tot SoM, dat objecten isoleert, forceert GoM het model om de relationele structuur van de scène te zien, wat essentieel is voor complexe ruimtelijke vragen.
Open Source: De code, datasets en scripts zijn vrijgegeven onder een MIT-licentie.

Resultaten

De auteurs evalueerden GoM op drie open-source MLM's (Gemma-3, Qwen-2.5-VL, LlamaV-o1) en vier datasets (GQA, VQAv1, VQAv2, RefCOCOg).

Prestatieverbetering: GoM verbeterde de zero-shot prestaties van MLM's aanzienlijk in visuele vraag-antwoordtaken (VQA) en referentiexpressiebegrip (REC). De nauwkeurigheid steeg met tot 11 procentpunten ten opzichte van de baselines.
Vergelijking met Baselines: GoM presteerde consistent beter dan bestaande methoden zoals "Segmented Objects" en "Set-of-Mark" (SoM). SoM bleek soms zelfs de prestaties te verslechteren door onjuiste regionale toewijzingen.
Effectiviteit van Relaties: Experimenten toonden aan dat het toevoegen van relationele labels (pijlen en tekst) cruciaal is. Zonder deze labels negeerden modellen vaak de directionele indicatoren.
Optimale Dichtheid: De beste resultaten werden geboekt met scènes van 3-10 objecten en 4-16 relaties. Te veel annotaties introduceerden ruis.
Multimodale Integratie: Het combineren van de visuele graaf met een tekstuele beschrijving gaf de beste resultaten, hoewel de visuele graaf op zichzelf al een enorme verbetering bracht (+10% in sommige gevallen).
Efficiëntie: De extra rekentijd voor het genereren van de graaf is minimaal (gemiddeld 1,13 seconden per beeld, vergeleken met 0,77s voor segmentatie alleen), wat ruimschoots wordt gecompenseerd door de verbeterde redeneerprestaties.

Betekenis en Toekomstperspectief

Dit paper markeert een belangrijke stap in het verbeteren van het ruimtelijk inzicht van AI-modellen zonder de kosten en complexiteit van fine-tuning.

Praktische Toepassing: De methode is direct toepasbaar in domeinen waar ruimtelijke precisie cruciaal is, zoals robotische manipulatie, autonome navigatie en medische beeldanalyse (bijv. chirurgische videoanalyse).
Onderzoek: Het opent nieuwe wegen voor hybride graf-taaloplossingen en suggereert dat visuele prompting effectiever kan zijn dan tekstuele prompting voor het overbrengen van structurele informatie.
Toekomst: De auteurs plannen uitbreidingen naar hypergrafen voor complexere scènes, stereovisie voor betere dieptebepaling en temporele modellering voor videobegrip.

Kortom, Graph-of-Mark bewijst dat het expliciet visualiseren van relationele structuren in het invoerbeeld een krachtige, lichtgewicht oplossing is om de "blinde vlek" van MLM's op het gebied van ruimtelijk redeneren te verhelpen.

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

1. Het Probleem: De "Zak met Objecten"

2. De Oplossing: Een "Levendig Kruiswoordpuzzel"

3. Waarom werkt dit zo goed?

4. De Resultaten: Van "Gokken" naar "Zekerheid"

5. De Metafoor: De "Superbril"

Samenvattend

Probleemstelling

Methodologie: Graph-of-Mark (GoM)

Kernbijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers