OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bouwt die niet alleen kan zien, maar ook echt kan denken over de wereld om hem heen. Tot nu toe waren deze robots (of "Vision-Language Models") heel goed in simpele dingen: "Is dat een hond?" of "Is de auto links of rechts?". Maar als je ze vraagt: "Als ik hier om de hoek ga staan, zie ik dan nog die auto?" of "Hoe moet ik dit doosje vouwen zodat het in de kast past?", dan raken ze vaak in de war. Ze kunnen niet goed in hun hoofd "draaien" of vooruitplannen.

Deze paper introduceert OmniSpatial, een nieuwe, super-uitdagende test om te zien hoe slim deze robots echt zijn als het gaat om ruimtelijk denken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Baby-Robot"

Stel je voor dat je een robot hebt die net als een baby is. Hij kan wel zien dat er een bal is, en hij weet dat de bal op de vloer ligt. Maar als je vraagt: "Als ik nu naar links loop, waar komt de bal dan te staan ten opzichte van mij?", dan denkt de robot: "Huh? Ik weet het niet."

Bestaande tests waren te makkelijk. Het was alsof we de robot alleen maar lieten tellen hoeveel appels er in een mand liggen. De nieuwste robots halen daar 90%+ op. Maar in het echte leven (zoals bij zelfrijdende auto's of robots die helpen in een huis) moet je veel meer kunnen: je moet je kunnen voorstellen hoe dingen eruitzien vanuit een ander perspectief, hoe ze bewegen, en hoe ze in elkaar passen.

2. De Oplossing: OmniSpatial (De "Ruimtelijke IQ-test")

De auteurs van deze paper hebben een nieuwe test gemaakt, genaamd OmniSpatial. Dit is geen simpele quiz, maar een soort olympiade voor ruimtelijk denken.

Ze hebben de test opgedeeld in vier grote categorieën, alsof je een spiergroep traint:

Dynamisch Redeneren (De "Voorspeller"):
- Vergelijking: Stel je voor dat je naar een voetbalwedstrijd kijkt. Een simpele robot ziet alleen de bal. Een slimme robot ziet de speler rennen en kan voorspellen: "Als die speler zo doorgaat, komt hij over 2 seconden bij de goal."
- In de test: Robots moeten kijken naar beweging, verkeerssituaties en voorspellen wat er gaat gebeuren.
Complexe Ruimtelijke Logica (De "Puzzelaar"):
- Vergelijking: Denk aan een origami-papier of een legpuzzel. Je moet in je hoofd kunnen zien hoe een platte vorm in elkaar gevouwen wordt tot een 3D-doosje.
- In de test: Robots moeten patronen herkennen, figuren in hun hoofd draaien en begrijpen hoe objecten in elkaar passen.
Ruimtelijke Interactie (De "Strateeg"):
- Vergelijking: Stel je voor dat je door een drukke stad loopt. Je moet niet alleen de gebouwen zien, maar ook weten welke route veilig is, waar je moet parkeren en hoe je een obstakel omzeilt zonder te vallen.
- In de test: Robots moeten routes plannen, verkeersborden begrijpen en weten waar dingen precies staan in een complexe omgeving.
Perspectief Wisselen (De "Empathische Robot"):
- Vergelijking: Dit is het moeilijkste. Stel je voor dat je in een klaslokaal staat. Jij ziet de leerlingen van voren. Maar als je vraagt: "Wat ziet de leraar op het bord?", moet de robot in zijn hoofd "springen" naar het standpunt van de leraar en zien wat hij ziet, niet wat jij ziet.
- In de test: Robots moeten zich voorstellen hoe een scène eruitziet vanuit een ander oogpunt (bijvoorbeeld van bovenaf, of vanuit de ogen van een ander persoon).

3. Wat hebben ze ontdekt? (De "Realiteitscheck")

Toen ze de slimste robots ter wereld (zoals de nieuwste versies van GPT-4, Gemini en Claude) deze test lieten doen, was het resultaat schokkend:

De robots zakten door de vloer. Waar ze eerder 90% haalden op simpele tests, haalden ze hier vaak maar 50% tot 60%.
Mensen doen het veel beter. Mensen halen bijna 93%.
De zwakke plekken: Robots zijn heel slecht in het "in hun hoofd draaien" van objecten en het voorstellen van een ander perspectief. Ze blijven vaak vastzitten in wat ze nu zien, en kunnen niet goed "rekenen" met de ruimte.

4. De Hulpmiddelen: "Brillen" voor de Robot

De auteurs hebben ook twee slimme trucs bedacht om de robots te helpen, alsof je ze een bril opzet:

PointGraph (De "Kleefpunt-kaart"):
- In plaats van alleen een foto te geven, geven ze de robot een lijstje met "punten" en "lijnen" die aangeven waar objecten zitten en hoe ze met elkaar verbonden zijn.
- Vergelijking: Het is alsof je iemand die slecht kan lezen een tekening geeft met pijltjes en labels, zodat hij de structuur van de kamer beter begrijpt. Dit hielp de robots iets meer.
SpatialCoT (De "3D-Draaimolen"):
- Dit is de coolste truc. De robot krijgt de originele foto, maar er worden ook nieuwe foto's van gemaakt alsof je om het object heen loopt (met AI gegenereerde nieuwe hoeken).
- Vergelijking: Stel je voor dat je een doosje moet openmaken, maar je mag alleen naar de voorkant kijken. Dat is lastig. Maar als je om het doosje heen kunt lopen en naar alle kanten kunt kijken, wordt het veel makkelijker. De robot krijgt dus "virtuele rondleidingen" om zijn ruimtelijk inzicht te verbeteren. Dit werkte echt goed!

Conclusie: Waarom is dit belangrijk?

Deze paper zegt eigenlijk: "Onze robots zijn nog niet klaar voor de echte wereld."

Ze kunnen goed praten en simpele dingen zien, maar als we ze echt willen gebruiken voor zelfrijdende auto's, robots die koken, of hulpmiddelen voor mensen met een visuele beperking, moeten ze eerst leren hoe de ruimte in elkaar zit. OmniSpatial is de nieuwe maatstaf om te zien of we die stap kunnen maken. Het is een uitdaging, maar met de nieuwe hulpmiddelen (zoals het "rondlopen" in de virtuele wereld) komen we een stuk dichter bij robots die echt kunnen "denken" met hun ogen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Ruimtelijk redeneren is een fundamentele cognitieve vaardigheid die essentieel is voor toepassingen zoals robotica, autonoom rijden en AR/VR. Hoewel Vision-Language Models (VLMs) uitstekende prestaties leveren op bestaande benchmarks voor basis ruimtelijke relaties (zoals links/rechts, dichtbij/verbij en objecttelling), bereiken deze taken een verzadigingspunt. De huidige state-of-the-art modellen (zoals o3 en Gemini-2.5-Pro) behalen hier al meer dan 90% nauwkeurigheid.

Het paper identificeert echter een groot tekort in de beoordeling van complexe ruimtelijk redeneren. Bestaande benchmarks missen vaak:

Dynamische redenering: Het begrijpen van beweging en tijdsverloop.
Complexe logica: Abstracte ruimtelijke transformaties en geometrische structuren.
Ruimtelijke interactie: Redeneren over interacties met de omgeving en obstakels.
Perspectiefneming: Het vermogen om situaties vanuit het standpunt van een ander (niet-ego) te visualiseren.

De huidige benchmarks zijn vaak gebaseerd op sjablonen, beperkt in diversiteit en testen niet de diepere cognitieve vaardigheden die nodig zijn voor echte fysieke intelligentie.

Methodologie

De auteurs introduceren OmniSpatial, een uitgebreid en uitdagend benchmark voor ruimtelijk redeneren, gebaseerd op cognitieve psychologie.

1. Dataset Constructie:

Omvang: Meer dan 8.400 zorgvuldig geannoteerde vraag-antwoordparen.
Taxonomie: De taken zijn onderverdeeld in 4 hoofdcatagorieën en 50 fijne subcategorieën:
- Dynamisch Redeneren (27%): Bewegingsanalyse, manipulatie, intentieherkenning.
- Complexe Logica (16%): Geometrisch redeneren (bv. het ontvouwen van polyhedra), patroonherkenning.
- Ruimtelijke Interactie (20%): Verkeersanalyse, lokalisatie, geospatiale strategie.
- Perspectiefneming (37%): Egocentrisch, allocentrisch (vanuit een ander perspectief) en hypothetisch perspectiefnemen.
Data Bronnen: Een mix van webafbeeldingen, standaard cognitieve tests, rijexamen-vragen en bestaande datasets (zoals MME en HOI4D).
Kwaliteit: Alle data is handmatig geannoteerd en gevalideerd door zes annotatoren, wat resulteert in een hoge inter-annotator overeenstemming (Krippendorff's $\alpha = 0.84$ ). Dit voorkomt de bias van gegenereerde sjablonen.

2. Verbeteringsstrategieën (Methoden voor VLMs):
Om de beperkingen van bestaande modellen te overwinnen, testen de auteurs twee strategieën:

PointGraph: Een methode om objectrelaties expliciet te modelleren. Het gebruikt een open-vocabulary grounding-model (zoals Florence-2) om objecten te lokaliseren en een gestructureerde "scene graph" (JSON-formaat) te genereren met posities en bounding boxes. Deze structuur wordt aan de VLM gegeven als extra context.
SpatialCoT (Spatial Chain-of-Thought): Een methode om ruimtelijke verbeelding te stimuleren. Het gebruikt een 3D-nieuwe-weergave-synthesemodel (InstantMesh) om zes extra perspectieven van een inputafbeelding te genereren. Deze collage van nieuwe weergaven wordt samen met de vraag aan de VLM gepresenteerd om het redeneren over occlusie en perspectief te vergemakkelijken.

Belangrijkste Resultaten

De auteurs hebben de benchmark gebruikt om een breed scala aan modellen te evalueren, waaronder propriëtaire modellen, open-source VLMs, gespecialiseerde ruimtelijke modellen en menselijke annotatoren.

Prestatiekloof: Zelfs de beste modellen (zoals o3 en Gemini-2.5-Pro) bereiken slechts een gemiddelde nauwkeurigheid van ongeveer 56-57%. Dit ligt ver onder de menselijke prestatie van 92,6%.
Zwakke Punten: Modellen worstelen vooral met:
- Geometrisch redeneren: Nauwkeurigheid rond de 30-40% (slechts iets beter dan willekeur).
- Niet-ego perspectiefneming: Het is moeilijk voor modellen om zich voor te stellen hoe een scène eruitziet vanuit het standpunt van een ander.
- Dynamische scenario's: Lange-termijn temporele redenering blijft een uitdaging.
Effectiviteit van Verbeteringen:
- PointGraph leverde een significante verbetering op, vooral bij dynamisch redeneren en perspectiefneming (tot +1,76% verbetering voor Gemini-2.5-Flash).
- SpatialCoT bleek zeer effectief voor perspectiefnemingstaken, met een verbetering van ongeveer +2% voor zowel GPT-4.1-mini als Qwen-VL2.5-3B.
- De combinatie van beide methoden gaf de beste resultaten.
Training: Supervised fine-tuning op de 6.9K trainingsamples van OmniSpatial resulteerde in een aanzienlijke stijging (+7,82%) in prestaties, wat aantoont dat de dataset effectief nieuwe vaardigheden leert in plaats van alleen sjablonen te memoriseren.

Bijdragen

De belangrijkste bijdragen van dit werk zijn:

OmniSpatial Benchmark: Een nieuw, omvangrijk en divers benchmark dat ruimtelijk redeneren systematisch categoriseert in vier dimensies, gebaseerd op cognitieve psychologie. Het is aanzienlijk groter en complexer dan eerdere benchmarks.
Uitgebreide Evaluatie: Een grondige analyse van de huidige staat van de kunst, die aantoont dat zelfs de meest geavanceerde redeneermodellen nog ver achterblijven bij menselijke capaciteiten op het gebied van complexe ruimtelijke taken.
Methodologische Innovatie: Het introduceren en valideren van PointGraph en SpatialCoT als effectieve plug-and-play methoden om ruimtelijk redeneren in VLMs te verbeteren door expliciete ruimtelijke cues en multi-view synthese te gebruiken.
Richting voor Toekomstig Onderzoek: Het paper biedt een blauwdruk voor het ontwikkelen van de volgende generatie AI-systemen die fysiek en ruimtelijk bewust zijn, essentieel voor robuuste robotica en autonome systemen.

Significantie

OmniSpatial is een mijlpaal in de evaluatie van Vision-Language Models. Het verschuift de focus van eenvoudige "links/rechts"-vragen naar complexe, realistische scenario's die nodig zijn voor echte fysieke interactie. De bevindingen dat huidige modellen nog steeds grote beperkingen hebben in dynamisch redeneren en perspectiefneming, benadrukken de noodzaak voor verder onderzoek in 3D-representatie, mentale beeldvorming en gestructureerd redeneren. De beschikbaarheid van de dataset en de code (via de projectpagina) maakt het een cruciaal hulpmiddel voor de gemeenschap om de grenzen van ruimtelijke intelligentie in AI te verleggen.

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

1. Het Probleem: De "Baby-Robot"

2. De Oplossing: OmniSpatial (De "Ruimtelijke IQ-test")

3. Wat hebben ze ontdekt? (De "Realiteitscheck")

4. De Hulpmiddelen: "Brillen" voor de Robot

Conclusie: Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics