OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

In dit paper wordt OmniSpatial geïntroduceerd, een uitgebreid en uitdagend benchmark voor ruimtelijk redeneren bij vision-language modellen, gebaseerd op cognitieve psychologie met meer dan 8.4K handmatig geannoteerde vraag-antwoordparen die vier hoofdcategorieën bestrijken, terwijl experimenten de beperkingen van bestaande modellen aantonen en twee nieuwe strategieën voor verbetering voorstellen.

Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bouwt die niet alleen kan zien, maar ook echt kan denken over de wereld om hem heen. Tot nu toe waren deze robots (of "Vision-Language Models") heel goed in simpele dingen: "Is dat een hond?" of "Is de auto links of rechts?". Maar als je ze vraagt: "Als ik hier om de hoek ga staan, zie ik dan nog die auto?" of "Hoe moet ik dit doosje vouwen zodat het in de kast past?", dan raken ze vaak in de war. Ze kunnen niet goed in hun hoofd "draaien" of vooruitplannen.

Deze paper introduceert OmniSpatial, een nieuwe, super-uitdagende test om te zien hoe slim deze robots echt zijn als het gaat om ruimtelijk denken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Baby-Robot"

Stel je voor dat je een robot hebt die net als een baby is. Hij kan wel zien dat er een bal is, en hij weet dat de bal op de vloer ligt. Maar als je vraagt: "Als ik nu naar links loop, waar komt de bal dan te staan ten opzichte van mij?", dan denkt de robot: "Huh? Ik weet het niet."

Bestaande tests waren te makkelijk. Het was alsof we de robot alleen maar lieten tellen hoeveel appels er in een mand liggen. De nieuwste robots halen daar 90%+ op. Maar in het echte leven (zoals bij zelfrijdende auto's of robots die helpen in een huis) moet je veel meer kunnen: je moet je kunnen voorstellen hoe dingen eruitzien vanuit een ander perspectief, hoe ze bewegen, en hoe ze in elkaar passen.

2. De Oplossing: OmniSpatial (De "Ruimtelijke IQ-test")

De auteurs van deze paper hebben een nieuwe test gemaakt, genaamd OmniSpatial. Dit is geen simpele quiz, maar een soort olympiade voor ruimtelijk denken.

Ze hebben de test opgedeeld in vier grote categorieën, alsof je een spiergroep traint:

  • Dynamisch Redeneren (De "Voorspeller"):

    • Vergelijking: Stel je voor dat je naar een voetbalwedstrijd kijkt. Een simpele robot ziet alleen de bal. Een slimme robot ziet de speler rennen en kan voorspellen: "Als die speler zo doorgaat, komt hij over 2 seconden bij de goal."
    • In de test: Robots moeten kijken naar beweging, verkeerssituaties en voorspellen wat er gaat gebeuren.
  • Complexe Ruimtelijke Logica (De "Puzzelaar"):

    • Vergelijking: Denk aan een origami-papier of een legpuzzel. Je moet in je hoofd kunnen zien hoe een platte vorm in elkaar gevouwen wordt tot een 3D-doosje.
    • In de test: Robots moeten patronen herkennen, figuren in hun hoofd draaien en begrijpen hoe objecten in elkaar passen.
  • Ruimtelijke Interactie (De "Strateeg"):

    • Vergelijking: Stel je voor dat je door een drukke stad loopt. Je moet niet alleen de gebouwen zien, maar ook weten welke route veilig is, waar je moet parkeren en hoe je een obstakel omzeilt zonder te vallen.
    • In de test: Robots moeten routes plannen, verkeersborden begrijpen en weten waar dingen precies staan in een complexe omgeving.
  • Perspectief Wisselen (De "Empathische Robot"):

    • Vergelijking: Dit is het moeilijkste. Stel je voor dat je in een klaslokaal staat. Jij ziet de leerlingen van voren. Maar als je vraagt: "Wat ziet de leraar op het bord?", moet de robot in zijn hoofd "springen" naar het standpunt van de leraar en zien wat hij ziet, niet wat jij ziet.
    • In de test: Robots moeten zich voorstellen hoe een scène eruitziet vanuit een ander oogpunt (bijvoorbeeld van bovenaf, of vanuit de ogen van een ander persoon).

3. Wat hebben ze ontdekt? (De "Realiteitscheck")

Toen ze de slimste robots ter wereld (zoals de nieuwste versies van GPT-4, Gemini en Claude) deze test lieten doen, was het resultaat schokkend:

  • De robots zakten door de vloer. Waar ze eerder 90% haalden op simpele tests, haalden ze hier vaak maar 50% tot 60%.
  • Mensen doen het veel beter. Mensen halen bijna 93%.
  • De zwakke plekken: Robots zijn heel slecht in het "in hun hoofd draaien" van objecten en het voorstellen van een ander perspectief. Ze blijven vaak vastzitten in wat ze nu zien, en kunnen niet goed "rekenen" met de ruimte.

4. De Hulpmiddelen: "Brillen" voor de Robot

De auteurs hebben ook twee slimme trucs bedacht om de robots te helpen, alsof je ze een bril opzet:

  1. PointGraph (De "Kleefpunt-kaart"):

    • In plaats van alleen een foto te geven, geven ze de robot een lijstje met "punten" en "lijnen" die aangeven waar objecten zitten en hoe ze met elkaar verbonden zijn.
    • Vergelijking: Het is alsof je iemand die slecht kan lezen een tekening geeft met pijltjes en labels, zodat hij de structuur van de kamer beter begrijpt. Dit hielp de robots iets meer.
  2. SpatialCoT (De "3D-Draaimolen"):

    • Dit is de coolste truc. De robot krijgt de originele foto, maar er worden ook nieuwe foto's van gemaakt alsof je om het object heen loopt (met AI gegenereerde nieuwe hoeken).
    • Vergelijking: Stel je voor dat je een doosje moet openmaken, maar je mag alleen naar de voorkant kijken. Dat is lastig. Maar als je om het doosje heen kunt lopen en naar alle kanten kunt kijken, wordt het veel makkelijker. De robot krijgt dus "virtuele rondleidingen" om zijn ruimtelijk inzicht te verbeteren. Dit werkte echt goed!

Conclusie: Waarom is dit belangrijk?

Deze paper zegt eigenlijk: "Onze robots zijn nog niet klaar voor de echte wereld."

Ze kunnen goed praten en simpele dingen zien, maar als we ze echt willen gebruiken voor zelfrijdende auto's, robots die koken, of hulpmiddelen voor mensen met een visuele beperking, moeten ze eerst leren hoe de ruimte in elkaar zit. OmniSpatial is de nieuwe maatstaf om te zien of we die stap kunnen maken. Het is een uitdaging, maar met de nieuwe hulpmiddelen (zoals het "rondlopen" in de virtuele wereld) komen we een stuk dichter bij robots die echt kunnen "denken" met hun ogen.