NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Dit paper introduceert NavSpace, een benchmark voor het evalueren van ruimtelijke intelligentie in navigatieagenten, en presenteert SNav, een nieuw model dat op deze benchmark en met echte robots superieure prestaties levert.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die je graag wilt helpen met huishoudelijke klusjes. Je zegt tegen hem: "Loop eens naar beneden en kijk wat mijn vrienden aan het doen zijn," of "Ga rechtdoor, draai dan 30 graden naar rechts en zoek mijn tas."

Klinkt simpel, toch? Voor een mens is het dat ook. Maar voor een robot is dit alsof je vraagt iemand om een danspas te doen terwijl ze blind zijn en geen idee hebben hoe groot de kamer is.

Dit is precies waar het nieuwe onderzoek NavSpace over gaat. Hier is de uitleg, vertaald naar alledaags Nederlands met een paar leuke vergelijkingen.

1. Het Probleem: Robots zijn "Kijkers", geen "Denkers"

Tot nu toe hebben wetenschappers vooral gekeken of robots kunnen begrijpen wat ze zien. Kunnen ze een stoel herkennen? Kunnen ze lezen dat er "ga naar de keuken" staat? Ja, dat kunnen ze steeds beter.

Maar er ontbreekt iets cruciaals: Ruimtelijk inzicht.
Stel je voor dat je een robot een kaart geeft, maar je zegt niet hoe groot de straten zijn, of welke kant "boven" is, of hoeveel stappen je moet zetten om bij de deur te komen. De robot loopt dan tegen de muur, of loopt in cirkels.

De auteurs van dit papier zeggen: "Hé, we testen robots alsof ze alleen maar foto's kunnen bekijken. Maar in het echte leven moeten ze ook kunnen voelen hoe ver iets weg is, hoe hoog de verdieping is, en hoe ze zich moeten verplaatsen."

2. De Oplossing: De "NavSpace" Test

Om dit te testen, hebben de onderzoekers een nieuwe test gemaakt, genaamd NavSpace. Denk hierbij aan een rijbewijstest voor robots, maar dan met veel lastige vragen.

Ze hebben 1.228 verschillende scenario's bedacht die robots moeten oplossen. Ze hebben deze ingedeeld in zes categorieën, die we kunnen vergelijken met vaardigheden die jij ook hebt:

  • Verticale Perceptie (De Lift-vaardigheid): "Ga naar de tweede verdieping." De robot moet weten dat er boven en onder is, en niet denken dat de kamer op de grond is.
  • Precieze Beweging (De Danspas): "Draai 30 graden naar rechts en loop 3 meter." Geen "even een beetje", maar exact. Alsof je een danspas moet uitvoeren zonder de muziek te horen.
  • Vooruitkijken (De Televisie-illusie): "Stel je voor dat jij de televisie bent. Loop naar links." De robot moet zijn eigen perspectief veranderen en denken: "Als ik de TV was, waar zou ik dan zijn?"
  • Ruimtelijke Relaties (De Speurtocht): "Ga tussen de twee bruine banken staan." De robot moet de ruimte tussen objecten begrijpen, niet alleen de objecten zelf.
  • Omgeving Status (De "Als-dan" Logica): "Als het licht aan is, ga naar de slaapkamer. Anders blijf hier." De robot moet de toestand van de kamer checken en daarop reageren.
  • Ruimtelijke Structuur (De Ronde): "Loop één keer om de eettafel heen." De robot moet begrijpen hoe een object eruitziet en eromheen bewegen.

3. De Resultaten: Een koude douche voor de AI

De onderzoekers hebben 22 verschillende robots (en slimme computerprogramma's) op deze test gezet. Ze keken naar de nieuwste "super-intelligente" modellen (zoals GPT-5 en Gemini) en speciale navigatie-robots.

Het nieuws is niet zo goed:

  • De "Super-intelligente" modellen (MLLMs): Deze modellen kunnen prachtige verhalen schrijven en foto's beschrijven. Maar als je ze vraagt om een robot te besturen, zakken ze door de vloer. Ze halen vaak minder dan 10% van de opdrachten goed. Ze kunnen zeggen hoe ze moeten lopen, maar ze kunnen het niet doen. Het is alsof iemand die een boek over zwemmen heeft gelezen, in het water springt en direct zakt.
  • De "Lichte" navigatie-robots: Deze zijn sneller, maar ze zijn te dom voor complexe opdrachten. Ze lopen vast bij de eerste lastige instructie.
  • De winnaar: SNav: De onderzoekers hebben een nieuw model bedacht, SNav. Dit model is speciaal getraind om niet alleen te kijken, maar ook te ruimen (ruimtelijk denken). SNav doet het veel beter dan de anderen en is nu de nieuwe standaard waaraan alle toekomstige robots moeten worden getoetst.

4. Waarom is dit belangrijk?

Je vraagt je misschien af: "Waarom doen we dit? Robots kunnen toch al rondlopen?"

Ja, maar alleen als je ze heel specifieke instructies geeft. In het echte leven zijn instructies vaak vaag en ruimtelijk.

  • "Loop naar de kamer waar het donker is."
  • "Ga naar boven en zoek de sleutel."

Zonder NavSpace en zonder modellen zoals SNav, blijven robots "blinde muizen" die tegen muren lopen. Ze missen het gevoel voor ruimte, afstand en richting.

Conclusie in één zin

Dit onderzoek laat zien dat robots nog niet echt "slim" zijn in het bewegen door onze wereld; ze zijn goed in kijken, maar slecht in voelen. Met NavSpace hebben we eindelijk een meetlat om te zien of een robot echt begrijpt waar hij zich bevindt, en met SNav hebben we de eerste robot die hierin een beetje begint te slagen.

Het is alsof we eindelijk een rijbewijs hebben voor robots, en tot nu toe heeft bijna niemand het gehaald. Maar nu weten we eindelijk wat we moeten leren om ze te laten rijden!