Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

Dit artikel evalueert de ruimtelijke redeneercapaciteiten van vier Vision-Language-modellen voor robotbewegingsplanning, waarbij wordt aangetoond dat Qwen2.5-VL na fijne afstemming 75% nauwkeurigheid bereikt bij het interpreteren van gebruikersvoorkeuren over afstand en bewegingsstijl.

Wenxi Wu, Jingjing Zhang, Martim Brandão

Gepubliceerd 2026-03-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die voor je in huis kan werken. Je wilt dat hij een blikje thee naar de oven brengt, maar je zegt: "Zorg dat hij niet te dicht bij het raam komt, want daar staat een dure vaas." Of misschien wil je: "Ga een beetje slingerend naar de deur, alsof je dansend loopt."

Dit klinkt simpel voor ons mensen, maar voor een robot is het een enorme puzzel. De robot moet niet alleen weten waar hij naartoe moet, maar ook hoe hij daar moet komen.

Dit onderzoek van wetenschappers van King's College London en University College London gaat precies hierover. Ze kijken of Vision-Language Models (VLMs) – dat zijn slimme AI's die zowel naar plaatjes kunnen kijken als begrijpen wat je zegt – deze puzzel kunnen oplossen.

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. Het Probleem: De Robot als een Verwarde Chauffeur

Stel je een robot voor als een chauffeur die een routeplanner heeft. De routeplanner (de traditionele robotsoftware) kan honderden verschillende routes uitstippelen van punt A naar punt B. Sommige routes zijn recht, sommige maken bochten, sommige gaan langs de bank en sommige langs de muur.

De robot vraagt nu aan de AI: "Welke van deze routes vind jij het mooist, gebaseerd op wat ik net zei?"

De vraag is: Is die AI slim genoeg om te begrijpen dat "ver weg van de vaas" betekent dat hij de route langs de muur moet kiezen, en niet die langs de vaas?

2. De Experimenten: De "Kies de Beste Route"-Test

De onderzoekers hebben een enorme verzameling van 558 scenario's gemaakt in een virtueel huis. Ze lieten de robot honderden mogelijke routes tekenen en vroegen vervolgens verschillende AI-modellen (zoals Qwen2.5-VL en GPT-4o) om de juiste route te kiezen op basis van een tekstuele opdracht.

Ze testten vier manieren om de AI te vragen:

  • De "Alles-op-één-kaart" methode: Alle routes worden in één plaatje getoond, elk in een andere kleur (rood, blauw, groen). De AI moet dan zeggen: "Kies de blauwe lijn."
  • De "Eén voor één" methode: De AI krijgt één route per keer te zien en moet een cijfer geven. Daarna vergelijken we de cijfers.
  • De "Galerij" methode: De AI ziet een reeks foto's van de robot die de route aflegt, als een stripverhaal.
  • De "Beschrijvende" methode: De AI krijgt eerst een tekstuele beschrijving van wat er op de foto te zien is, en moet dan kiezen.

3. De Resultaten: Wie is de Slimste?

De uitkomsten waren verrassend en leerzaam:

  • De Winnaar: De AI genaamd Qwen2.5-VL was de beste. Hij kon in ongeveer 71% van de gevallen de juiste route kiezen zonder dat hij ooit eerder deze specifieke taken had gezien (dit noemen ze "zero-shot").
  • De Verliezer: De bekende GPT-4o deed het hier verrassend slechter. Hij had meer moeite met het begrijpen van de ruimtelijke relaties (bijvoorbeeld: "ga tussen de tafel en de bank door").
  • De Beste Manier: De "Alles-op-één-kaart" methode won het. Het is alsof je een jury een lijst met kandidaten laat zien en vraagt wie de beste is. Als je ze één voor één laat zien, vergeet de jury soms hoe de vorige eruitzag. Als ze er allemaal bij staan, kunnen ze direct vergelijken: "Die blauwe lijn is veel verder van de vaas dan die rode."

4. Twee Soorten Wensen: "Dichtbij" vs. "Stijl"

De onderzoekers keken naar twee soorten wensen:

  1. Dichtbij of ver weg van objecten: Bijvoorbeeld "Blijf uit de buurt van het raam." Hier waren de AI's erg goed in (74% goed).
  2. De stijl van de beweging: Bijvoorbeeld "Ga in een zigzag" of "Maak een kromme lijn." Dit was lastiger (64% goed). Het is voor een AI moeilijker om een abstract idee als "zigzag" te koppelen aan een lijn op een plaatje dan om te zien of iets "dichtbij" een object is.

5. De "Kleine Leerling" en de "Grote Meester"

Een heel interessant deel van het onderzoek was het trainen van de kleinere AI's.
Stel je voor dat je een slimme student (een klein AI-model) een paar voorbeelden laat zien van wat je bedoelt met "slingerend lopen". Na slechts een paar voorbeelden (fine-tuning) werd deze kleine student plotseling 60% beter in het kiezen van de juiste route.
Dit betekent dat we niet per se de zwaarste, duurste computer nodig hebben; met een beetje training kunnen kleinere, snellere modellen ook heel goed werk leveren.

6. De Prijs van Slimheid (Rekenkracht)

Hoe meer details de AI moet zien, hoe meer "rekenkracht" (tokens) het kost. De onderzoekers ontdekten een simpele regel:

  • Als je de plaatjes heel klein maakt (weinig details), is de AI sneller en goedkoper, maar maakt hij meer fouten.
  • Als je de plaatjes groot en gedetailleerd houdt, wordt de AI slimmer, maar kost het meer tijd en geld.
    Het is een afweging, net als bij het kiezen van een kaart: een snelle schets is goed voor een snelle route, maar voor een complexe wandeling wil je een gedetailleerde kaart.

Conclusie: Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat we robots binnenkort niet alleen kunnen zeggen "ga naar de oven", maar ook "ga naar de oven, maar vermijd de hond en maak een mooie bocht".

De AI's zijn nog niet perfect (soms "hallucineren" ze en kiezen ze een lijn die er niet is, of ze kunnen de kortste weg niet vinden), maar ze zijn een enorme stap vooruit. Het is alsof we de robot eindelijk een taal hebben gegeven waarmee hij niet alleen wat hij moet doen begrijpt, maar ook hoe hij het moet doen.

In de toekomst kunnen we deze slimme modellen gebruiken om robots te laten kiezen uit duizenden mogelijke bewegingen, zodat ze zich aanpassen aan onze persoonlijke voorkeuren in ons huis.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →