Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die voor je in huis kan werken. Je wilt dat hij een blikje thee naar de oven brengt, maar je zegt: "Zorg dat hij niet te dicht bij het raam komt, want daar staat een dure vaas." Of misschien wil je: "Ga een beetje slingerend naar de deur, alsof je dansend loopt."

Dit klinkt simpel voor ons mensen, maar voor een robot is het een enorme puzzel. De robot moet niet alleen weten waar hij naartoe moet, maar ook hoe hij daar moet komen.

Dit onderzoek van wetenschappers van King's College London en University College London gaat precies hierover. Ze kijken of Vision-Language Models (VLMs) – dat zijn slimme AI's die zowel naar plaatjes kunnen kijken als begrijpen wat je zegt – deze puzzel kunnen oplossen.

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. Het Probleem: De Robot als een Verwarde Chauffeur

Stel je een robot voor als een chauffeur die een routeplanner heeft. De routeplanner (de traditionele robotsoftware) kan honderden verschillende routes uitstippelen van punt A naar punt B. Sommige routes zijn recht, sommige maken bochten, sommige gaan langs de bank en sommige langs de muur.

De robot vraagt nu aan de AI: "Welke van deze routes vind jij het mooist, gebaseerd op wat ik net zei?"

De vraag is: Is die AI slim genoeg om te begrijpen dat "ver weg van de vaas" betekent dat hij de route langs de muur moet kiezen, en niet die langs de vaas?

2. De Experimenten: De "Kies de Beste Route"-Test

De onderzoekers hebben een enorme verzameling van 558 scenario's gemaakt in een virtueel huis. Ze lieten de robot honderden mogelijke routes tekenen en vroegen vervolgens verschillende AI-modellen (zoals Qwen2.5-VL en GPT-4o) om de juiste route te kiezen op basis van een tekstuele opdracht.

Ze testten vier manieren om de AI te vragen:

De "Alles-op-één-kaart" methode: Alle routes worden in één plaatje getoond, elk in een andere kleur (rood, blauw, groen). De AI moet dan zeggen: "Kies de blauwe lijn."
De "Eén voor één" methode: De AI krijgt één route per keer te zien en moet een cijfer geven. Daarna vergelijken we de cijfers.
De "Galerij" methode: De AI ziet een reeks foto's van de robot die de route aflegt, als een stripverhaal.
De "Beschrijvende" methode: De AI krijgt eerst een tekstuele beschrijving van wat er op de foto te zien is, en moet dan kiezen.

3. De Resultaten: Wie is de Slimste?

De uitkomsten waren verrassend en leerzaam:

De Winnaar: De AI genaamd Qwen2.5-VL was de beste. Hij kon in ongeveer 71% van de gevallen de juiste route kiezen zonder dat hij ooit eerder deze specifieke taken had gezien (dit noemen ze "zero-shot").
De Verliezer: De bekende GPT-4o deed het hier verrassend slechter. Hij had meer moeite met het begrijpen van de ruimtelijke relaties (bijvoorbeeld: "ga tussen de tafel en de bank door").
De Beste Manier: De "Alles-op-één-kaart" methode won het. Het is alsof je een jury een lijst met kandidaten laat zien en vraagt wie de beste is. Als je ze één voor één laat zien, vergeet de jury soms hoe de vorige eruitzag. Als ze er allemaal bij staan, kunnen ze direct vergelijken: "Die blauwe lijn is veel verder van de vaas dan die rode."

4. Twee Soorten Wensen: "Dichtbij" vs. "Stijl"

De onderzoekers keken naar twee soorten wensen:

Dichtbij of ver weg van objecten: Bijvoorbeeld "Blijf uit de buurt van het raam." Hier waren de AI's erg goed in (74% goed).
De stijl van de beweging: Bijvoorbeeld "Ga in een zigzag" of "Maak een kromme lijn." Dit was lastiger (64% goed). Het is voor een AI moeilijker om een abstract idee als "zigzag" te koppelen aan een lijn op een plaatje dan om te zien of iets "dichtbij" een object is.

5. De "Kleine Leerling" en de "Grote Meester"

Een heel interessant deel van het onderzoek was het trainen van de kleinere AI's.
Stel je voor dat je een slimme student (een klein AI-model) een paar voorbeelden laat zien van wat je bedoelt met "slingerend lopen". Na slechts een paar voorbeelden (fine-tuning) werd deze kleine student plotseling 60% beter in het kiezen van de juiste route.
Dit betekent dat we niet per se de zwaarste, duurste computer nodig hebben; met een beetje training kunnen kleinere, snellere modellen ook heel goed werk leveren.

6. De Prijs van Slimheid (Rekenkracht)

Hoe meer details de AI moet zien, hoe meer "rekenkracht" (tokens) het kost. De onderzoekers ontdekten een simpele regel:

Als je de plaatjes heel klein maakt (weinig details), is de AI sneller en goedkoper, maar maakt hij meer fouten.
Als je de plaatjes groot en gedetailleerd houdt, wordt de AI slimmer, maar kost het meer tijd en geld.
Het is een afweging, net als bij het kiezen van een kaart: een snelle schets is goed voor een snelle route, maar voor een complexe wandeling wil je een gedetailleerde kaart.

Conclusie: Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat we robots binnenkort niet alleen kunnen zeggen "ga naar de oven", maar ook "ga naar de oven, maar vermijd de hond en maak een mooie bocht".

De AI's zijn nog niet perfect (soms "hallucineren" ze en kiezen ze een lijn die er niet is, of ze kunnen de kortste weg niet vinden), maar ze zijn een enorme stap vooruit. Het is alsof we de robot eindelijk een taal hebben gegeven waarmee hij niet alleen wat hij moet doen begrijpt, maar ook hoe hij het moet doen.

In de toekomst kunnen we deze slimme modellen gebruiken om robots te laten kiezen uit duizenden mogelijke bewegingen, zodat ze zich aanpassen aan onze persoonlijke voorkeuren in ons huis.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Intelligente robotsystemen moeten niet alleen taken plannen, maar ook in staat zijn om menselijke instructies te interpreteren die betrekking hebben op ruimtelijke relaties en voorkeuren voor beweging (bijvoorbeeld: "beweeg het blikje terwijl je uit de buurt van de lamp blijft" of "volg een zigzag-pad"). Hoewel Vision-Language Models (VLMs) veelbelovend zijn voor algemene taakplanning, is het onduidelijk in hoeverre ze de benodigde ruimtelijke redeneercapaciteiten bezitten om specifieke bewegingsvoorkeuren (motion preferences) te handhaven. Deze voorkeuren kunnen variëren van topologische eigenschappen (bijv. afstand tot objecten) tot stijlvoorkeuren (bijv. glad vs. ruw, kortste weg vs. kronkelend). Het doel van dit onderzoek is om de prestaties van state-of-the-art VLMs te evalueren bij het selecteren van robottrajecten die voldoen aan dergelijke tekstuele beschrijvingen.

Methodologie

1. Dataset Generatie en Probleemdefinitie
De auteurs hebben een dataset van 558 taal-gedreven robotbewegingsplanningsproblemen samengesteld, verdeeld over twee categorieën:

Navigatie: 126 problemen (bijv. een mobiele robot die van A naar B gaat).
Manipulatie: 432 problemen (bijv. een robotarm die objecten op een tafel manipuleert).
Elk probleem bestaat uit een virtuele scène (gegenereerd in de iGibson-simulatieomgeving), een start- en doelpunt, en een tekstuele beschrijving van de gewenste bewegingseigenschappen.

2. Trajectgeneratie en Clustering
Om een diverse set aan kandidaat-paden te creëren, gebruiken de auteurs een combinatie van:

BiRRT (Bidirectional Rapidly-exploring Random Trees).
PRM (Probabilistic RoadMaps) met verschillende kostfuncties (kortste afstand, sinusvormig, cirkelvormig).
Er worden $n=50$ diverse paden gegenereerd per probleem. Vervolgens wordt K-means clustering toegepast op de waypoints om deze paden te groeperen. Uit elke cluster wordt het pad dat het dichtst bij het centroid ligt, geselecteerd. Dit resulteert in een kleinere set van $k$ kandidaat-paden die worden gevisualiseerd voor de VLM.

3. Evaluatie van VLMs en Query-methoden
Vier Vision-Language Models werden getest: Qwen2.5-VL (versies 7B en 72B), GPT-4o, en LLaVa1.5-7B.
De auteurs evalueerden vier verschillende methoden om de VLMs te bevragen over de afbeeldingen met de paden:

Single-image trajectory: Alle kandidaat-paden worden als gekleurde stippen in één afbeelding getoond. De VLM scoort alle paden tegelijkertijd.
Multi-image trajectory trail: Elk pad wordt in een aparte afbeelding getoond; de VLM scoort ze individueel.
Single-image met visuele context: De VLM genereert eerst een gestructureerde beschrijving van de afbeelding (objecten, relaties) voordat de scoring plaatsvindt.
Screenshot gallery: Een reeks screenshots van de robot die het pad volgt, per pad in een rij.

4. Experimentele Opzet
De modellen werden getest in een zero-shot setting (zonder training op de specifieke taak) en later werd Supervised Fine-Tuning (SFT) toegepast op de kleinere modellen (LLaVa1.5-7B en Qwen2.5-VL-7B) met slechts 98 voorbeelden. Er werd ook gekeken naar de trade-off tussen nauwkeurigheid en rekenkosten (aantal tokens).

Belangrijkste Resultaten

Beste Query-methode: De single-image trajectory methode (alle paden in één beeld) presteerde het beste met een gemiddelde nauwkeurigheid van >70% voor Qwen2.5-VL. De multi-image methode presteerde slechter, waarschijnlijk omdat de VLM dan geen directe vergelijking tussen de paden kan maken bij individuele scoring. De screenshot-gallery methode presteerde nauwelijks beter dan willekeurige selectie vanwege het gebrek aan detail in de kleine afbeeldingen.
Modelprestaties:
- Qwen2.5-VL-72B behaalde de hoogste prestaties: 71,4% overall nauwkeurigheid (zero-shot).
- GPT-4o presteerde lager dan Qwen2.5-VL.
- LLaVa1.5 had lagere zero-shot prestaties, maar vertoonde grote verbeteringen na finetuning.
Type Voorkeuren:
- Modellen presteerden over het algemeen beter op object-proximity voorkeuren (bijv. "blijf uit de buurt van X") dan op path-style voorkeuren (bijv. "gebruik een zigzag-pad").
- In navigatietaken was de nauwkeurigheid hoger (71,4%) dan in manipulatie-taken (65,5%).
Effect van Finetuning: Na finetuning met slechts 98 voorbeelden steeg de nauwkeurigheid aanzienlijk:
- Qwen2.5-VL-7B: +20% verbetering.
- LLaVa1.5-7B: >60% verbetering.
  Dit toont aan dat kleinere modellen snel kunnen adapteren aan nieuwe instructiestijlen.
Rekenkosten: De single-image methode vereiste het minste aantal tokens (gemiddeld ~687 tokens voor Qwen2.5-VL) en leverde tegelijkertijd de beste prestaties. Er werd een lineair verband gevonden tussen het aantal toegestane tokens (afbeeldingsgrootte) en de nauwkeurigheid.

Key Contributions (Bijdragen)

Evaluatieframework: Een gestructureerde evaluatie van VLMs op ruimtelijk redeneren specifiek voor robotbewegingsplanning, met focus op menselijke voorkeuren.
Dataset: Een nieuwe dataset van 558 taal-gedreven bewegingsproblemen in thuisomgevingen, inclusief navigatie en manipulatie.
Methodologische Vergelijking: Een systematische vergelijking van vier visuele query-methoden, waarbij wordt aangetoond dat het tonen van alle opties in één afbeelding superieur is voor VLMs.
Finetuning Insights: Het aantonen dat zelfs kleine VLMs met beperkte data (few-shot) aanzienlijk kunnen verbeteren in het interpreteren van bewegingsstijlen.

Significantie en Conclusie

Dit werk toont aan dat VLMs potentieel hebben om als een "judge" (beoordelaar) te fungeren in robotbewegingsplanningspipelines. In plaats van complexe wiskundige constraints te coderen, kunnen gebruikers hun voorkeuren in natuurlijke taal specificeren, waarna een VLM het beste pad selecteert uit een generieke set.

Hoewel er nog uitdagingen zijn (zoals het "hallucineren" van paden of het niet herkennen van de kortste weg, taken waar klassieke planners beter in zijn), biedt de integratie van VLMs een brug tussen semantische instructies en fysieke beweging. De resultaten suggereren dat met de juiste visualisatiestrategie en eventuele finetuning, VLMs een robuuste interface kunnen vormen voor mens-robotinteractie, waarbij de robot bewegingen kan aanpassen aan subtiele menselijke voorkeuren.

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

1. Het Probleem: De Robot als een Verwarde Chauffeur

2. De Experimenten: De "Kies de Beste Route"-Test

3. De Resultaten: Wie is de Slimste?

4. Twee Soorten Wensen: "Dichtbij" vs. "Stijl"

5. De "Kleine Leerling" en de "Grote Meester"

6. De Prijs van Slimheid (Rekenkracht)

Conclusie: Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Key Contributions (Bijdragen)

Significantie en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks