Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber noch etwas unerfahrenen Roboter-Assistenten. Sie wollen, dass er eine Tasse Kaffee vom Tisch zur Küche bringt. Das ist für den Roboter eigentlich einfach: „Geh von A nach B."

Aber was, wenn Sie sagen: „Bring mir die Tasse, aber umgeh den Tisch auf dem kürzesten Weg" oder „Geh einen schlängelnden, lustigen Pfad um die Vase herum, damit du nicht anstößt"?

Genau hier setzt diese Forschung an. Die Wissenschaftler wollen herausfinden, ob moderne „Seh-und-Sprach-KI-Modelle" (die man VLMs nennt) so gut darin sind, diese Art von räumlichen Wünschen zu verstehen, dass sie einem Roboter den perfekten Weg vorschlagen können.

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Der Roboter kennt den Weg, aber nicht den Stil

Stellen Sie sich vor, Sie haben einen Navigationscomputer im Auto. Er kann Ihnen den schnellsten Weg berechnen. Aber wenn Sie sagen: „Ich möchte eine malerische, kurvige Route durch den Wald, keine Autobahn", versteht der normale Computer das oft nicht. Er kennt nur „schnell" oder „kurz".

Die Forscher wollten testen, ob die neuen, super-intelligenten KI-Modelle (wie Chatbots, die auch Bilder sehen können) diese „Stil-Wünsche" verstehen. Können sie sagen: „Aha, der blaue Weg ist zwar länger, aber er hält sich fern vom Fenster, genau wie der Nutzer wollte"?

2. Der Test: Ein riesiges Bild mit vielen bunten Linien

Um das zu testen, haben die Forscher eine Art „Wahlkampf" für Roboterwege organisiert.

Die Kandidaten: Für jede Aufgabe (z. B. „Geh zur Tür") haben sie einen klassischen Roboter-Algorithmus gebeten, 50 verschiedene Wege zu finden. Manche waren kurz, manche lang, manche wackelig, manche nah am Sofa vorbei.
Die Präsentation: Sie haben diese 50 Wege auf einem Bild als farbige Punkte-Linien eingezeichnet. Es sah aus wie ein buntes Spaghetti-Netz.
Die Jury: Dann haben sie verschiedene KI-Modelle (die „Jury") vor das Bild gesetzt und gesagt: „Hier ist der Wunsch des Kunden: Geh zum Ofen, aber bleib weit weg vom Fenster. Welcher der bunten Wege passt am besten?"

3. Die Ergebnisse: Wer ist der beste Wegweiser?

Die Forscher haben vier verschiedene Methoden getestet, wie sie den KI-Modellen die Bilder zeigen:

Methode A: Alle 50 Wege auf einem einzigen Bild zeigen (wie ein großer Überblick).
Methode B: Jeden Weg einzeln auf einem separaten Bild zeigen (wie eine Diashow).
Methode C & D: Andere Tricks mit Screenshots oder zusätzlichen Beschreibungen.

Das Ergebnis war überraschend klar:
Die Methode, bei der alle Wege auf einem einzigen Bild zu sehen waren, war die beste.

Warum? Stellen Sie sich vor, Sie müssen den besten Kandidaten für einen Job auswählen. Wenn Sie die Kandidaten nacheinander sehen, vergessen Sie den ersten, wenn der zweite kommt. Wenn Sie aber alle gleichzeitig vor sich haben, können Sie sie direkt vergleichen: „Oh, dieser hier ist viel weiter vom Fenster entfernt als der andere!"
Der Gewinner: Das Modell Qwen2.5-VL war der beste „Wegweiser". Es hatte in über 70 % der Fälle den richtigen Weg gefunden. Ein anderes bekanntes Modell (GPT-4o) war etwas schlechter.

4. Die zwei Arten von Wünschen

Die Forscher haben zwei Arten von Wünschen getestet:

Objekt-Nähe: „Geh nah an der Lampe vorbei" oder „Bleib weit weg vom Hund". Hier waren die KIs sehr gut (ca. 74 % Erfolg).
Weg-Stil: „Geh in einer Zick-Zack-Linie" oder „Mach einen Bogen". Das war schwieriger (ca. 64 % Erfolg). Das ist wie wenn man jemandem sagt: „Mach eine elegante Kurve" – das ist für eine KI abstrakter als „Bleib weg von der Vase".

5. Der Trick mit dem Lernen (Feinabstimmung)

Einige der Modelle waren klein und nicht so teuer im Einsatz. Am Anfang waren sie nicht so gut. Aber die Forscher haben ihnen nur winzige Mengen an Beispielen (wie ein kleines Übungsbuch mit 98 Aufgaben) gezeigt, um sie zu „feinabstimmen" (Fine-Tuning).
Das Ergebnis? Die kleinen Modelle wurden plötzlich fast so gut wie die riesigen! Es ist, als würde man einem Schüler nur ein paar Beispiel-Aufgaben geben, und plötzlich versteht er das ganze Prinzip.

6. Das Fazit: Ein vielversprechender erster Schritt

Die Studie zeigt, dass diese KI-Modelle wirklich anfangen zu verstehen, wie wir Menschen uns bewegen wollen. Sie können nicht nur sagen „Geh dorthin", sondern auch „Geh dorthin, aber schön und vorsichtig".

Aber es gibt noch Hürden:

Manchmal „halluzinieren" die KIs: Sie wählen einen Weg, der gar nicht existiert (z. B. sagen sie „Der rote Weg ist der beste", obwohl es keinen roten Weg gibt).
Manchmal verwechseln sie „kurz" und „lang".

Zusammenfassend:
Diese Forschung ist wie der erste Schritt, um einem Roboter beizubringen, nicht nur wie ein starrer Computer zu funktionieren, sondern wie ein menschlicher Begleiter, der auf unsere stilistischen Wünsche eingeht. Wenn wir die KIs noch ein bisschen besser trainieren, könnten Roboter in Zukunft nicht nur Dinge tragen, sondern sie auch auf die Art und Weise tragen, die wir uns wünschen – ohne uns zu stören und genau so, wie es uns gefällt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Intelligente Robotersysteme benötigen ein tiefes Verständnis räumlicher Beziehungen und natürlicher Sprachanweisungen, um Menschen bei verschiedenen Aufgaben zu unterstützen. Während Foundation-Modelle (wie Vision-Language Models, VLMs) bereits erfolgreich für die Aufgabenplanung (Task Planning) eingesetzt wurden, ist unklar, inwieweit diese Modelle über die notwendige räumliche Reasoning-Fähigkeit verfügen, um spezifische Bewegungsvorlieben (Motion Preferences) oder -einschränkungen zu verstehen und umzusetzen.

Solche Vorlieben umfassen:

Objekt-Nähe: z. B. „Bewege dich nah am Tisch vorbei, aber halte Abstand zum Fenster."
Pfad-Stil: z. B. „Nimm den kürzesten Weg," „fahre eine Zickzack-Kurve" oder „bewege dich geschmeidig."

Das Ziel der Arbeit ist es, die Fähigkeit aktueller VLMs zu evaluieren, robotische Trajektorien basierend auf solchen textuellen Beschreibungen aus einer Menge von Kandidatenpfaden auszuwählen.

2. Methodik

Datengenerierung und Pfadkandidaten

Die Autoren generierten einen Datensatz von 558 robotischen Bewegungsplanungsproblemen in simulierten häuslichen Umgebungen (basierend auf iGibson und dem BEHAVIOR-Datensatz).

Pfadgenerierung: Für jedes Problem (Start- und Zielposition) wurden diverse Kandidatenpfade mittels heuristischer Methoden erzeugt, speziell durch Kombination von BiRRT (Bidirectional Rapidly-exploring Random Trees) und Probabilistic RoadMaps (PRM).
Diversität: Um verschiedene geometrische und topologische Eigenschaften zu erhalten, wurden die Algorithmen mit unterschiedlichen Zufallssamen und Kostenfunktionen (z. B. kürzeste Distanz, sinusförmig, kreisförmig) ausgeführt.
Clustering: Die generierten $n$ Pfade wurden mittels K-Means-Clustering gruppiert. Aus jedem Cluster wurde der Pfad ausgewählt, der dem Cluster-Zentrum am nächsten liegt, um eine repräsentative, diverse Menge von $k$ Kandidatenpfaden zu erhalten.
Annotation: Jeder Pfad wurde manuell mit einer eindeutigen Beschreibung versehen, die ihn von den anderen unterscheidet, um den Ground Truth für die Evaluierung zu definieren.

Evaluierungsansatz (VLM-basierte Pfadauswahl)

Das Kernkonzept besteht darin, einen VLM als „Bewerter" (Judge) einzusetzen. Gegeben eine Aufgabe und eine Menge von Pfadkandidaten (visualisiert als Bild), soll der VLM den Pfad auswählen, der die Benutzeranweisung am besten erfüllt.

Es wurden vier verschiedene Abfragemethoden (Querying Methods) getestet:

Single-image trajectory: Alle Kandidatenpfade werden als farbige Punkttrails in einem einzigen Bild dargestellt.
Multi-image trajectory trail: Jeder Pfad wird in einem separaten Bild gezeigt; der VLM bewertet jedes Bild einzeln.
Single-image mit visuellem Kontext: Der VLM wird zunächst aufgefordert, einen strukturierten visuellen Kontext (Objekte, Beziehungen) zu generieren, bevor er den Pfad bewertet.
Screenshot-Galerie: Für jeden Pfad wird eine Sequenz von Screenshots der Roboterausführung generiert; der VLM muss die passende Reihe auswählen.

Evaluierte Modelle

Drei state-of-the-art VLMs wurden getestet:

Qwen2.5-VL-72B: Mit Fokus auf visuelle Lokalisierung und Grounding.
GPT-4o: Bekannt für hohe Leistung in visuellen Wahrnehmungsbenchmarks.
LLaVa1.5: Spezialisiert auf konversationelles Visual Question Answering.

3. Wichtige Beiträge und Ergebnisse

Leistung der Abfragemethoden

Die Single-image-Methode (alle Pfade in einem Bild) erwies sich als überlegen mit einer durchschnittlichen Genauigkeit von über 70 % für Qwen2.5-VL.
Die Multi-image-Methode führte zu niedrigerer Genauigkeit, da der VLM Schwierigkeiten hatte, relative Vergleiche zwischen einzelnen Bildern anzustellen (inkonsistente Metrik).
Die Screenshot-Galerie-Methode performte nur knapp über dem Zufall, vermutlich aufgrund der geringen Auflösung der einzelnen Screenshots.
Die Hinzufügung eines expliziten „visuellen Kontext"-Schritts verbesserte die Genauigkeit bei großen Modellen nicht, da diese bereits interne Kontextmechanismen besitzen.

Genauigkeit nach Aufgabentyp und Modell

Navigation vs. Manipulation: Die Modelle schnitten bei Navigationsaufgaben (Bewegung des Roboters im Raum) besser ab (71,4 % bei Qwen2.5-VL-72B) als bei Manipulationsaufgaben (Arm-Bewegungen, 65,5 %).
Präferenz-Typen:
- Objekt-Nähe (Proximity): Qwen2.5-VL erreichte hier die höchste Genauigkeit (74,4 % bei Navigation, 66,3 % bei Manipulation).
- Pfad-Stil (Style): Die Genauigkeit war hier niedriger (z. B. 63,9 % bei Navigation), da Konzepte wie „Zickzack" oder „kurvig" schwerer zu quantifizieren sind.
Modellvergleich: Qwen2.5-VL-72B übertraf GPT-4o in den meisten Szenarien, was auf dessen stärkere Fähigkeiten im visuellen Grounding zurückgeführt wird. GPT-4o zeigte jedoch bei Pfad-Stil-Problemen in Manipulationsaufgaben die beste Leistung.

Fine-Tuning und Skaleneffekte

Fine-Tuning: Das Fine-Tuning kleinerer Modelle (LLaVa1.5-7B und Qwen2.5-VL-7B) mit nur 98 Beispielen führte zu signifikanten Genauigkeitssteigerungen (über 20 % bei Qwen, über 60 % bei LLaVa). Dies zeigt, dass die Architekturen auch mit wenig Daten an neue Benutzeranweisungen adaptiert werden können.
Token-Kosten vs. Genauigkeit: Es wurde ein linearer Zusammenhang zwischen der Anzahl der verarbeiteten Tokens (bzw. Bildgröße) und der Genauigkeit festgestellt. Die Single-image-Methode ist dabei am effizientesten, da sie die geringste Token-Anzahl bei der höchsten Leistung benötigt.

4. Signifikanz und Fazit

Diese Arbeit liefert einen wichtigen ersten Schritt zur Integration von VLMs in Roboter-Bewegungsplanungs-Pipelines. Sie demonstriert, dass VLMs nicht nur Aufgaben planen, sondern auch Bewegungsstil und räumliche Constraints basierend auf natürlicher Sprache interpretieren können.

Praktische Implikation: Der vorgeschlagene Ansatz (Generierung diverser Pfade durch klassische Planer + Bewertung durch VLM) ermöglicht es Robotern, menschliche Präferenzen wie „halte Abstand zu Objekten" oder „fahre einen geschmeidigen Weg" zu erfüllen, ohne dass das gesamte Planungsproblem neu gelöst werden muss.
Limitationen: Häufige Fehlerquellen sind das Versagen beim Erkennen von „kürzesten" oder „längsten" Pfaden (eine Domäne klassischer Optimalplaner) und Halluzinationen (Auswahl einer nicht existierenden Farbe/Pfad).
Zukunft: Die Autoren sehen Potenzial, diese Fähigkeiten robust in Robotersysteme zu integrieren, wobei zukünftige Arbeiten auf die Erhöhung der Genauigkeit und die Entwicklung geeigneter Schnittstellen für die menschliche Einbindung (Human-in-the-loop) abzielen müssen.

Zusammenfassend zeigt das Paper, dass VLMs, insbesondere Qwen2.5-VL, vielversprechende Kandidaten für die semantische Filterung von Bewegungsplänen sind, wobei die Wahl der Visualisierungsmethode (Single-Image) und ggf. ein kurzes Fine-Tuning entscheidend für den Erfolg sind.