pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du stehst in einem fremden Raum und hast nur ein paar Fotos von verschiedenen Ecken davon. Jemand fragt dich: „Was steht links von dem blauen Stuhl, wenn ich mich hierhin bewege?"

Ein normales KI-Modell (ein „Multi-Modell-LLM") versucht dann, diese Frage zu beantworten, indem es einfach rät oder sich die Szene im Kopf vorstellt. Das ist wie ein Mensch, der versucht, einen 3D-Puzzle-Raum nur aus dem Gedächtnis zu rekonstruieren, ohne die Teile wirklich zu sehen. Oft macht es dabei Fehler, weil es die räumlichen Beziehungen nicht wirklich „begreift".

Die Forscher von pySpatial haben eine clevere Lösung gefunden, die wir uns wie einen digitalen Architekt mit einem Werkzeugkasten vorstellen können.

Die Idee: Nicht raten, sondern bauen

Statt zu versuchen, die Antwort aus dem Nichts zu „erfinden", gibt pySpatial der KI einen neuen Auftrag: „Schreibe ein kleines Computerprogramm, das die Antwort findet."

Hier ist die Analogie, wie das funktioniert:

Der Bauplan (3D-Rekonstruktion):
Zuerst nimmt die KI die flachen 2D-Fotos und baut daraus einen echten, virtuellen 3D-Raum auf. Stell dir vor, die KI nimmt deine Fotos und schmilzt sie zu einem digitalen Tonmodell zusammen, das man von allen Seiten betrachten kann.
Der Werkzeugkasten (Die API):
Die KI hat jetzt einen Werkzeugkasten mit speziellen Befehlen, wie ein Roboter-Steuerpult. Dazu gehören:
- Drehen: „Drehe die Kamera um 90 Grad nach links."
- Gehen: „Gehe 2 Meter geradeaus."
- Neue Ansicht: „Zeig mir, was man sieht, wenn ich genau dort stehe."
Der Code-Generator (Das Gehirn):
Wenn die Frage kommt („Was ist links vom Stuhl?"), denkt die KI nicht einfach nur nach. Sie schreibt stattdessen einen kleinen Python-Code (eine Art Befehlsliste):
- Schritt 1: Baue den Raum aus den Fotos.
- Schritt 2: Gehe zum Stuhl.
- Schritt 3: Drehe die Kamera nach links.
- Schritt 4: Mache ein Foto von dem, was jetzt zu sehen ist.
Die Ausführung (Der Beweis):
Das Programm wird ausgeführt. Die KI sieht das neue Foto, das durch das Drehen entstanden ist. Auf diesem Foto steht vielleicht ein blauer Mülleimer. Die Antwort ist also nicht geraten, sondern bewiesen.

Warum ist das so besonders?

Kein Auswendiglernen nötig: Die KI muss nicht Millionen von 3D-Bildern gelernt haben. Sie kann die Werkzeuge einfach benutzen, um die Antwort zu finden, egal ob sie den Raum vorher schon kennt oder nicht. Das nennt man „Zero-Shot" (Null Versuche nötig).
Nachvollziehbarkeit: Da die KI einen Code schreibt, können Menschen genau sehen, wie sie zu der Antwort gekommen ist. Es ist wie ein Kochrezept: Man sieht jeden Schritt, statt nur das fertige Gericht zu sehen.
Roboter im echten Leben: Die Forscher haben das sogar auf einen echten Vierbeiner-Roboter (einen Hund-Roboter) angewendet. Der Roboter konnte durch ein echtes Labor laufen, weil pySpatial ihm genaue Anweisungen gab („Drehe 30 Grad nach rechts, gehe 2 Meter"), die auf der 3D-Karte basierten. Ein normales KI-Modell wäre hier wahrscheinlich gegen eine Wand gelaufen, weil es die Entfernungen falsch eingeschätzt hat.

Zusammenfassung in einem Satz

pySpatial verwandelt die KI von einem „Rater", der nur im Kopf spekuliert, in einen „Handwerker", der erst einen 3D-Modellraum baut, dann mit Werkzeugen darin herumexperimentiert und erst dann die Antwort gibt, die er mit eigenen „Augen" (dem generierten Bild) gesehen hat.

Es ist der Unterschied zwischen jemandem, der sagt: „Ich glaube, links vom Stuhl ist ein Mülleimer, weil das so üblich ist," und jemandem, der sagt: „Ich habe mich umgedreht, geschaut und gesehen: Ja, da steht ein blauer Mülleimer."

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Multimodale Large Language Models (MLLMs) haben zwar beeindruckende Fortschritte bei allgemeinen Wahrnehmungs- und Denkaufgaben erzielt, scheitern jedoch oft an Aufgaben, die ein tiefes räumliches Verständnis der 3D-Welt erfordern. Aktuelle Modelle haben Schwierigkeiten, relative Objektpositionen zu beurteilen, Tiefen abzuschätzen oder komplexe räumliche Beziehungen über mehrere Ansichten hinweg zu reasoning (z. B. „Was befindet sich links von mir, wenn ich mich umdrehe?").

Die Hauptursache liegt darin, dass MLLMs zwar auf riesigen Mengen von Bild-Text-Paaren vortrainiert sind, aber kaum explizite 3D-Supervision erhalten. Bisherige Ansätze, die auf „impliziter Imagination" oder 2D-kognitiven Karten basieren (wie Spatial Mental Models), sind oft unzuverlässig, da sie keine echte geometrische Grundlage haben und auf dem „Gedankenexperiment" des Modells beruhen, was zu Fehlern führt.

Methodik: pySpatial

Die Autoren stellen pySpatial vor, ein visuelles Programmier-Framework, das MLLMs befähigt, explizit im 3D-Raum zu reasoning, indem es Python-Code generiert, um eine Reihe von räumlichen Werkzeugen („Spatial Tools") aufzurufen. Der Ansatz funktioniert vollständig Zero-Shot (ohne Fine-Tuning des MLLM) und ist plug-and-play.

Der Workflow gliedert sich in folgende Schritte:

3D-Rekonstruktion:
Aus einer Sequenz von 2D-Bildern wird mittels feed-forward 3D-Rekonstruktionsmodellen (z. B. VGGT oder CUT3R) eine explorable 3D-Szene erstellt. Dies liefert konsistente Tiefenschätzungen, Kameraintrinsiken und -extrinsiken sowie einen Punktwolken-Representation ( $P$ ) der Szene.
Visuelle Programmierung (Code-Agent):
Ein Code-Agent (ein MLLM wie GPT-4o) erhält die Bilder und die natürliche Sprachabfrage. Anstatt die Antwort direkt zu generieren, synthetisiert er einen Python-Code, der die pySpatial-API nutzt. Dieser Code orchestriert die folgenden Operationen:
- reconstruct(): Erstellt die 3D-Szene.
- rotate_left/right(), move_forward/backward(), turn_around(): Manipuliert die Kamerapose innerhalb der rekonstruierten Szene.
- synthesize_novel_view(): Rendert neue Ansichten aus den neuen Kamerapositionen.
- describe_camera_motion(): Übersetzt Kameraposen in natürliche Sprache.
Ausführung und Antwortgenerierung:
Der generierte Code wird von einem Interpreter ausgeführt. Das Ergebnis sind neue Bilder (Novel Views) oder Textbeschreibungen, die als visuelle Beweise dienen. Das MLLM nutzt diese neuen visuellen Eingaben zusammen mit der ursprünglichen Abfrage, um die finale Antwort zu generieren.

Dieser Ansatz wandelt abstrakte räumliche Fragen in konkrete geometrische Operationen um, die durch die rekonstruierte 3D-Szene validiert werden können.

Hauptbeiträge

pySpatial Framework: Ein neues Zero-Shot-Framework, das MLLMs durch generierte Python-Programme mit einer API für 3D-Werkzeuge verbindet, um explizites räumliches Reasoning zu ermöglichen.
Überlegene Leistung: Das Framework übertrifft starke MLLM-Baselines (sowohl Open-Weight als auch proprietäre Modelle wie GPT-4o) signifikant auf etablierten Benchmarks.
Praktische Anwendbarkeit: Die Methode wurde erfolgreich in realen Roboternavigationsexperimenten eingesetzt, wo ein vierbeiniger Roboter komplexe Innenräume basierend auf den von pySpatial generierten Routenplänen erfolgreich navigierte.
Interpretierbarkeit: Da die Lösung in ausführbarem Code besteht, ist der Denkprozess des Modells transparent, debugbar und nachvollziehbar.

Ergebnisse

Die Evaluation erfolgte auf den Benchmarks MINDCUBE (Multi-View Spatial Reasoning) und OMNI3D-BENCH (Single-View).

MINDCUBE: pySpatial erreichte eine Gesamtgenauigkeit von 58,56 %. Dies ist eine Steigerung von 12,94 % gegenüber dem starken Baseline-Modell GPT-4.1-mini (45,62 %) und übertrifft auch spezialisierte räumliche Modelle wie VLM-3R um 16,5 %.
OMNI3D-BENCH: Auch im Single-View-Setting erzielte pySpatial State-of-the-Art-Ergebnisse (44,2 % Gesamtgenauigkeit) und übertraf sowohl VADAR als auch GPT-4o.
Roboter-Navigation: In realen Laborexperimenten konnte pySpatial einen Quadruped-Roboter (Unitree Go1) erfolgreich zu einem Zielobjekt navigieren, während Baseline-Modelle (GPT-4.1) aufgrund falscher Richtungsangaben und fehlender metrischer Genauigkeit scheiterten.
Effizienz: Die Methode ist effizient (ca. 7,45 Sekunden pro Abfrage) und benötigt kein Training des MLLM.

Bedeutung und Implikationen

Die Arbeit zeigt, dass die Kombination von generativer Programmierung und expliziten geometrischen Werkzeugen eine vielversprechende Richtung ist, um die Limitationen von MLLMs im 3D-Raum zu überwinden. Anstatt zu versuchen, das Modell durch mehr Daten zu „beibringen", wie 3D-Räume funktionieren, wird das Modell in die Lage versetzt, Werkzeuge zu nutzen, die diese Informationen objektiv liefern.

Dies hat weitreichende Konsequenzen für Anwendungen in der Robotik, Augmented Reality und embodied AI, wo präzises räumliches Verständnis für Sicherheit und Zuverlässigkeit kritisch ist. pySpatial demonstriert, dass Zero-Shot-Ansätze durch strukturiertes, tool-basiertes Reasoning konkurrenzfähig mit oder sogar überlegen gegenüber stark fine-getunten oder spezialisierten Modellen sein können.

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

Die Idee: Nicht raten, sondern bauen

Warum ist das so besonders?

Zusammenfassung in einem Satz

Problemstellung

Methodik: pySpatial

Hauptbeiträge

Ergebnisse

Bedeutung und Implikationen

Mehr davon

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies