pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning
Das Paper stellt pySpatial vor, ein visuelles Programmier-Framework, das Multi-Modal Large Language Models durch die Generierung von Python-Code für den Zugriff auf räumliche Werkzeuge befähigt, um ohne Feinabstimmung eine präzise Null-Shot-Raumverständnis in 3D zu erreichen und dabei sowohl Benchmarks als auch reale Roboternavigation zu verbessern.