pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning
El marco pySpatial permite a los modelos de lenguaje multimodal realizar razonamiento espacial cero-shot en 3D mediante la generación de código Python que integra herramientas de reconstrucción y visualización, superando significativamente a las bases de referencia existentes en benchmarks desafiantes y demostrando su eficacia en navegación robótica real.