RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
El artículo presenta RoboSpatial, un conjunto de datos a gran escala que combina escaneos 3D e imágenes egocéntricas con anotaciones espaciales ricas para entrenar modelos de visión-lingüística y mejorar su capacidad de razonamiento espacial en tareas de robótica.