RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
Das Paper stellt RoboSpatial vor, einen groß angelegten Datensatz mit 1 Million Bildern, 5.000 3D-Scans und 3 Millionen annotierten räumlichen Beziehungen, der entwickelt wurde, um räumliches Verständnis in 2D- und 3D-Vision-Language-Modellen für die Robotik zu verbessern und deren Leistung in Aufgaben wie Manipulation und räumlicher Vorhersage signifikant zu steigern.