GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
El artículo presenta GST-VLA, un modelo de visión-lenguaje-acción que mejora la percepción geométrica y el razonamiento espacial mediante un tokenizador de Gaussiana 3D y un proceso de pensamiento encadenado consciente de la profundidad, logrando un rendimiento superior en tareas de manipulación robótica.