GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
Het paper introduceert GST-VLA, een 3D diepte-bewust Vision-Language-Action-model dat anisotrope 3D-Gaussische ruimtelijke tokens en gestructureerde redeneerprocessen gebruikt om de precisie en prestaties van robotacties aanzienlijk te verbeteren.