GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
Das Paper stellt GST-VLA vor, ein 3D-tiefenbewusstes Vision-Language-Action-Modell, das durch einen Gaussian Spatial Tokenizer für geometrisch strukturierte 3D-Gauß-Primitiven und eine 3D-tiefenbewusste Chain-of-Thought-Argumentation die Robotersteuerung auf Benchmarks wie LIBERO und SimplerEnv signifikant verbessert.