GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
O artigo apresenta o GST-VLA, um modelo de Visão-Linguagem-Ação que introduz um Tokenizador Espacial Gaussiano para representar observações visuais como primitivas 3D estruturadas e um raciocínio de Cadeia de Pensamento Consciente de Profundidade, alcançando desempenho superior em tarefas de robótica que exigem precisão geométrica.