StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation
StemVLA es un modelo de visión-lenguaje-acción de código abierto que mejora la manipulación robótica y el razonamiento espacial al integrar explícitamente el conocimiento geométrico 3D futuro y representaciones históricas 4D en la predicción de acciones.