StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation
Die Arbeit stellt StemVLA vor, ein Open-Source-Vision-Language-Action-Modell, das durch die explizite Integration zukünftiger 3D-Raumgeometrie und historischer 4D-Spatiotemporal-Darstellungen die räumliche Schlussfolgerung und langfristige Entscheidungsfindung bei Robotermanipulationsaufgaben verbessert und damit neue Maßstäbe auf dem CALVIN ABC-D-Benchmark setzt.