Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
El artículo presenta SC-VLA, un modelo de visión-lenguaje-acción que logra auto-mejora mediante una imaginación de mundo dispersa y un módulo de refinamiento de acciones en línea, superando a los enfoques existentes en tareas de manipulación robótica con mayor eficiencia y tasa de éxito tanto en simulación como en entornos reales.