RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models
El artículo presenta RetoVLA, una arquitectura que mejora la eficiencia y el razonamiento espacial de los modelos Visión-Lenguaje-Acción al reutilizar tokens de registro descartados para inyectar contexto global en la planificación de acciones, logrando un aumento del 17,1 % en la tasa de éxito en tareas robóticas reales sin incrementar el número de parámetros.